Abstract
食物照片被广泛应用在食物饮食监测、食物日志、以及分享烹饪经历的社交网络中。大量的图片在餐厅中拍摄, 由于不同的菜品、烹饪方式以及从视觉外观来进行食物建模的内在困,使得菜品识别通常很具有挑战性。因此,上下文信息在这样的应用场景下对提高识别性能显得尤为重要。尤其是,地理上下文在户外地表识别上被广泛地探索之后。相似的,我们探讨菜谱、位置、餐馆以及测试图片之间的相关信息。首先,丢弃与测试图片相差较大的非相似类别去适应一个网络;然后,使用一个随机模型链接菜品、餐厅、位置对问题进行重现。在三个不同任务上应用这个模型:菜品识别、餐馆识别、位置优化。在6个数据库上的实验表明通过整合多个线索(视觉、位置、知识)我们的系统能在所有课题上提高性能。
Introduction
饮食是日常必需的活动,食物和我们生活的方方面面紧密相连。随着近来诸如智能手机和计算机视等科技的发展,食物相关的应用也逐渐繁荣。健康监测是一个重要的研究领域。比如食物日志,卡路里摄入估计,营养分析。饮食自我监测通过改变饮食习惯能有效帮助人们减重。其余一些比较流行的领域包括烹饪。比如烹饪视频检索和创作,烹饪行为识别,菜单计划,食谱推荐,增强配方,烹饪支持和帮助。本文的工作集中在社会语境中的菜品图片,提供自动的标注以及检索出相似的图片。社交网络对于预测消费模式和食物分析非常有用。
为了有效实现这些应用,从图片中直接识别食物变得非常必要。然而,不受限制的食物识别对于人类来说也仍然很具有挑战性,尤其是只依赖于视觉信息。事实上,当处理复杂的识别任务时,人类会联合先验和语义信息。相似的,智能系统也能借助外部知识来简化问题。
本文关注生活中人们去餐厅吃饭和拍摄食物照片这个特定却又普遍的场景。这些照片能够被保存在个人的食物日志里,被用来提取营养信息、食谱、感兴趣的任何其他信息,或者作为个人经历分享到社交网络。用户通常对于特定的食物或者餐厅不熟悉(比如当初次旅游时),所以自动识别就会显得很方便。在这样的场景下,食物名称和餐厅名称是两个重要的标签。这种场景下的无约束的菜品识别由于食物种类繁多,烹饪方法和不同餐厅的展示方式不同而变得及其困难。因此我们借助外部信息(菜单和餐厅信息)以及探索地理位置来简化问题,提高性能。
本文采用随机策略,允许为问题中的每一个元素设计一个弹性的模型,通常会提升一定的性能。因此,我们提出一个连接位置、餐厅、菜品和视觉特征的随机模型。通过结合视觉、位置信息、餐厅信息,能够显著提高自动的菜品和餐厅名字标注的性能。同时,本文能够优化位置估计,在室内这种难以估计的环境下尤其有用。
Related work
在本文的特定场景下(餐厅中的菜品识别)我们能识别两类相关工作:菜品识别和基于文本的图片识别。
早期的菜品识别能够在很多的类别中进行分类,[Automatic expansion of a food image dataset leveraging existing categories with domain adaptation]提出一种能够辨别256种菜品的手机菜品识别系统。然而多菜品识别以及精细分类仍是一个难题。
当人类面临一个复杂问题时,通常会查找比内容本身更重要的语义信息。类似的,现代设备能够探索不同来源的知识(网站、数据库)以及语义信息(GPS,加速计)。最具代表性的例子是手机识别地标。[Content and context boosting for mobile landmark recognition]基于位置和图片检索技术从地标图片数据库中查找类似的地标,以此来对测试图片进行标注。位置能够有效将搜索过程限制在一个小的图片子集中。典型的,像SIFT一类的局部特征被提取出来,编码成“词袋”模型或者利用单词树。由于地标具有刚性和几何不变性,提取相似图片并验证几何形就能找到正确的地标。分类器通常会替代检索技术。此时位置信息能够帮助限制分类任务在集合领域中。
[Menu match: Restaurant-specific food logging from images]、[Leveraging context to support automated food recognition in restaurants]、[Geolocalized modeling for dish recognition]同时提出来利用文本信息和位置信息去提升菜品识别率。它们能减少在附近餐厅菜单中的菜品的候选类别。[menu match]还提取了菜品的营养信息,在一个从10家餐馆提取出的4350张图片,3家餐馆提取的645张图片数据库上进行试验。 这些研究致力于地理位置条件下的分类,表明位置信息能够帮助提高分类性能。相反的,本文我们关注对语义信息、等其他信息的更好地建模而不是视觉分类器其本身。
Dish recognition in restaurants
A.餐厅菜品识别问题
传统的食物或者菜品识别试图通过特定的视觉分类器p去识别输入图片的类别s以及他们的视觉描述x。我们关注餐厅中的菜品识别,假设用户目前正处在餐厅中。因此除了视觉模型,系统还获得了语义信息,尤其是菜单归属的餐厅以及用户和餐厅的地理位置。
识别系统将(U,x)作为输入,U表示位置坐标,x为视觉描述子。当新图片被捕获时,假设手机设备已经通过位置服务功能估测到了当前位置(latitude,longitude)。
对于一个给定的餐厅k,系统探索菜单Mk和地理位置(latitude,longitude)的信息。Mk是指餐厅k所提供的菜品类别信息。餐厅数据库包含了K家餐厅的所有菜品。
B.方法1:候选名单
迄今一个较简单的获取位置信息的方法是丢弃不太可能的候选信息以减少问题复杂度。这种方法通常用在地标识别上,通常被叫做候选名单方法。该方法使用位置信息去丢弃以u为中心的一定区域之外的地标或者建筑,然后在保留的候选信息中寻找和原图相似的地标。由于保留的图片以分数形式呈现候选等级,所以简化问题和计算量同时提高精度。
这种方法也能被应用于本文中,用户用智能终端拍摄图片通过系统定位功能获取位置信息。图片一定是在定位的附近拍摄,只有附近餐馆的菜单才会包含用户拍摄的这张图片,所以候选类别能够被视觉分类器所识别。给定坐标信息U和视觉描述x,菜品预测等价于寻找在候选菜单中的最大似然,
Probabilistic Framework
A.model
候选名单方法的思想很直观,本文采用概率论的观点对系统进行建模,以利用概率模型联系不同元素而不是根据经验法则。本文模型中,手机等终端设备提供预测的位置信息u和视觉描述x,也就是观测变量。确切的位置信息ψ,餐厅k,菜品s是潜在变量。明确引入餐厅和菜品(通过菜单),视觉特征和菜品(通过视觉分类器),餐厅和用户位置,这几者之间的依赖关系。引入ψ变量表示用户位置,该位置不同于移动终端预测的位置。
给定当前观测和潜在变量,以及地理模型,联合概率p(s,k,ψ|u,x)表示为
因式分解后可以得出三个关键信息:p(ψ|u)表示领域模型,p(k|ψ)表示餐厅位置模型,p(s|k,x)表示视觉模型。
为了预测菜品,将k,ψ边缘化,
通过解答下式可以获得菜品的分类结果,
B.Revisiting the shortlist approach
名单再访问如下图所示,
领域模型实际上就是以u为圆心,e为半径的圆,
餐厅用点表示,因此,用以下delta函数表示餐厅位置的联系,
对于每一个餐厅来说,只有在该餐厅菜单中的菜品才是候选类别,因此具有非零的概率。将此在视觉模型中进行表示,
其中p=1(当描述为真);p=0(当描述为假)。该式能够归一化以包含所有概率。
PS:原文——《Modeling Restaurant Context for Food Recognition》