saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

食事シーンのリアルタイム自動認識システム

岡元 晃一


Date: 平成 25 年 2 月 4 日


1 はじめに

近年,世間の健康的思考の高まりにより食事記録を取る人が増えている. しかし,それには食事前に画像を撮影したり,その食べ物の名前を入力したり,カロリーを計算したりなどと非常に手間がかかる. その手間によって記録をつけるのが億劫になり,続かない場合があると考えられる.

先行研究として河野らも食事記録支援システム [1]を開発しているが,これは出された料理を食べる前に認識を行うもので,1人での食事では非常に有用であるが,大皿料理や焼き肉といったものには対応しづらい.

そこで,食事シーンをスマートフォンで動画に撮影することで大皿料理などにも対応できるようなリアルタイム自動認識システムの作成を目指す.つまり撮影した動画から食べ物の名前や量,カロリーなどを検出,認識を行うことを目指す.

2 目的

本研究では,食事シーンを動画に撮影し,そこから食べたものの名前や量,カロリーを検出,認識することを目的とする. システムは携帯のしやすく記録をとることが行いやすいスマートフォンアプリという形での実装を行う. 使用する動画には飲食者の顔が正面から映っており,口元に食器が近づく様子が確認できる程度の距離で撮影されている動画を使用する. 顔が正面から映っていること以外には特に制約はなく,タグや位置情報なども必要ない.

ものを食べたという判断には,口元にものを運んだ瞬間とする. これには動画内から口を検出して,その付近に食べ物が近づいたことを箸などの食器を検出することで判断する. そして画像を切り出し,その切り出した画像から食べ物を検出し,その食べ物の名前,量,カロリーの計算などを行う. 本システムのイメージ図を図1に示す.

Figure 1: 本システムのイメージ図
Image SC3_2

3 関連研究

これはある意味での生活記録でもあるので,ウェアラブルカメラでの記録も考えられる.実際に一人称視点映像での手の検出の研究 [2]などは行われており,指定内の環境であれば室内,室外問わず高い精度を示せる.従って,この手法を用いることも考えたが,食事シーンではウェアラブルカメラを装着する頭部が非常に動き映像が安定しなかったり,食べ物がカメラ外になってしまうことが多くあったりした.そのために本研究では固定カメラで顔を正面から撮影する手法を選択した.

4 システムの概要

本システムでは以下のような流れを考えている.
  1. 食事シーンの動画を撮影する
  2. 食べ物を口もとに運んだ瞬間の画像を切り出す
  3. 切り出した画像から食べ物の種類を認識する
  4. 食べた量やカロリーの計算を行い記録する
システム中の関数はOpenCVライブラリを使用している.

5 システムの詳細

1 口検出

本研究では口元に食べ物が来た瞬間をものを食べた瞬間として認識するのでまずは口の検出を行う必要がある. しかし,ただ口の検出を行っても背景や顔でも眼が口として検出されてしまっている場合がある.

そこで口を検出する前に顔を検出し,その領域内でのみ口を検出した.これにより背景に口が検出されることがなくなり,更に顔の下部分のみを探索対象とすることで眼が口として検出されることがなくなった.結果を図2に示す.

Figure 2: 顔検出を用いた前(左)と後(右)の口検出
Image eat_first Image eat_face

2 箸検出

箸は基本的に直線なので画像中の直線部分を検出し,認識する. 直線の検出には確率的ハフ変換を用いて線分として検出できるようにした.

しかし,実際に検出を行うと背景部分にも大量の線分が検出されてしまいどれが正しい箸か分からず,総当たりに箸かの認識を行うのも非効率的である. そこで動画中の動いている前面部分のみを切り出し,そこでのみ直線の検出を行い,箸の検出を行った. これにより背景に検出された線分を無視することができ非常によい結果となった. 結果を図3に示す.

Figure 3: 箸の認識,前面切り出し前(左)と後(右)
Image eat_all Image eat_hasi2

3 食事画像認識

スマートフォンはPCに比べて,CPUの処理性能が十分ではないため,実行速度も非常に重要である. そこで現在画像認識で主流である局所特徴量から1種,カラーヒストグラムから1種の計2つを候補に挙げた.

局所特徴量ではSIFT特徴量やSURF特徴量が主流である.予備実験でSURF特徴量を用いた実装も行ったが,十分な処理速度が得られなかったため,今回はそれらの発展系であるRubleeらの提案したORB特徴量[3]を用いる.

前述の特徴量よりもバイナリコードでの記述なので精度が落ちるがハミング距離での計算が可能なので非常に高速であり,回転やスケール変換にも強いという利点がある. 本システムでは,求められたORB特徴量をBag-of-Featuresを用いてヒストグラムとして表現しそれを画像の値とする.

また,食事画像における特徴量では色特徴量が有力であると上東ら[4]の研究でも言及されている. そこで本システムでもHSV色空間を用いたカラーヒストグラムを作成し,そのヒストグラムを特徴量として用いて認識を行う.

分類には線形SVMを用いる.このとき高次元写像を行うことで線形SVMを用いても非線形SVMと同等の精度を出すことができ,なおかつ計算量とメモリの大幅な削減を実現している.

6 実験

実験では食べる前に量がわからない大皿料理や鍋の中から家庭内や外食においても非常に多く食べられている焼き肉を対象にする. そして,焼き肉を行う上で食材として選ばれる可能性の高い以下の5種類に対して実験を行う.

1,肉 2,ご飯 3,かぼちゃ 4,ピーマン 5,にんじん

使用する特徴量は前述の2つの特徴量を組み合わせて使用したものがもっとも結果が良かったのでそれを用いる.

実験は精度評価とユーザ評価の2つを行う. 以下精度評価実験を行い食材それぞれの再現率,適合率,全体の精度を示したものが表1である.

   
Table 1: 精度結果
食品 再現率(%) 適合率(%)
76.0 74.5
ご飯 86.0 89.6
かぼちゃ 56.0 57.1
ピーマン 88.0 72.1
にんじん 68.0 82.9
全体の精度(%) 74.8

またユーザにおける評価でも食べる毎に画面上のボタンをタッチするようなシステムよりも使いやすいという評価を得た.

7 まとめ

本研究では食事シーンをスマートフォンで撮影することでリアルタイムに食事記録をつけられるシステムを作成した. 結果としては74.8%の精度を得て,ユーザ評価においてもベースシステムよりも使いやすいという評価を得た.

今後はスマートフォンアプリのUIの見やすさや,ユーザによる誤認識の修正機能,食事記録の履歴を閲覧できる機能の追加などを考えたい.

また今回データセットにおいては食品サンプルと実際の食品を混合させたものを作成したが,これがより改善されれば精度の向上に貢献すると考えられるのでデータセットの構築方法を考えるとともに焼き肉以外の鍋などの大皿料理にも対応したい.

参考文献

1
Y. Kawano and K. Yanai.
Real-time mobile food recognition system.
In Proc. of CVPR International Workshop on Mobile Vision (IWMV), 2013.

2
C. Li and K. Kitani.
Pixel-level hand detection in ego-centric videos.
In Proc.of IEEE Computer Vision and Pattern Recognition, pp. 3570-3577, 2013.

3
E. Rublee, V. Rabaud, K. Konolige, and G. Bradski.
ORB: an efficient alternative to SIFT or SURF.
In Proc.of IEEE International Conference on Computer Vision, 2011.

4
上東太一, 甫足創, 柳井啓司.
Multiple kernel learningによる50種類の食事画像の認識.
電子情報通信学会論文誌. D, 情報・システム, Vol. 93, No. 8, pp. 1397-1406, aug 2010.