クラウドソーシングによる食事画像認識モデルの自動構築

大澤 翔吾

2013年 2月 7日




1 研究背景・研究目的

近年,クラウドソーシングを機械学習に応用する研究が増加している. クラウドソーシングとは,Web上の不特定多数の人間に仕事を依頼することである. 機械学習の研究においては,学習用データセットにアノテーションを付加する作業をクラウドソーシングすることが多い. 従来は研究者が自ら作業していたが,クラウドソーシングによりデータセット作成の手間を大幅に削減でき,認識モデルの自動構築が可能となった. 認識モデルの自動構築手法の一つとして,学習データ収集と認識モデル構築を交互に行う手法(ループ学習)が挙げられる. ループ学習には,学習の際にアノテーション結果を得るサンプルを選択できるため,モデルに有益なサンプルを選ぶことが出来れば,クラウドソーシング費用を削減できるというメリットがある.

本研究では,クラウドソーシングを用いたループ学習で物体検出モデルを自動構築する際,アノテーション作業を依頼する画像の選出戦略を3つ考案した. この戦略が収集されたデータセットと構築されたモデルに各戦略が及ぼす影響を考察する.

2 関連研究

Vijayanarasimhanらの研究[1]ではクラウドソーシングを用いて物体検出器(線形SVM)の学習に必要なデータを収集している. この手法では,少数のデータでSVMを構築した後,線形SVMの超平面に近いデータから順にアノテーションを付加している. この戦略は,少数の学習データで構築した線形SVMの出力結果を過大評価している. 現在の線形SVMの超平面に近いサンプルの教師信号を得るという戦略は,SVMにとって曖昧な線形SVMの学習が進んだ後には有効である. しかし,少数の学習データしかもたない線形SVMの場合,その超平面から遠いサンプルに対する出力結果が信頼できない場合もあるため,超平面から遠いサンプルのアノテーション結果も得る必要がある.

3 提案手法

提案手法の処理順序を以下に示す.

  1. 検出モデルの初期化(図1
    1. キーワード検索を用いて画像を収集する.
      キーワードには,検出対象のカテゴリ名を指定する.
    2. 収集した画像にbounding boxを付与する作業をクラウドソーシングする.
    3. クラウドソーシングした仕事の作業結果を用いて物体検出モデルを構築する.
  2. ループ学習(図2
    1. 検出モデルの初期化の際と同様の手順で画像を収集する.
    2. 収集した画像の中から,bounding boxの描画作業を依頼する画像を選出する.
    3. 選び出した画像にbounding boxを付与する作業をクラウドソーシングする.
    4. クラウドソーシングした仕事の作業結果を用いて検出モデルを更新する.

本研究では,物体検出モデルにDeformable Part Model(DPM)[2]を用いる. DPMは,HOG特徴量を用いた線形SVMベースの物体検出器である. DPMの学習には,bounding box付きの画像が必要である. 分類時には,画像を入力すると,物体のbounding boxの位置とその評価値(SVM境界面との距離)が出力される.

Bounding boxの描画作業を依頼する画像を選出する戦略として以下の3つを採用し,各戦略が物体検出モデルに与える影響を考察する.

Figure 1: 検出モデルの初期化
1#1

Figure 2: ループ学習
2#2

4 実験

提案手法のループ学習における画像選出戦略が検出モデルに与える影響を確認する実験を行う. 本実験では,画像選出戦略として3章で示した3つの戦略を採用し,各ループにおいて,ポジティブ学習画像の枚数と,テスト画像に対するDPMのF値(ともに5カテゴリの平均)を求めた. 本実験で検出対象とする5つのカテゴリを表4に示す.


Table 1: 検出モデルを構築したカテゴリ
牛丼 肉じゃが お好み焼き ラーメン たい焼き

各ループにおけるポジティブ学習画像の枚数を図3に示す. Random戦略が最も低く,Near戦略はループを重ねると低下し,Far戦略はその逆の傾向にあり,最終的にはFar戦略が最も多くのポジティブ画像を収集した. これは,初期状態のDPMは学習画像が少ないため,評価値が閾値に近いポジティブ画像が存在するが,学習が進むにつれてポジティブ画像の多くは評価値が高くなり,閾値から遠ざかるからだと考えられる. ゆえに,Near戦略では,評価値が閾値から遠ざかったポジティブ画像を選出できない一方,Far戦略では評価値が高いものと低いものを選出するため,学習が進んでも評価値が高くなったポジティブ画像を選出できる.

Figure 3: 各ループにおけるポジティブ学習画像の枚数
3#3

各ループにおけるDPMのF値を図4に示す. ループ学習においては,ループを重ねるとF値は向上することが期待されるが,どの戦略においても,F値は横ばい傾向にあることが示されている. これは,アノテーションデータに含まれるノイズが原因で,ループを重ねると,再現率は上昇するが適合率は減少するからである. たい焼きを例に挙げると,図5の下段に示すような画像がポジティブ画像に含まれてしまうことが確認された. こうした画像は,図5の上段に示すような通常のたい焼き画像とは極端に写り方が異なり,学習画像としては不適切である.

Figure 4: 各ループにおけるF値
4#4

Figure 5: 通常のたい焼き画像と写り方が異なるたい焼き画像
5#5

アノテーションデータにノイズが含まれるのは,アノテーション作業を依頼した作業者の作業精度が十分でないからである. しかし,本研究で依頼した作業に取り組んだ作業者は9割以上がインド人で,残りは少数のアメリカ人やフィリピン人などであり,日本人はほとんどいない. そのため,作業者は日本食を実際に目にしたことはほとんどなく,画像検索やWikipediaなどで情報を収集した後,作業に取り組んでいるものがほとんどであると思われる. こうした作業者に対して,非常に高いアノテーション精度を期待することは難しい.

5 おわりに

本研究では,ループ学習を用いた物体検出器の自動生成の際,学習画像に追加する画像を選択する3つの戦略(Random, Near, Far)を比較した. その結果,どの戦略でもモデルの性能に有意差は見られなかったが,Far戦略を用いた場合,他の戦略に比べてポジティブ画像が多く集まることを確認した.

本論文で行った実験では,ループを追うごとに認識モデルの性能が向上していくことが期待されていたが,必ずしもそうならないことを確認した. これは,アノテーションデータにノイズが多く含まれることが原因だと思われる. アノテーションデータに含まれるノイズを除去するための従来手法[3,4]は,多値分類などの簡単な作業を対象にしており,これらをbounding box描画作業という複雑な作業に適用することは難しいため,新しいノイズ除去手法の考案が今後の課題である.

Bibliography

1
S. Vijayanarasimhan and K. Grauman.
Large-scale live active learning: Training object detectors with crawled data and crowds.
In Proc. of IEEE Computer Vision and Pattern Recognition, pp. 1449-1456, 2011.

2
P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan.
Object detection with discriminatively trained part based models.
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, pp. 1627-1645, 2010.

3
V. C. Raykar and S. Yu.
Ranking annotators for crowdsourced labeling tasks.
In Advances in Neural Information Processing Systems, pp. 1809-1817, 2011.

4
P. Y. Hsueh, P. Melville, and V. Sindhwani.
Data quality from crowdsourcing: A study of annotation selection criteria.
In Proc. of NAACL HLT Workshop on Active Learning for Natural Language Processing, pp. 27-35, 2009.