地域毎の代表画像の選出手法の提案

宮地 健太郎

2012年 2月 8日




1 はじめに

現在,デジタルカメラやカメラ付き携帯電話などの普及,通信網の整備によって,web 上には無数の 画像がアップロードされている.それに加えて,個人用のGPS ロガーやGPS 機能の付きのデジカメ, GPS 機能付きの携帯電話(スマートフォンなど)のデバイスが普及したことによって,位置情報を画像 に付加することも容易になり,位置情報の付いたweb 画像も増えてきている.特にスマートフォンのほ とんどにはGPS とカメラが搭載されているため,今後位置情報付き画像がさらに増えると思われる. さらに,食べ物のデータセットを作るというプロジェクトがあるが,これらにおいて,雑煮などの地 域によって異なるような食べ物について分類することが必要であると考えられる.なぜなら同じラーメンで も醤油ラーメンと豚骨ラーメンではカロリーや具の構成や見た目も異なるからである.

2 研究の目的

本研究では,テーマに沿った位置情報付き画像を収集し,収集した画像をまず地 域ごとに分類する.そして,その地域ごとに代表的な画像を選択することを目的 とする.

本研究では,地域ごとの差がある食事画像を対象とし,今回は特にラーメンを対 象とした.

代表的な画像を選択する方法として,画像の局所特徴を抽出し,その特徴を比較, 分類し,位置情報と組み合わせて代表的な画像を選択する.

3 提案手法

提案手法の処理の流れは以下のようになっている.

[
l]処理の流れ
  1. Flickrおよびtwitterより,キーワード「ラーメン」で位置情報付きの画 像を収集する.
  2. 画像からOpponet SURFで特徴抽出を行う.
  3. 抽出した特徴をBag-of-Featuresに変換する.
  4. Support Vector Machineによってノイズ画像を除去する.
  5. ノイズ画像を除去した後に,残った画像に対してCanny法でエッジ検出を 行う.
  6. エッジを用いて楕円フィッティングを行う.
  7. そのうち楕円の面積が画像の50%以上かつ,画像の中心1割以内に楕円中心がある画像を選 ぶ.
  8. 選ばれた画像の楕円内から改めてOpponetSURFで特徴点抽出を行い,Bag-of-Features に変換する.
  9. 収集した画像の位置情報をMean-shift法でクラスタリングして,代表的な 位置情報を求める.
  10. 地域別代表画像を選出する手法であるGeoVisualRankを適用する.その際 に必要な注目点はMean-shift法で求める.
  11. Ranking with Sink Pointsによって,異なる特徴を持つ画像をランク上位に選出する.

3.1 画像収集

画像共有サイトFlickrと,twitterから位置情報付き画像を収集する.

3.2 画像特徴量

画像特徴はSURF[1]に色特徴を表すOpponentヒストグラムを組み合 わせたOpponent SURFを使用した.これをBag-of-Features表現(BoF)に変換する. BoFとは,局所特徴量を出現頻度によってベクトル化したものである.BoFによっ て異なる画像を比較することができる.

3.3 画像分類

ノイズ画像を除去するため,画像分類を行った.今回はSupport Vector Machine(SVM) とCanny法のエッジ検出による楕円フィッティングで分類を行った.

SVMとは教師ありの2クラス分類手法である.事前に正しい例と正しくない例の学習画像を用意し, BoFに変換し学習する.それを分類画像のBoFと比較することによって,正しいか 正しくないかを分類する.

Canny法とは,Cannyによって提案されたエッジ検出の手法である. ガウシアンフィルタとsobelフィルタを組み合わせることによって画像からエッジを検出 する.

楕円フィッティングとは、2次元の点集合に対して最もフィットするような, 二乗誤差が最小になる楕円に近似を行うことである.それぞれの画像のエッジに 対して画像フィッティングを行い,楕円が画像の50%以上かつ,楕円中心が画像 中心の10%以内にあるもののみをポジティブ画像とする.

3.4 Mean-Shift法

Mean-Shift法によるクラスタリングでは, 各サンプル点を初期値とした場合それぞれについてMean-Shift法を行う. その結果,十分に近い点に収束したサンプル点同士をまとめ,クラスタとする.

$K(x_i;x,h)$はカーネル関数を一般的に表現した ものであり,$w(x_i)$はサンプル点$x_i$の重みである.

\begin{displaymath}
m(x) = \frac{\sum_{i=1}^{n} K(x_i;x,h)w(x_i)x_i}{\sum_{i=1}^{n} K(x_i;x,h)w(x_i)}
\end{displaymath} (1)


$\displaystyle K(x_i; x, h) = exp\left( - \frac{{\vert\vert x - x_i \vert\vert}^2 }{h^2} \right)$     (2)

これを収束するまで繰り返すことによって,注目点を求めることができる.

3.5 GeoVisualRank

川久保らの提案したGeoVisualRankを利用する[2,3].これはJing らによって提案されたVisualRank[4]を適用する対象を位置情報付 き画像に限定し,位置情報に基づくバイアスベクトルを生成して求めるものであ る. GeoVisualRankではランキングを生成する際に,地理上の一点を「注目点」として指定する. 注目点に近い座標で撮影された画像のランキング値が大きくなるようにバイアス を作成することで,代表的な画像特徴を持ち,撮影された地点が注目点に近い画 像ほど上位にランキングされる.

各画像のVisualRank値からなる列ベクトル$r$は 式(3)を反復し,収束させることで得られる.


\begin{displaymath}
\bm{r_{i+1}}=\alpha S \bm{r_i}+(1-\alpha)\bm{p},\quad (0 \leq \alpha \leq 1)
\end{displaymath} (3)

式(3)中の$S$は, 画像類似度行列の各列を正規化したものである. 各列の合計が1になるように正規化することで,VisualRank値の合計が変化しないようにする.

$p$は補正ベクトルであり,GeoVisualRankではMean-shift法によって求めた地理上の 「注目点」と,画像の位置情報を用いる.$p$$i$番目の要素$p(i)$は式 (4)のように表される.


\begin{displaymath}
\bm{p(i)}=1-D_{i}/\pi
\end{displaymath} (4)

ただし,$D_{i}$は2地点間の角度$D_{i}$を求める計算方法である球面三角法で あり,2地点$A,B$の緯度経度 ${lat}_A, {long}_A, {lat}_B, {long}_B$とし ている.


$\displaystyle D_{i}$ $\textstyle =$ $\displaystyle \cos^{-1}\bigl( \sin({lat}_A)\sin({lat}_B) \; +
\bigr.$  
    $\displaystyle \bigl.\cos({lat}_A)\cos({lat}_B)\cos({long}_A -
{long}_B) \bigr)$ (5)

補正の強度はパラメータ$\alpha$によって調整する. 多くの場合, $\alpha \geq 0.8$を満たす値が設定される.

3.6 Ranking with Sink Points

Ranking with Sink Points[5]とは,PageRankを拡張する 手法である.VisualRankおよびGeoVisualRankはPageRankを基にしているため,同 様に類似度行列に適用できる.

具体的には,式(6)のように,類似度行列のうち,ランク1位の 列をすべて0にしてランクの再計算を行うことによって,ランク1位に類似したも のの順位が低下するというものである. これによって,同じような画像がランキングの上位にくることを防ぐことができ る.

$\displaystyle \bm{r_{i+1}}=\alpha SI_{i} \bm{r_i}+(1-\alpha)\bm{p}$     (6)

ただし,$I_{i}$はランク1位に対応する箇所のみが0,他が1の単位行列.

4 実験

Flickrおよびtwitterから収集した位置情報付き画像を用い,手順に沿って処理 を行い,地域ごとの代表画像を選出した.

実行例は図1,図2,図3のようになっ た.これはランキング1位の画像3枚と,ランキング1位の画像に視覚的な類似度 が高い画像を横に4枚並べている. ランキング2位以降はすでにランキング1位になった画像がSink Pointsを用いて順 位が低下しているため,1位の画像の特徴がそれぞれ異なっている.なお web1上ですべて の結果を見ることができる.

図 1: 関東(左),北海道(右)のGeoVisualRankの例
\includegraphics[width=0.5\textwidth]{image/gvr.eps}\includegraphics[width=0.5\textwidth]{image/gvr2.eps}

図 2: 中部(左),九州(右)のGeoVisualRankの例
\includegraphics[width=0.5\textwidth]{image/gvr3.eps}\includegraphics[width=0.5\textwidth]{image/gvr4.eps}

図 3: 関西(左),中四国(右)のGeoVisualRankの例
\includegraphics[width=0.5\textwidth]{image/gvr5.eps}\includegraphics[width=0.5\textwidth]{image/gvr6.eps}

5 代表画像選出結果のユーザ評価

本研究では地域毎の代表画像の選出を提案したが,これが妥当なものかどうかの 評価を行う.7人の人に協力してもらい,選出した代表画像を見,正しく代表画 像が選出されているかどうかを5段階評価で選んでもらう.その結果は表 1のようになった.
表 1: 選出された代表画像への評価(5段階評価)
  北海道 関東 中部 関西 中四国 九州 総合
A 4 2 2 2 1 4 3
B 5 4 4 3 5 4 4
C 3 5 4 5 5 5 5
D 2 4 5 3 3 4 4
E 4 2 2 2 2 4 4
F 4 3 3 3 3 5 3
G 3 3 3 3 3 4 3
平均 3.57 3.29 3.29 3 3.14 4.29 3.71

結果,人によって意見が異なった.評価した感想の中には,同じ画像が複 数選ばれていた指摘があったものの,北海道の蟹のラーメンや九 州の豚骨ラーメンなどがランキングされたことは評価された.

6 考察

1の北海道での例をとると,ランク1位には蟹が入っているラーメンの画像が選ばれ ているが,類似画像には蟹が入っているようなラーメンの画像は選ばれていない. これは,ランク1位以外に特徴の似た画像がなかったということを示していると 考えられる. ランク2位にはメニュー画像が入っている.Flickrやtwitterには,「ラーメン」 のキーワードが入っている投稿でも,ラーメンの店舗などの画像が含まれている場合が ある.分類によって除外しているものの完全には排除されず,ランキングに含ま れてしまっている. ランク3位に選ばれたのが味噌ラーメンであり,類似画像も味噌ラーメンと思わ れるものが選出されている.

7 今後の課題

今後の課題としては,このシステムをラーメン以外の食事画像に対しても適用で きるように改良すること,複数種類のものでも分類できるようにすることがあげ られる.

文献目録

1
H. Bay, T. Tuytelaars, and L. Van Gool.
SURF: Speeded up robust features.
In Proc. of European Conference on Computer Vision, pp. 404-415, 2006.

2
H. Kawakubo and K. Yanai.
Geovisualrank: A ranking method of geotagged images considering visual similarity and geo-location proximity.
In Proc. of the International World Wide Web Conference, 2011.

3
川久保秀敏, 樋爪和也, 柳井啓司.
Geovisualrank を用いた単語概念の地域性の分析.
画像の認識・理解シンポジウム (MIRU), 2011.

4
Y. Jing and S. Baluja.
Visualrank: Applying pagerank to large-scale image search.
IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 30, No. 11, pp. 1870-1890, 2008.

5
X. Cheng, P. Du, J. Guo, X. Zhu, and Y. Chen.
Ranking on data manifold with sink points.
Knowledge and Data Engineering, IEEE Transactions on, No. 99, pp. 1-1, 2011.


脚注

... web1
http://mm.cs.uec.ac.jp/miyachi-k/result_gvr.cgi