YANAI Lab.電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室 |
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介 |
地域毎の代表画像の選出手法の提案宮地 健太郎 2012年 2月 8日 1 はじめに現在,デジタルカメラやカメラ付き携帯電話などの普及,通信網の整備によって,web 上には無数の 画像がアップロードされている.それに加えて,個人用のGPS ロガーやGPS 機能の付きのデジカメ, GPS 機能付きの携帯電話(スマートフォンなど)のデバイスが普及したことによって,位置情報を画像 に付加することも容易になり,位置情報の付いたweb 画像も増えてきている.特にスマートフォンのほ とんどにはGPS とカメラが搭載されているため,今後位置情報付き画像がさらに増えると思われる. さらに,食べ物のデータセットを作るというプロジェクトがあるが,これらにおいて,雑煮などの地 域によって異なるような食べ物について分類することが必要であると考えられる.なぜなら同じラーメンで も醤油ラーメンと豚骨ラーメンではカロリーや具の構成や見た目も異なるからである.2 研究の目的本研究では,テーマに沿った位置情報付き画像を収集し,収集した画像をまず地 域ごとに分類する.そして,その地域ごとに代表的な画像を選択することを目的 とする.本研究では,地域ごとの差がある食事画像を対象とし,今回は特にラーメンを対 象とした. 代表的な画像を選択する方法として,画像の局所特徴を抽出し,その特徴を比較, 分類し,位置情報と組み合わせて代表的な画像を選択する.
3 提案手法提案手法の処理の流れは以下のようになっている.
3.1 画像収集画像共有サイトFlickrと,twitterから位置情報付き画像を収集する.3.2 画像特徴量画像特徴はSURF[1]に色特徴を表すOpponentヒストグラムを組み合 わせたOpponent SURFを使用した.これをBag-of-Features表現(BoF)に変換する. BoFとは,局所特徴量を出現頻度によってベクトル化したものである.BoFによっ て異なる画像を比較することができる.3.3 画像分類ノイズ画像を除去するため,画像分類を行った.今回はSupport Vector Machine(SVM) とCanny法のエッジ検出による楕円フィッティングで分類を行った.SVMとは教師ありの2クラス分類手法である.事前に正しい例と正しくない例の学習画像を用意し, BoFに変換し学習する.それを分類画像のBoFと比較することによって,正しいか 正しくないかを分類する. Canny法とは,Cannyによって提案されたエッジ検出の手法である. ガウシアンフィルタとsobelフィルタを組み合わせることによって画像からエッジを検出 する. 楕円フィッティングとは、2次元の点集合に対して最もフィットするような, 二乗誤差が最小になる楕円に近似を行うことである.それぞれの画像のエッジに 対して画像フィッティングを行い,楕円が画像の50%以上かつ,楕円中心が画像 中心の10%以内にあるもののみをポジティブ画像とする. 3.4 Mean-Shift法Mean-Shift法によるクラスタリングでは, 各サンプル点を初期値とした場合それぞれについてMean-Shift法を行う. その結果,十分に近い点に収束したサンプル点同士をまとめ,クラスタとする.
はカーネル関数を一般的に表現した
ものであり,はサンプル点の重みである.
これを収束するまで繰り返すことによって,注目点を求めることができる. 3.5 GeoVisualRank川久保らの提案したGeoVisualRankを利用する[2,3].これはJing らによって提案されたVisualRank[4]を適用する対象を位置情報付 き画像に限定し,位置情報に基づくバイアスベクトルを生成して求めるものであ る. GeoVisualRankではランキングを生成する際に,地理上の一点を「注目点」として指定する. 注目点に近い座標で撮影された画像のランキング値が大きくなるようにバイアス を作成することで,代表的な画像特徴を持ち,撮影された地点が注目点に近い画 像ほど上位にランキングされる.各画像のVisualRank値からなる列ベクトルは 式(3)を反復し,収束させることで得られる.
式(3)中のは, 画像類似度行列の各列を正規化したものである. 各列の合計が1になるように正規化することで,VisualRank値の合計が変化しないようにする. は補正ベクトルであり,GeoVisualRankではMean-shift法によって求めた地理上の 「注目点」と,画像の位置情報を用いる.の番目の要素は式 (4)のように表される.
ただし,は2地点間の角度を求める計算方法である球面三角法で あり,2地点の緯度経度 とし ている.
補正の強度はパラメータによって調整する. 多くの場合, を満たす値が設定される. 3.6 Ranking with Sink PointsRanking with Sink Points[5]とは,PageRankを拡張する 手法である.VisualRankおよびGeoVisualRankはPageRankを基にしているため,同 様に類似度行列に適用できる.
具体的には,式(6)のように,類似度行列のうち,ランク1位の
列をすべて0にしてランクの再計算を行うことによって,ランク1位に類似したも
のの順位が低下するというものである.
これによって,同じような画像がランキングの上位にくることを防ぐことができ
る.
ただし,はランク1位に対応する箇所のみが0,他が1の単位行列. 4 実験Flickrおよびtwitterから収集した位置情報付き画像を用い,手順に沿って処理 を行い,地域ごとの代表画像を選出した.実行例は図1,図2,図3のようになっ た.これはランキング1位の画像3枚と,ランキング1位の画像に視覚的な類似度 が高い画像を横に4枚並べている. ランキング2位以降はすでにランキング1位になった画像がSink Pointsを用いて順 位が低下しているため,1位の画像の特徴がそれぞれ異なっている.なお web1上ですべて の結果を見ることができる. 5 代表画像選出結果のユーザ評価本研究では地域毎の代表画像の選出を提案したが,これが妥当なものかどうかの 評価を行う.7人の人に協力してもらい,選出した代表画像を見,正しく代表画 像が選出されているかどうかを5段階評価で選んでもらう.その結果は表 1のようになった.
結果,人によって意見が異なった.評価した感想の中には,同じ画像が複 数選ばれていた指摘があったものの,北海道の蟹のラーメンや九 州の豚骨ラーメンなどがランキングされたことは評価された. 6 考察図1の北海道での例をとると,ランク1位には蟹が入っているラーメンの画像が選ばれ ているが,類似画像には蟹が入っているようなラーメンの画像は選ばれていない. これは,ランク1位以外に特徴の似た画像がなかったということを示していると 考えられる. ランク2位にはメニュー画像が入っている.Flickrやtwitterには,「ラーメン」 のキーワードが入っている投稿でも,ラーメンの店舗などの画像が含まれている場合が ある.分類によって除外しているものの完全には排除されず,ランキングに含ま れてしまっている. ランク3位に選ばれたのが味噌ラーメンであり,類似画像も味噌ラーメンと思わ れるものが選出されている.7 今後の課題今後の課題としては,このシステムをラーメン以外の食事画像に対しても適用で きるように改良すること,複数種類のものでも分類できるようにすることがあげ られる.
文献目録
脚注
|