saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

画像特徴とテキスト特徴を用いた画像ツイートの位置推定

松尾 真


Date: 平成 27 年 2 月 13 日


1 はじめに

近年スマートフォンやタブレット端末の普及により、Twitterの利用者が急増している。 ジオタグ付画像ツイートは、Twitterの視覚情報と位置情報を扱う研究において、重要なサンプルデータとなる。 しかし、大量に存在する画像ツイートの中で、実際に位置情報が付与されたものは非常に少ない。 したがって、大量のジオタグなし画像ツイートの位置推定を行うことで、 研究におけるこれらの利用価値を大いに高めることができると期待される。

2 目的

本研究では、ジオタグのない画像ツイートの位置を画像特徴とテキスト特徴を用いて 推定することを目的とする。 画像特徴からの位置推定にはVisual Wordを用いた類似画像検索を、 テキストからの位置推定にはGeoNLP 1を用いた地名語抽出を 使用する。

3 関連研究

ツイートが投稿された位置の推定の先行研究として、渡辺らの研究 [1] による「Twitter を用いた実世界ローカルイベント検出」の研究が挙げられる。渡辺らの研究はツ イートを収集し、局地的なイベントを検出する手法を提案するものであり、その 中でテキストを用いたツイートの位置推定を行った。本研究ではテキ ストによる位置推定に加え、画像特徴による位置推定を試みる。
 また、画像特徴を用いた位置推定の研究として、HaysらのIM2GPS [2]が挙げられる。 この研究は大量の位置情報付き画像を利用した類似画像検索によって単一画像の位置推定が可能であることを証明した研究である。

4 提案手法

1 提案手法の流れ

本研究は画像ツイートに対して以下の手順で位置推定を行う。
  1. 画像による位置推定
  2. テキストよる位置推定
  3. 推定された位置情報の統合

2 画像による位置推定

位置情報付き学習画像データセットに対する特徴点マッチングによる類似画像検索を用いて、 M枚の類似画像を選出し、それらの位置情報と類似度から推定位置にスコアを与える。
 類似画像検索を高速化するため、本研究ではNisterら [3]により考案された、 図1のようなVocabulary Treeによる最近傍探索を利用した。
Figure 1:Vocabulary Tree

3 テキストよる位置推定

テキストによる位置推定には、入力画像ツイートのテキストから、 GeoNLPを用いて地名と位置情報を取り出すことで位置推定を行う。 また、今回の実験では日本語ツイートのみを扱うものとする。

4 推定された位置情報の統合

画像、テキストそれぞれの情報から複数の推定位置候補とスコアを抽出し、 図2のように地図を緯度経度によって離散化したグリッドにスコアを与え、 最もスコアの高いグリッドを求める。
Figure 2: 地図の離散化
テキスト特徴と画像特徴、2つの情報から得られたグリッド\(L_i\) のスコアをそれぞれ\(P_t(L_i|I)\), \(P_v(L_i|I)\)で定義し、 式1で統合する。 \(w_t,w_v\)はそれぞれのテキスト特徴と画像特徴情報に対して与える重みである。

\begin{align*} P(L_i|I)=\cfrac{{w_v}P_v(L_i|I)+{w_t}P_t(L_i|I)}{\sum_{k=1}^{n}{{w_v}P_v(L_k|I)+{w_t}P_t(L_k|I)}} \end{align*} 最終的に最もスコア\(P(L_i|I)\)が高いグリッドの中心を最終的な推定位置とする。

5 実験

1 実験データと評価方法

実験には表1ような2011年から2014年の位置情報付画像ツイートを実験データとし、 \(w_t\),\(w_v\)を表2のような5パターンに、 類似画像数Mを10, 25, 50の3パターンに分けて 行った。
Table 1: 実験データ
  学習データ テストデータ
データの数 約240万 4000
テキストの利用
位置情報の利用


Table 2: \(w_t\),\(w_v\)のパターン
データ \(w_t\) \(w_v\)
A 1.00 0.00
B 0.75 0.25
C 0.50 0.50
D 0.25 0.75
E 0.00 1.00

評価はテストデータの内、正解位置との地球球面上の距離が一定距離以内であるものの割合で行う。 地球球面上の距離は球面三角法を用いて求める。

2 実験結果

以下の図3, 図4, 図5はそれぞれM=10, 25, 50の際の結果である。
Figure 3: 実験結果(M=10)
Figure 4: 実験結果(M=25)
Figure 5: 実験結果(M=50)
以上より、テキスト特徴のみ(A)に比べ、画像特徴のみ(E)の精度は非常に低くなった。 また、類似画像の数を増やすとB〜Eの精度は総じて向上した。 2つの特徴の統合を行ったB〜Dの内では、Bが最も精度が高く、 特にM=50の際のBは10km以内での精度がAを上回った。

6 考察

実験結果から画像特徴のみではテキスト特徴のみ場合に比べ、精度が低かったが、 を0よりも大きく、かつなるべく小さな値にし、類似画像の数を多くすれば、画像特徴とテキスト特徴を統合した際の 精度はテキスト特徴単体の時よりも大きくなることが分かった。 また、画像特徴による位置推定の精度が低かったのは以下の原因によると考えられる。
 まず、類似画像検索の精度があまりよくなかった可能性がある。 SURFの特性上、同一物体でも撮影された方向によっては異なる物体と認識されることがあり、 同じ位置の画像が類似画像検索で検出される可能性が減少し、精度の低下を招いたと思われる。 また、学習データの中には位置情報と相関のない画像も多く含まれており、 このようなノイズ画像が類似画像として検出された場合、誤った位置へ誘導されることになるため、 ノイズ画像の存在も精度低下の要因であると思われる。

7 まとめ

本研究では画像特徴とテキスト特徴を用いて画像ツイートの位置推定を行った。 その結果画像特徴単体では精度が低いが、テキスト特徴と統合すると精度が向上する場合があることが分かった。
今後の課題としては、特定物体認識の精度向上、ノイズ画像の除去、Flickrなどの画像データベースを用いた学習データの拡張、 学習データのテキストを活用したテキスト特徴の拡張、テスト画像ごとの重み付けの方法の確立などが挙げられる。

参考文献

1
K. Watanabe, M. Ochi, M. Okabe, and R. Onai.
Jasmine: a real-time local-event detection system based on geolocation information propagated to microblogs.
In Proc. of the 20th ACM international conference on Information and knowledge management, pp. 2541-2544, 2011.

2
J. Hays and A. A. Efros.
IM2GPS: estimating geographic information from a single image.
In Proc.of IEEE Computer Vision and Pattern Recognition, 2008.

3
D. Nister and H. Stewenius.
Scalable recognition with a vocabulary tree.
In Proc.of IEEE Computer Vision and Pattern Recognition, 2006.



Footnotes

... テキストからの位置推定にはGeoNLP 1
http://agora.ex.nii.ac.jp/GeoNLP/