saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

位置情報付き画像ツイートを用いた視覚的イベント検出

金子 昂夢

2013年 2月 7日

1 背景

近年,スマートフォンのような位置情報を扱えるデバイス の普及に伴い,撮影した画像に位置情報を付加することが容易となった. また,ツイートと呼ばれる短文を投稿できるサービス Twitter1の普及により,自分が今何をしているの か,どこにいるのかといったことを投稿する人が増加してきた. ツイートには本文の他に画像や位置情報を添付でき,スマートフォンを利用して 外出先で撮影した位置情報付き画像を即座に投稿することができる.

2 目的

本研究では,Twitterに投稿された位置情報付き画像ツイートから視覚的なイベ ントの検出を試みる. ここでイベントとは,台風や虹といった自然現象や,花火大会のような局所的な 行事のことを指す. これらのイベントを検出し,その情報を画像と共に地図上に表示することで,何 が・いつ・どこで起き,どんな様子だったのかを視覚的に捉えることを目標とす る。

3 関連研究

榊ら[1]は,Twitterのユーザを実世界のイベントを監視するソーシャ ルセンサと捉えたモデルを作り,イベントの検出とその位置の推定を行うシステ ムを作成した. タイムラインを監視することでリアルタイムな検出を行い,高精度かつ高速な検 出が行われた.

Leeら[2]は,まず,対象地域をいくつかのより小さな地域に分割し, 各地域の通常の状態を推測する. そして,通常の状態とは異なるツイートが多く投稿されたとき,イベントが発生 したとみなしている.

中地ら[3]は,あらかじめ「台風」,「正月」といったキーワードや 2011年3月11日から2011年3月12日といった期間を設けてTwitterから位置情報付 き画像ツイートを収集し,クエリに対する代表的な画像を選出することで画像付 きのイベント検出を試みた.

4 手法の概要

本研究の手法の流れを以下に示す.
  1. 特定の地域で頻出するキーワードの抽出
  2. 抽出されたキーワードの統合・補完
  3. キーワードに対する画像の解析
  4. イベントの代表画像選出・中心座標計算
  5. 検出されたイベントを地図上に表示

5 手法の詳細

1 タグの生成

イベントのキーワードを抽出するために,ツイートの本文に対して形態素解析を 行い,特定の品詞の単語をタグとして抽出した. 形態素解析にはオープンソースの形態素解析エンジンMeCab 2を利用し,切り出された単語から品詞が「名詞」であり,品詞細分類が「サ変接 続」と「数」でないものを,重複がないように各ツイートのタグとして登録した.

2 キーワードの抽出

各ツイートのタグのうち,特定の地域で前日に比べ多く投稿されているものをイ ベントのキーワードとして抽出した.

まず,国内の様々な地域から抽出されるように対象を緯度・経度それぞれ1度ず つのグリッドにより分割し,そのグリッド内でツイートしたユーザ数から以下の 式 1により重みを付けた.

1#1 (1)

1において,2#2はそれぞれ緯度・経度によるグリッドを表し, 3#3は最も出現するユーザ数が多い地域のユーザ数,4#4はグリッド2#2 に出現するユーザ数,5#5は標準偏差である.

そして,タグに登録された各単語について,以下の式 2による スコアが一定以上となるものを抽出した.

6#6 (2)

2において,7#7は各単語,8#8は注目している日,9#9はそ れぞれの条件で単語7#7をタグに含むツイートを投稿したユーザ数である. 今回の実験では,このスコアが50以上となる単語をイベントのキーワードとして 抽出した.

3 キーワードの統合・補完

MeCabによる形態素解析では単語を必要以上に分割される場合があるため, 抽出されたキーワードの統合と補完を行った. まず,同日・同地域で抽出された各キーワードのうち,キーワードを含むツイー トが50%以上同じなら同じイベントに関するキーワードとして統合し,そのイベ ントのキーワードは最も多くのツイートに含まれるものとした. 次に,キーワードを含むツイート内で前後の文字が80%以上同じならその文 字でキーワードを補完し,さらにその前・後ろの文字を調べ再帰的に補完を行った.

4 画像特徴量

画像特徴量はSURFによるBag-of-FeaturesとRGBカラーヒストグラムを用いた. 各画像から縦横共に10ピクセルごとにスケールを5,10,15としてSURFを抽出し, 各イベントにおいて次元数を1000としたcodebookを作成し,画像を Bag-of-Featuresで表現した. また,各画像のRGB空間における色の出現頻度から64次元のカラーヒストグラム を生成した.

5 クラスタリング

イベントを視覚的に表す画像群を抽出するため,2つの特徴量を用いてクラス タリングを行った. クラスタリングにはWard法を用い,エラーの増加量に対する閾値を100として任 意のクラスタ数に画像が分類されるようにした.

ただし,今回は2つの画像特徴量を使用するため,Ward法に用いるクラスタのエ ラーを以下の式 3のように定義した.

10#10 (3)

3において,11#11は画像の各特徴ベクトル,12#12はク ラスタ13#13における各特徴量の中心,14#14は各特徴量の重みでそれぞれの次元数で ある.

6 視覚的な検出

クラスタリング結果から,イベントを視覚的に表す画像群を抽出するため, 各クラスタについて以下の式 4によりスコアを付けた.
15#15 (4)

4において,16#16はクラスタ13#13に分類された画像枚 数,17#17は式 1によって得られた,キーワードが検出された 地域の重みである. 今回の実験ではこのスコアが5以上のクラスタをイベントを視覚的に表す画像群 とし,スコアが5未満のクラスタはノイズ画像群としてイベントから除去した. また,最大スコアのクラスタの中でクラスタ中心に最も近い画像をイベントの 代表画像として選出し,スコアが5以上のクラスタからイベントの中心座標を求 めた.

6 実験

1 データセット

今回の実験では,Twitterに投稿された位置情報付き画像ツイートを約3,000,000 件収集した. これらのツイートは日本国内で2011年2月10日から2012年9月30日までに投稿され たものであり,画像はサムネイルを利用した.

2 キーワード

キーワードの抽出を行った結果,「虹」や「台風」のような自然現象から,「花 火」のような局所的な祭りに関するキーワードが抽出された. また,キーワードの統合を行った結果,「花火」と「大会」のように元々連結さ れて本文に含まれていた単語が多く統合された. さらに,キーワードの補完を行った結果,「スカイ」は「スカイツリー」といっ たように,特定の場所や物を指す固有名詞が多く補完された.

3 クラスタリング

クラスタリング結果について,2011年12月23日に抽出されたキーワード「ツリー」 に対する例を図 1に示す.
Figure 1: 「ツリー」のクラスタリング結果
各クラスタの右上の値がスコアであり,5未満のクラスタはノイズと して除去される. また,上位2つのクラスタを見ると上はクリスマスツリーの画像が,下はスカイ ツリーの画像が多く分類された結果となった.

4 検出結果の表示

検出されたイベントについて,地図上にマーカーを設置し,いくつかのマーカー をクリックした例を図 2に示す. Web上のシステムでは表示された代表画像をクリックすることでクラスタリング 結果が表示される.
Figure 2: マーカーをクリックした例

今回の実験で検出されたイベントの数は258となり,代表画像の適合率は65.5% となった.

7 まとめ

本研究では,Twitterに投稿された位置情報付き画像ツイートからイベントの検 出を行い,視覚的関連性が高い画像群を抽出することでイベントを視覚的に捉え られるようにした.

今後の課題として,まず,検出するグリッドの大きさと期間を可変にすることで 柔軟にイベントの検出が行えるようにする. また,Twitterのタイムラインを監視することでリアルタイムなイベントの検出 を行えるようにする.

Bibliography

1
T. Sakaki, M. Okazaki, and Y. Matsuo.
Earthquake shakes twitter users: real-time event detection by social sensors.
In Proc. of the International World Wide Web Conference, pp. 851-860, 2010.

2
R. Lee and K. Sumiya.
Measuring geographical regularities of crowd behaviors for twitter-based geo-social event detection.
In Proc. of the 2nd ACM SIGSPATIAL International Workshop on Location Based Social Networks, pp. 1-10, 2010.

3
Y. Nakaji and K. Yanai.
Visualization of real world events with geotagged tweet photos.
In Proc. of IEEE ICME Workshop on Social Media Computing (SMC), 2012.


Footnotes

... Twitter1
http://twitter.com
... MeCab2
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html