ツイート画像を用いた実世界イベントの検出

中地悠介

2012年 2月 8日

1 はじめに

スマートフォンをはじめとする位置情報を扱えるモバイル機器の普及に伴い，位置情報付きのデータの利用が容易になった．また，Twitterの普及により，多くの人が手軽に位置情報付きの画像や文章をWebにアップロードすることが可能となった．これらのリアルタイム性を持つ位置情報付きデータは， Webマイニング対象として様々な利用可能性が考えられる． Twitterの投稿データ（ツイート）を対象としたテキストマイニングに関する研究やWebサービスは存在するが，画像を利用したものは調査した限りでは存在していない．

2 目的

本研究では，Twitterのタイムラインを通して位置情報付き画像を収集，分析するシステムを作成し，実世界イベントの検出を試みる．イベントとは，例えば台風や地震といった自然災害や，それに伴う公共交通機関の障害，また単純な催事などの，広範囲で多人数に影響のある事象を想定している．そうした画像から代表的なものを抽出し地図上で閲覧できれば，リアルタイムに「全国で何がおこっているか」を視覚的に知ることが可能となる．

3 関連研究

Twitterデータを用いたイベント検出として，榊らの研究や Leeらの研究がある．これらはいずれもツイート本文やユーザ数といったテキスト情報に基づき，イベントを検出している．

代表画像の選出方法として，Visual Rankがある．また，VisualRankを位置画像に適用したGeo Visual Rank という手法が存在する．

4 手法

まず，Twitterから位置情報付き画像を，Streaming APIを用いて収集し，収集した画像から特徴量を求める．本研究では高速な勾配特徴量である SURF特徴量と，色特徴としてRGBヒストグラムを用いた．

次に，クラスタリングを行う．代表画像に似た画像をイベント画像として提示するため，一般的なクラスタリング手法であるK-Means法で画像のクラスタリングを行う．同時に，位置情報と時間情報についてもクラスタリングを行う．位置情報はMean-Shift法でクラスタリングを行い，位置情報クラスタを作成し，その代表位置を求める．時間情報は，投稿時間に応じて四つのクラスタに分類した．

最後に，Geo Visual Rankで注目座標と注目時間を設定し，代表画像を選出する．代表画像と同じ画像クラスタに属する画像を，イベントを示す画像として提示する．

4.1 画像特徴量

画像特徴には，SURF記述子[1]によるBag-of-Features表現と RGBヒストグラムを用いた．SURFアルゴリズムは類似の特徴量検出アルゴリズムに比べて高速な勾配特徴である．Bag-of-Features表現は，局所特徴量の出現頻度をベクトルで表現したものである．コードブックと呼ばれる代表的な特徴の集合を作成し，それらのうち最も類似した特徴に投票し，その頻度を数え，特徴ベクトルとする．同じコードブックを用いてBag-of-Features表現を作成することにより，異なる画像間でBag-of-Features表現を比較することが可能となる．本研究では2011年9月に投稿された位置情報付き画像からランダムに 5000枚の画像を収集し，次元数2000のコードブックを作成した．

RGBヒストグラムは画像の各ピクセルについて色の出現頻度をカウントし，ヒストグラムで表現したものである．二つの特徴量を併せて使用することで，画像を形状と色の情報を持つベクトルで表現することができる．

4.2 クラスタリング

4.2.1 K-Means法

K-Means法はクラスタリング手法の一種で，次の手順でデータをK個のクラスタに分割する．

各データについて，ランダムにK個のクラスタのいずれかに分割し，初期クラスタとする．
各クラスタについて，そのクラスタに含まれる全てデータからクラスタ中心を計算する．
各データについて，クラスタ中心との距離を求め，最も近い中心のクラスタへ分類し直す．
クラスタ中心が移動していなければ，終了する．そうでなければ，2に戻る．

4.2.2 Mean-Shift法

Mean-Shift法[2]はカーネル密度推定を用いたデータ分析手法で，あるデータ点 $\mu$ を中心とした半径

の円領域 $T_{h}(\mu)$ を考え， $T_{h}(\mu)$ 内にあるサンプル点の平均値 $m(\mu)$ の値へ更新する．これを， $m(\mu)$ が収束するまで反復する．クラスタリングでは，各サンプル点について式(1)で平均値を求め，十分に近い点に収束したもの同士を同じクラスタとする．ここで， $K(x_{i};x,h)$ はカーネル関数を一般的に表現したもの， $w(x_{i})$ はサンプル点 $x_{i}$ の重みである．本研究ではカーネル関数にガウス関数カーネル(式(2))を用い，位置情報のデータの重みづけは常に $w(x_{i})=1$ とした．

$\begin{displaymath} m(x)=\frac{\sum^{n}_{i=1}K(x_{i};x,h)w(x_{i})x_{i}}{\sum^{n}_{i=1}K(x_{i};x,h)w(x_{i})} \end{displaymath}$

(1)

$\begin{displaymath} K(x_{i};x,h) = exp \Bigl( -\frac{\vert\vert x-x_{i}\vert\vert^{2}}{h^{2}} \Bigr) \end{displaymath}$

(2)

4.3 Geo Visual Rank

Geo Visual Rank[3]は画像の類似度から代表的な画像を選出するアルゴリズムであるVisual Rankを，位置情報付き画像へ拡張したものである． Visual Rankアルゴリズムでは，式(3)を $\bm{r}$ が収束するまで反復する．

$\begin{displaymath} \bm{r} = \alpha(S*\bm{r})+(1-\alpha)\bm{p} \end{displaymath}$

(3)

は画像間の類似度行列， $\bm{p}$ は補正ベクトルである． $\alpha$ は補正の強度で，多くの場合 $0.8 \leq \alpha \leq 1$ となる値が設定される．本研究では，画像の類似度に二つのヒストグラムの重なりの大きさであるヒストグラムインタセクションを用いた．

Geo Visual Rankでは，注目点と呼ばれる座標を１点指定する．画像の持つ緯度，経度を用いて注目点との距離を球面三角法で計算し，注目点に近い位置で撮影された画像がより上位にくるよう補正を行う．

本研究では座標による注目点(注目座標)の他に注目時間を設定し，位置情報と同様に扱う．位置情報によるバイアスベクトル $\bm{p}^{geo}$ は式(4)，時間情報によるバイアスベクトル $\bm{p}^{time}$ は式(5) で定義する．ただし， $\bm{p}^{geo}(i)$ を $\bm{p}^{geo}$ の番目の要素， $\bm{p}^{time}(i)$ を $\bm{p}^{time}$ の番目の要素とする．

$\begin{displaymath} \bm{p}^{geo}(i)= \left\{ \begin{array}{c l} 1/n_{geo} & (g_... ...C^{geo} )\\ 0 & (g_{i} \not\in C^{geo} ) \end{array}\right. \end{displaymath}$

(4)

$\begin{displaymath} \bm{p}^{time}(i)= \left\{ \begin{array}{c l} 1/n_{time} & (... ...{time} )\\ 0 & (g_{i} \not\in C^{time} ) \end{array}\right. \end{displaymath}$

(5)

ここで， $C^{geo}$ は注目座標を代表位置とするMean-Shift法による位置情報クラスタ， $C^{time}$ は注目時間を含む時間クラスタである． $n_{geo}$ はその位置情報クラスタに含まれる $\bm{p}^{geo}(i)=1$ となるデータの個数である．また， $n_{time}$ についても同様である．位置情報による補正を強調するため，注目クラスタに含まれる画像は1，そうでない画像は0とした．

5 実験

異なる条件でTwitterから収集した画像を用い，三つのデータセットを作成した．その一覧を表1に示す．

**表 1:** 実験に用いたデータセット
$\begin{table} \begin{tabular}{186mm}{cllll} \hline データセット & クエリワー.. ...キ2日 &言語設定が日本語であるもの & 1080枚\\ \hline \end{tabular}\end{table}$

画像クラスタの作成は，SURFによるBag-of-Features表現とRGB カラーヒストグラムを合成し，特徴ベクトルをK-Means法でクラスタリングして行った．特徴の重みは均一とした．クラスタ数Kは各クラスタの画像枚数を確保するため，(分類される画像の総数位置情報は画像に付随するツイートの位置情報にMean-Shift法を適用して作成した．半径パラメータは25,50,100,200(km)とした．

時間情報クラスタは，ツイートの投稿時間を用いて作成した．本研究では，表2に従って四つのクラスタを作成した．

**表 2:** 時間情報クラスタの分類方法
$\begin{table} \begin{tabular}{\columnwidth}{c c l} \hline クラスタ番号 & &分類.. ...13$\sim$18サ午後) \\ 3 & & 19$\sim$23時(夜)\\ \hline \end{tabular}\end{table}$

5.1 実験結果

5.1.1 位置による代表画像の変化

図1は，地震データセットについて注目時間を固定(0 $\sim$ 6時)し，注目点を変化させた結果の例である．東北地方太平洋沖地震の影響を受けた東日本では，部屋が散乱している写真や建物が倒壊している写真など地震の被害を示す画像，震災の影響による交通機関の停止を示す行列や人混みの画像が上位にランキングされている．一方で，地震の影響の小さかった西日本では，料理画像などの平時でも位置情報付きで投稿される画像が上位にランキングされている．

**図 1:** 地震画像についての注目座標の変化に対する結果の変化(左上:福島，右上:岡山，左下:東京，右下:福岡)
$\includegraphics[width=75mm]{resultgeo.eps}$

5.1.2 時間による代表画像の変化

図2は「正月」データセットについて，同一の注目点(東京)に対して注目時間を変化させた時の結果例である．時間による補正によって，0 $\sim$ 6時のランキングでは日の出の画像が上位になっている．同様に昼間は初詣の写真，夕方や夜は食事の写真という風に， 1日の流れが画像で示されている．

**図 2:** 注目時間の変化に対する結果の変化(左上:0 $\sim$ 6時，右上:7 $\sim$ 12時，左下:13 $\sim$ 18時，右下:19 $\sim$ 23時)
$\includegraphics[width=75mm]{resulttime.eps}$

6 考察

Twitterでは短文による投稿を複数行うため，推敲などがあまり行われず，表記揺れが発生しやすい．そのため，投稿内容が必ずしもイベントを表す語を含んでいるとは限らない．例えば「雨がたくさん降っている」や「風が強い」などの本文で，台風を表す画像が投稿されることは容易に想定できる．

クエリワードを設定せずに集めた「地震」データセットでは，西日本における平時の画像に対して，東日本における震災の影響を示す画像というように，地震というイベントの影響下にあった地域が視覚的に得られた．これには，東北地方太平洋沖地震が大規模な自然災害であったことも原因として考えられる．大規模なイベントの影響下では，そこから投稿される画像のほとんどがそのイベントに関連するものと考えられるからである．

7 今後の課題

今後の課題として，まずシステムのリアルタイム化が挙げられる． Twitterのリアルタイム性を活かすため，画像を収集し，特徴量を抽出し， Geo Visual Rankを自動で再計算できることが理想である．

また，各データセットについて，時間クラスタをより細分化したり，クエリ無しでデータを収集して再度試してみることでよりイベントを明確に検出できることが考えられる．

海外画像への対応も，システムの拡張として挙げられる．特に世界各地の初日の出など，時差によるイベントの検出が可能になると考えられる．

文献目録

1: H. Bay, T. Tuytelaars, and L. Van Gool.
SURF: Speeded up robust features.
In Proc. of European Conference on Computer Vision, pp. 404-415, 2006.
2: D. Comaniciu and P. Meer.
Mean shift analysis and applications.
In Proc. of International Conference on Computer Vision, Vol. 2, pp. 1197-1203. Ieee, 2002.
3: H. Kawakubo and K. Yanai.
Geovisualrank: A ranking method of geotagged images considering visual similarity and geo-location proximity.
In Proc. of the ACM International World Wide Web Conference, 2011.

YANAI Lab.