saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

テレビ番組からの位置情報付き旅行映像データベースの自動構築

向井 康貴

2012年 2月 8日




1 背景

近年,テレビ放送の多チャンネル化が進んでいる. また,HDDの大容量化,低価格化により,テレビ番組の大量録画が容易なものと なっている. しかし,録画した番組の中から目的の番組を探し出すのは容易なことではない.

2 目的

本研究では,字幕情報付きの旅行番組を大量に録画し,その字幕を利用して,紹 介場所毎に番組の分割,地図上への配置を行うことにより,目的の番組を探し出 せるシステムを提案する.

本研究は宮部[1]の地図と対応付けられた旅行番組データベースの構 築を発展させる形で進めていく. 宮部の研究は,字幕より地名を抽出して,出現回数の多かったもの3つだけを利 用していた. これでは最大で3カ所を紹介している番組しか対応しきれない. 本研究では,番組の内容に応じた数の地名を利用して,幅広い番組に対応できる ことを目指す. また,宮部のシステムでは番組全体を1カ所にマッピングしていたが,これでは 番組のどのあたりで,該当の場所を紹介しているのか探す必要があった. 本システムでは,番組を紹介場所毎に分割することにより,この問題を解決する.

3 提案システム

システムの大まかな流れは図1のようになる。
図 1: システムの流れ
\includegraphics[width=0.35\textwidth]{system.eps}

まず,録画した番組から字幕を抽出し,動画のエンコードを行う. これ以降は,元の録画ファイルは使用せず,ここで得た字幕ファイルとエンコー ド済みの動画ファイルを使用する. 次に,字幕ファイルから地名の抽出,さらに重要地名の選択を行う. 最後に,ここで得た重要地名を中心として,映像の分割,地図上への配置を行う.

3.1 番組の録画

地上デジタル放送の映像は,最大ビットレート16.85Mbps,解像度1440x1080iを 16:9に引き延ばしたものである. BSデジタル放送の映像は,地上デジタル放送よりチャンネル帯域が大きいため, 最大ビットレート24Mbps,解像度1920x1080iとなっている. また,これらの放送には,映像,音声の他に,番組情報,字幕情報などのメタデー タも含まれている. テレビ番組は放送の生データであるMPEG-2 TS形式(TSファイル)で保存する.

3.2 字幕の抽出

字幕はCaption2Ass[2]を使用して抽出する. Caption2AssはASSまたはSRT形式で字幕を抽出することができる. ASS形式には,字幕のテキスト以外に字幕の開始時間,終了時間,表示位置,サ イズなどの情報が含まれている. 本研究では,字幕のテキスト,表示時間のみを使用するので,ASSよりもシンプ ルなSRT形式の字幕を使用する.

3.3 動画のエンコード

MPEG-2 TS形式は高解像度かつファイルサイズが大きく,本研究には必要のない 余分な情報も多く含んでいる. このままでは,計算機上で扱いづらいので,映像654kbps,音声96kbps,解像度 640x360に落としたFlash Video形式(FLVファイル)にFFmpegを使用してエンコー ドする. これ以降はエンコードして得られたFlash Videoで処理を行う.

ある1時間の地上デジタル放送の旅行番組では約6.6GB,別の1時間のBSデジタル 放送の旅行番組では約9.6GBのサイズになるが,エンコードすることによりどち らも約330MBのFlash Videoに変換することができる.

3.4 地名の抽出

地名の抽出には形態素解析ツールChaSen[3]を使用する. 形態素解析とは,自然言語を言葉で意味を持つ最小の単位に分割し,それぞれの 品詞を判別する作業のことである. ここで,重要となるのは品詞が「名詞-固有名詞-地域-一般」となっているもの である. これが地名であることを表現している.

[
l]形態素解析の例

下田駅に戻った2人は 下田 シモダ 下田 名詞-固有名詞-地域-一般 駅  エキ  駅  名詞-接尾-地域 に  ニ   に  助詞-格助詞-一般 戻っ モドッ 戻る 動詞-自立 五段・ラ行 連用タ接続 た  タ   た  助動詞特殊・タ基本形 2   ニ   2  名詞-数 人  ニン  人  名詞-接尾-助数詞 は  ハ   は  助詞-係助詞

また,特に地名として誤認識されることの多い単語はストップワードリストに登 録して,地名として抽出しないようにする. ここでは,「栗」「港」「あら」などをストップワードリストに登録している.

抽出した地名からはジオコーディングを行い,位置情報,つまり緯度および経度 を取得する.

3.5 Google Geocoding API

ジオコーディングにはGoogle Geocoding API[4]を使用する. また,Google Geocoding APIからは位置情報以外に多数の情報が得られる. 本研究では,表1の情報を利用する.

表 1: Google Geocoding APIから得られる各種情報
タグ 説明
route このタグが付けられたものは道路であることを示す.範囲が広く特定の 位置を表現するのが難しいので,本研究では無視する.
country 国際的な政治的に定義された地域.国名.
administrative _area_level_1 国レベルの中で,一番大きい民政的な地域.日 本の場合は,都道府県.
locality 県,州の議会にて正式に自治体として認められた政治的な地域.日 本の場合は,市区町村.

1つの地名より複数の位置情報が得られることがあるが,その場合には直前に得 られた位置情報と1番近いものを選択する.

3.6 重要地名の選択

最初に位置情報を逆ジオコーディングして,国,都道府県,市区町村を再設定す る. これは,ジオコーディングしたときに,市区町村が取得できないことがあるため である.

次に,一定回数以上連続して出現している市区町村または都道府県だけを抽出す る. 次に,同市区町村で他の市区町村を挟んでいる物は,間のものを削除する. 都道府県についても同様に行う. これは,挟まれているものが無くなるまで行う. 最後に連続して同市区町村が出現しているものは1つに統合して終了である.

3.7 動画の分割

各重要地名が最初に出現した時間をもとにFFmpegを利用して動画の分割を行う. シーンの最初から地名が出現するとは限らないので,少し前の切り替えポイント をRGBのカラーヒストグラムインターセクション[5]を利用して求める.

3.7.1 ヒストグラムインターセクション

ヒストグラムインターセクションとは,それぞれのヒストグラムの同じビンを比 較し,小さいものを集めていき最後に和を求めたものである. ヒストグラム$h1$$h2$のヒストグラムインターセクションを求める式は
\begin{displaymath}
S = \sum_{i=1}^{N}min(h1_i,h2_i)
\end{displaymath} (1)

となる. この値は正規化している場合0から1の値をとる. 似ている画像であれば,この値が1に近くなる.

テレビ映像ではカメラの切り替わりやCMとの境界でヒストグラムインターセクショ ンが低くなる. 本研究では,各フレーム間のRed,Green,Blueのそれぞれについて, ヒストグラムインターセクションを計算して, 1つでも0.6を下回ったときをシーンの境界と判断する.

3.8 地図上への配置

Google Maps API[6]を使用して,動画と位置情報を対応付けてGoogle Map上に配置する. 図2のように地図上に配置することにより,視覚的に目的の場所の番組 を探し出せる.
図 2: Google Map上に配置
\includegraphics[width=0.35\textwidth]{map.eps}

4 実験

実験として,10本の旅行番組について,動画の分割,位置情報推定を行った.

2回以上連続して出現している市区町村名を用いた市区町村ベースの実験と,市 区町村名を全く利用せずに5回以上連続して出現している都道府県名を用いた都 道府県ベースの実験を行った.

ここでは,3分以上紹介している場所を検出したいものとし, 動画開始の分割誤差が1分以内で,位置情報が正しいものを正解とした. 評価には,適合率,再現率を用いた.

4.1 実験結果

市区町村ベースの分割についての結果を図2に, 都道府県ベースの分割についての結果をを図3に示す. 正解数の括弧内は,1分以上の誤差はあったが動画内で,その場所が紹介されて いるものを外数で示している. 適合率,再現率の括弧内は,正解数の括弧内のものも正解と考えたときの 値である.

表 2: 市区町村ベースの分割結果
番組 分割 正解 理想 適合率 再現率
A 12 7(2) 13 0.583(0.750) 0.538(0.692)
B 11 4 13 0.364 0.308
C 38 26(3) 38 0.684(0.763) 0.684(0.763)
D 7 2 6 0.286 0.333
E 13 7(1) 15 0.538(0.615) 0.467(0.533)
F 3 2 4 0.667 0.500
G 9 3(1) 14 0.333(0.444) 0.214(0.286)
H 3 1(1) 3 0.333(0.667) 0.333(0.667)
I 9 1 2 0.111 0.500
J 4 3 3 0.750 1.000
合計 109 56(8) 111 0.514(0.587) 0.505(0.577)


表 3: 都道府県ベースの分割結果
番組 分割 正解 理想 適合率 再現率
A 8 4(3) 7 0.500(0.875) 0.571(1.000)
B 7 4(1) 5 0.571(0.714) 0.800(1.000)
C 17 13(2) 16 0.765(0.882) 0.813(0.938)
D 3 3 3 1.000 1.000
E 5 4 4 0.800 1.000
F 2 1(1) 2 0.500(1.000) 0.500(1.000)
G 4 3 3 0.750 1.000
H 2 1(1) 2 0.500(1.000) 0.500(1.000)
I 6 1(1) 2 0.167(0.333) 0.500(1.000)
J 2 1(1) 2 0.500(1.000) 0.500(1.000)
合計 56 35(10) 46 0.625(0.804) 0.761(0.978)

5 まとめ

本論文では,テレビ番組から位置情報付き旅行映像データベースを自動構築する システムを提案した. 字幕情報を利用して,動画の分割,位置情報推定を行いGoogle Map上に旅行番組 を配置した. 動画の分割,配置は分割誤差1分の範囲では,市区町村レベルで適合率51.4%, 再現率50.5%,都道府県レベルで適合率62.5%,再現率76.1%を達成した.

6 今後の課題

本論文のシステムは,日本国内の地名にしか対応していないので,海外の地名に も対応させるといった改良が考えられる.

また,地名として使用しないストップワードを追加していくことも課題である. 適切なストップワードを追加することにより,分類精度の向上に繋がると考えら れる. 理想としては,番組を分類しながら自動でストップワードを学習することが望ま しい.

文献目録

1
宮部創一.
地図と対応付けられた旅行番組データベースの構築.
電気通信大学 電気通信学部 情報工学科 卒業論文, 2011.

2
Caption2Ass.
http://2sen.dip.jp/dtv/.

3
ChaSen.
http://chasen-legacy.sourceforge.jp/.

4
Google Geocoding API.
http://code.google.com/intl/ja/apis/maps/documentation/geocoding/.

5
M.J. Swain and D.H. Ballard.
Color indexing.
International Journal of Computer Vision, Vol. 7, No. 1, pp. 11-32, 1991.

6
Google Maps JavaScript API V3.
http://code.google.com/intl/ja/apis/maps/documentation/javascript/.