テレビ番組からの位置情報付き旅行映像データベースの自動構築

向井康貴

2012年 2月 8日

1 背景

近年，テレビ放送の多チャンネル化が進んでいる．また，HDDの大容量化，低価格化により，テレビ番組の大量録画が容易なものとなっている．しかし，録画した番組の中から目的の番組を探し出すのは容易なことではない．

2 目的

本研究では，字幕情報付きの旅行番組を大量に録画し，その字幕を利用して，紹介場所毎に番組の分割，地図上への配置を行うことにより，目的の番組を探し出せるシステムを提案する．

本研究は宮部[1]の地図と対応付けられた旅行番組データベースの構築を発展させる形で進めていく．宮部の研究は，字幕より地名を抽出して，出現回数の多かったもの3つだけを利用していた．これでは最大で3カ所を紹介している番組しか対応しきれない．本研究では，番組の内容に応じた数の地名を利用して，幅広い番組に対応できることを目指す．また，宮部のシステムでは番組全体を1カ所にマッピングしていたが，これでは番組のどのあたりで，該当の場所を紹介しているのか探す必要があった．本システムでは，番組を紹介場所毎に分割することにより，この問題を解決する．

3 提案システム

システムの大まかな流れは図1のようになる。

**図 1:** システムの流れ
$\includegraphics[width=0.35\textwidth]{system.eps}$

まず，録画した番組から字幕を抽出し，動画のエンコードを行う．これ以降は，元の録画ファイルは使用せず，ここで得た字幕ファイルとエンコード済みの動画ファイルを使用する．次に，字幕ファイルから地名の抽出，さらに重要地名の選択を行う．最後に，ここで得た重要地名を中心として，映像の分割，地図上への配置を行う．

3.1 番組の録画

地上デジタル放送の映像は，最大ビットレート16.85Mbps，解像度1440x1080iを 16:9に引き延ばしたものである． BSデジタル放送の映像は，地上デジタル放送よりチャンネル帯域が大きいため，最大ビットレート24Mbps，解像度1920x1080iとなっている．また，これらの放送には，映像，音声の他に，番組情報，字幕情報などのメタデータも含まれている．テレビ番組は放送の生データであるMPEG-2 TS形式（TSファイル）で保存する．

3.2 字幕の抽出

字幕はCaption2Ass[2]を使用して抽出する． Caption2AssはASSまたはSRT形式で字幕を抽出することができる． ASS形式には，字幕のテキスト以外に字幕の開始時間，終了時間，表示位置，サイズなどの情報が含まれている．本研究では，字幕のテキスト，表示時間のみを使用するので，ASSよりもシンプルなSRT形式の字幕を使用する．

3.3 動画のエンコード

MPEG-2 TS形式は高解像度かつファイルサイズが大きく，本研究には必要のない余分な情報も多く含んでいる．このままでは，計算機上で扱いづらいので，映像654kbps，音声96kbps，解像度 640x360に落としたFlash Video形式（FLVファイル）にFFmpegを使用してエンコードする．これ以降はエンコードして得られたFlash Videoで処理を行う．

ある1時間の地上デジタル放送の旅行番組では約6.6GB，別の1時間のBSデジタル放送の旅行番組では約9.6GBのサイズになるが，エンコードすることによりどちらも約330MBのFlash Videoに変換することができる．

3.4 地名の抽出

地名の抽出には形態素解析ツールChaSen[3]を使用する．形態素解析とは，自然言語を言葉で意味を持つ最小の単位に分割し，それぞれの品詞を判別する作業のことである．ここで，重要となるのは品詞が「名詞-固有名詞-地域-一般」となっているものである．これが地名であることを表現している．

[
l]形態素解析の例
下田駅に戻った2人は下田　シモダ　下田　名詞-固有名詞-地域-一般駅　　エキ　　駅　　名詞-接尾-地域に　　ニ　　　に　　助詞-格助詞-一般戻っ　モドッ　戻る　動詞-自立五段・ラ行連用タ接続た　　タ　　　た　　助動詞特殊・タ基本形 2 　　ニ　　　2　　名詞-数人　　ニン　　人　　名詞-接尾-助数詞は　　ハ　　　は　　助詞-係助詞

また，特に地名として誤認識されることの多い単語はストップワードリストに登録して，地名として抽出しないようにする．ここでは，「栗」「港」「あら」などをストップワードリストに登録している．

抽出した地名からはジオコーディングを行い，位置情報，つまり緯度および経度を取得する．

3.5 Google Geocoding API

ジオコーディングにはGoogle Geocoding API[4]を使用する．また，Google Geocoding APIからは位置情報以外に多数の情報が得られる．本研究では，表1の情報を利用する．

**表 1:** Google Geocoding APIから得られる各種情報
タグ	説明
route	このタグが付けられたものは道路であることを示す．範囲が広く特定の位置を表現するのが難しいので，本研究では無視する．
country	国際的な政治的に定義された地域．国名．
administrative _area_level_1	国レベルの中で，一番大きい民政的な地域．日本の場合は，都道府県．
locality	県，州の議会にて正式に自治体として認められた政治的な地域．日本の場合は，市区町村．

1つの地名より複数の位置情報が得られることがあるが，その場合には直前に得られた位置情報と1番近いものを選択する．

3.6 重要地名の選択

最初に位置情報を逆ジオコーディングして，国，都道府県，市区町村を再設定する．これは，ジオコーディングしたときに，市区町村が取得できないことがあるためである．

次に，一定回数以上連続して出現している市区町村または都道府県だけを抽出する．次に，同市区町村で他の市区町村を挟んでいる物は，間のものを削除する．都道府県についても同様に行う．これは，挟まれているものが無くなるまで行う．最後に連続して同市区町村が出現しているものは1つに統合して終了である．

3.7 動画の分割

各重要地名が最初に出現した時間をもとにFFmpegを利用して動画の分割を行う．シーンの最初から地名が出現するとは限らないので，少し前の切り替えポイントをRGBのカラーヒストグラムインターセクション[5]を利用して求める．

3.7.1 ヒストグラムインターセクション

ヒストグラムインターセクションとは，それぞれのヒストグラムの同じビンを比較し，小さいものを集めていき最後に和を求めたものである．ヒストグラム

と

のヒストグラムインターセクションを求める式は

$\begin{displaymath} S = \sum_{i=1}^{N}min(h1_i,h2_i) \end{displaymath}$

(1)

となる．この値は正規化している場合0から1の値をとる．似ている画像であれば，この値が1に近くなる．

テレビ映像ではカメラの切り替わりやCMとの境界でヒストグラムインターセクションが低くなる．本研究では，各フレーム間のRed，Green，Blueのそれぞれについて，ヒストグラムインターセクションを計算して， 1つでも0.6を下回ったときをシーンの境界と判断する．

3.8 地図上への配置

Google Maps API[6]を使用して，動画と位置情報を対応付けてGoogle Map上に配置する．図2のように地図上に配置することにより，視覚的に目的の場所の番組を探し出せる．

**図 2:** Google Map上に配置
$\includegraphics[width=0.35\textwidth]{map.eps}$

4 実験

実験として，10本の旅行番組について，動画の分割，位置情報推定を行った．

2回以上連続して出現している市区町村名を用いた市区町村ベースの実験と，市区町村名を全く利用せずに5回以上連続して出現している都道府県名を用いた都道府県ベースの実験を行った．

ここでは，3分以上紹介している場所を検出したいものとし，動画開始の分割誤差が1分以内で，位置情報が正しいものを正解とした．評価には，適合率，再現率を用いた．

4.1 実験結果

市区町村ベースの分割についての結果を図2に，都道府県ベースの分割についての結果をを図3に示す．正解数の括弧内は，1分以上の誤差はあったが動画内で，その場所が紹介されているものを外数で示している．適合率，再現率の括弧内は，正解数の括弧内のものも正解と考えたときの値である．

**表 2:** 市区町村ベースの分割結果
番組	分割	正解	理想	適合率	再現率
A	12	7(2)	13	0.583(0.750)	0.538(0.692)
B	11	4	13	0.364	0.308
C	38	26(3)	38	0.684(0.763)	0.684(0.763)
D	7	2	6	0.286	0.333
E	13	7(1)	15	0.538(0.615)	0.467(0.533)
F	3	2	4	0.667	0.500
G	9	3(1)	14	0.333(0.444)	0.214(0.286)
H	3	1(1)	3	0.333(0.667)	0.333(0.667)
I	9	1	2	0.111	0.500
J	4	3	3	0.750	1.000
合計	109	56(8)	111	0.514(0.587)	0.505(0.577)

**表 3:** 都道府県ベースの分割結果
番組	分割	正解	理想	適合率	再現率
A	8	4(3)	7	0.500(0.875)	0.571(1.000)
B	7	4(1)	5	0.571(0.714)	0.800(1.000)
C	17	13(2)	16	0.765(0.882)	0.813(0.938)
D	3	3	3	1.000	1.000
E	5	4	4	0.800	1.000
F	2	1(1)	2	0.500(1.000)	0.500(1.000)
G	4	3	3	0.750	1.000
H	2	1(1)	2	0.500(1.000)	0.500(1.000)
I	6	1(1)	2	0.167(0.333)	0.500(1.000)
J	2	1(1)	2	0.500(1.000)	0.500(1.000)
合計	56	35(10)	46	0.625(0.804)	0.761(0.978)

5 まとめ

本論文では，テレビ番組から位置情報付き旅行映像データベースを自動構築するシステムを提案した．字幕情報を利用して，動画の分割，位置情報推定を行いGoogle Map上に旅行番組を配置した．動画の分割，配置は分割誤差1分の範囲では，市区町村レベルで適合率51.4%，再現率50.5%，都道府県レベルで適合率62.5%，再現率76.1%を達成した．

6 今後の課題

本論文のシステムは，日本国内の地名にしか対応していないので，海外の地名にも対応させるといった改良が考えられる．

また，地名として使用しないストップワードを追加していくことも課題である．適切なストップワードを追加することにより，分類精度の向上に繋がると考えられる．理想としては，番組を分類しながら自動でストップワードを学習することが望ましい．

文献目録

1: 宮部創一.
地図と対応付けられた旅行番組データベースの構築.
電気通信大学電気通信学部情報工学科卒業論文, 2011.
2: Caption2Ass.
http://2sen.dip.jp/dtv/.
3: ChaSen.
http://chasen-legacy.sourceforge.jp/.
4: Google Geocoding API.
http://code.google.com/intl/ja/apis/maps/documentation/geocoding/.
5: M.J. Swain and D.H. Ballard.
Color indexing.
International Journal of Computer Vision, Vol. 7, No. 1, pp. 11-32, 1991.
6: Google Maps JavaScript API V3.
http://code.google.com/intl/ja/apis/maps/documentation/javascript/.