saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

ラッシュ映像の自動要約

野口 顕嗣

2008年 2月 7日




1 はじめに

本研究では,国際映像処理ワークショップTRECVIDで2007年から始まった 映像自動要約タスク(rushes summarization)について取り組む. 具体的方法としては,CMUの手法[1]を参考にショット分割した映像を色,動き,顔特徴に基づいてクラスタリングすること によって,映像要約を実現する.そして,実験によってその有効性を示す.

2 TRECVIDについて

TRECVIDとは映像コーパスを用いた情報検索のための競争型ワークショップで米 国のNIST(National Institute of Standards and Technology)の主催で行われて いる.その主な目標はビデオのcontent-based検索の向上である.

TRECVID 2007において以下の4つのタスクが設定された.

  • Shot boundary detection(ショット境界検出)
  • High-level feature extraction(高次元特徴抽出)
  • Search(検索)
  • Rushes summarization(ラッシュ映像要約)
本研究で今回取り組むタスクはrushes summarizationである.

Rushes summarizationは与えられたラッシュ映像(MPEG-1)を決められた時間以下(2007においては4%以下)に自動で要 約するタスクである.ラッシュ映像とは未編集の映像のことであり,俳優のNGシー ンなどの繰り返しシーン,カメラが固定されていて長い間動きがないシーンを 含んでいる映像のことである.

このタスクにおける評価方法は,テキスト形式のground truthとの一致率や,リッカー ト尺度による要約としての見易さや無駄の少なさのような主観的なものと,シス テムの実行にかかった時間,審査官が審査にかかった時間,要約の長さなどの客 観的ものがある[2].

図1,2はそれぞれラッ シュ映像の10秒ごとのフレームと実際に要約したフレームの例,表1はこの動画 に対応するground truthの一部である.

図 1: ラッシュ映像の10秒毎のフレーム
\includegraphics[width=0.6\textwidth]{rush.eps}

図 2: 要約映像の10秒毎のフレーム
\includegraphics[width=0.45\textwidth]{sum.eps}



表 1: Ground truthの例
Shot of trees
Woman towards camera, stops and talks
Woman turns around and walks down footpath

3 アルゴリズム

ここでは本システムのアルゴリズムの概要について説明する.図3はシステムの概 要を表している.

最初に与えられたビデオを色特徴をもとに前後のフレームを比較し,色ヒスト グラムの差分が閾値以下ならショッ ト分割する.また各ショットの色特徴からクラスタリングを行い,それぞれのクラ スから最も長いショットを代表として選んでいく.

その際,ブラックフレームや,カラーバーなどのジャンクショットの検出をク ラス単位で色特徴を用いて行う.

このようにして得られた各クラスタの代表から今度は色特徴,顔特徴,動き情報を 抽出しながら,各ク ラスタの代表をそれぞれ一秒単位に分割する.ただしこの際にLucas-Kanade法[3]で オプティカルフローを計算して,ある一定以上の動きがあった場合にそれは一連 の動作の途中であると考え,動きが一定以下になるまで分割を行わないようにす る.

これによりCMUの手法[1]においてはカメラモーションのみの強調であったが,本研究では 動作も強調できるようにする.

その一秒毎に分けられたビデオに対して色特徴を元にオリジナルビデオの4%以 下になるようにkの値を設定して,k-meansアルゴリズムでクラスタリングしてい く.

各クラスタの代表は,できるだけ動きがあるもの,人が映っているものがほしいの で,動き情報と顔情報を用いてクラスタの代表を決定する.各クラスタの代表を 時間順につなぎあわせて,要約映像とする.

図 3: アルゴリズム概要
\includegraphics[width=0.69\textwidth]{flow.eps}

4 特徴量

本章ではショットを表す特徴量の算出方法について説明する.

4.1 位置情報付カラーヒストグラム

色特徴としては$3 \times 3$に分割した画像のRGBカラーヒストグラムを使用する. 各ショットの色特徴Cは式(1)で定義する.

$\displaystyle C =\frac{1}{F} \sum^F_{i=2}\sum^3_{x=1}\sum^3_{y=1}\sum^{64}_{k=0}
H_{i_{{xy}_k}} +H_{i-1_{{xy}_k}}$     (1)


ただしFはショット中に含まれるフレームの数を, $H_{i_{{xy}_k}}$はショット中のi 番目のフレームの格子(x,y)のヒストグラムのk番目の要素であることを示している.

4.2 動き情報

Lucas-Kanade法[3]によって連続するフレーム間のオプティカルフローを計算する. 2つのフレーム間における動き情報$M_{i}$は式(2)で定義する.

$\displaystyle M_{i}= \frac{1}{N}\sum^{N}_{k=1}(x_{k,i}-x_{k,i+1})^2+(y_{k,i}-y_{k,i+1})^2$     (2)


ただしNは見つかった全てのオプティカルフローの個数を,x,yはそれぞれの座 標を表している.例えば$x_{k,i}$は,i番目のフレームのk個めのフローのx座標 を表すものである.

そしてショットとしての動き情報,ALL_Mは式(3)で定義される.

$\displaystyle ALL\_M= \frac{1}{F-1}\sum^{F}_{k=1}M_{k}$     (3)


ただしFはビデオに含まれる全てのフレームの数である.

4.3 顔特徴

顔の認識はOpenCV[4]の顔画像検出プログラムルーチンを利用する.また顔が検出さ れたものには,重みW(実験ではW=1.5)をつける.ただし顔が検出されなかった場合W=1であ る.k-meansでクラスタリングしたあとに各クラスタの代表を次のREの値が最大 のもので定義する.

$\displaystyle RE = ALL\_M \times W$     (4)


5 実験

実験として特徴量を以下のように変えた3つのシステムを比較した.
  1. 特徴量が色のみ
  2. 特徴量が色+動き
  3. 特徴量が色+動き+顔


次にこれらの結果をTRECVID 2007の参加者の結果と比較した.

5.1 実験データ

実験データとして,TRECVID2007で提供された開発データを使用した.この実験で 用いたビデオは,全部で9本であり,ビデオの長さは最大36分,最小11分,平均値 は約21分であった.

5.2 評価基準

本研究では提案システムの評価基準としてTRECVIDの評価方法の中から3つの評価基準を用い た.一つめはそのビデオに対するground truthがどれだけの割合で含まれているか を表すIN値,2つめはオリジナルビデオに対して何パーセ ントの要約になっているかを示すDU値,3つめがシステムの実行にかかった時間を 表すSYS値である.

5.3 実験結果

結果は表2,3,4,で示すようになった.ただし用いたマシンはPentium D 3.2GHzである.


表 2: 色情報
  時間[s] IN DU[%] SYS[s]
rush01 2189 0.49 3.9 1488
rush02 2037 0.53 3.8 1386
rush03 721 0.61 3.7 613
rush04 738 0.38 10.4 1347
rush05 1951 0.63 3.8 1327
rush06 693 0.46 10.8 1348
rush07 743 0.62 3.7 525
rush08 767 0.42 9.5 1219
rush09 1702 0.66 3.8 1014
平均 1282 0.50 5.0 1141


表 3: 色情報+動き情報
  時間[s] IN DU[%] SYS[s]
rush01 2189 0.53 3.5 1999
rush02 2037 0.62 3.6 1608
rush03 721 0.46 3.7 864
rush04 738 0.50 7.7 1549
rush05 1951 0.60 3.5 1590
rush06 693 0.84 10.8 1719
rush07 743 0.75 3.7 657
rush08 767 0.36 5.4 1316
rush09 1702 0.66 3.6 1118
平均 1282 0.55 4.4 1338


表 4: 色情報+動き情報+顔情報
  時間[s] IN DU[%] SYS[s]
rush01 2189 0.62 3.6 2051
rush02 2037 0.60 3.3 1766
rush03 721 0.52 3.7 856
rush04 738 0.56 7.8 1540
rush05 1951 0.63 3.5 1590
rush06 693 0.76 10.8 1735
rush07 743 0.75 3.7 663
rush08 767 0.42 5.2 1298
rush09 1702 0.75 3.8 1308
平均 1282 0.60 4.3 1357


3つのシステムともrush08のIN値が比較的低い.これはこのビデオが全体を通して黒い色が多かったためである.システムのなかで最も重要であるクラスタリングは色情報のみで行われているので色の変化が少ないビデオのINの精度は低くなると考えられる.また3つのシステムともDU値はrush04,rush06,rush08において規定の時間を大幅に越えてしまっている,そのときのIN値を見ていった場合も平均に比べ低くなる傾向がある.

システム毎に見ていくと,IN値は動き特徴を加えた際に5%,さらに顔特徴を加えた際に5%上がっている.このことから,このタスクでは動きと顔特徴を取り入れることは有効であるといえる.

また本研究が参考にしたCMUの手法[1]のIN値は0.59と本システムとほぼ同じ値となった.これは本研究でクラパーボード検出を行っていないなど ,ジャンクショット検出が不完全であることに起因している.

次にTRECVID 2007の参加者との結果を比較した.IN値について見ていった場合,最高のチームが0.70,中間のチームが0.47であったので,本システムの0.60は良い結果になったといえる.しかしDU値ではどの参加者よりも規定時間の超過が多かった.更にSYS値ではほとんどの参加者が1000[s]以下の結果だったことに比べて本システムの1433[s]は計算コストが高いといえる.

6 考察

実験結果よりこのシステムの欠点がいくつか分かった.第一に実行にかかる時間 が比較的長いことが挙げられる.その原因として挙げられることが,色情報を抽出 する作業がショット検出とk-meansの特徴とで重複していることである.

二つ目としては,要約として見難くなっている.一秒毎に場面が切り替 わってしまうので,見ている側も理解することが大変になっている.

またIN値において,ground truthの内容が''Shot of tree''のようなものは精度が 比較的高かったが,''Woman exit left''のような内容のとき,左に行く途中で次 の場面に切り替わってしまう部分が多かった.これは動き情報が不完全であるこ とを示している.このことは動き情報を取り入れることで比較的改善されたが,それでもまだそのような場面が多く見られた.

更にクラス分けは色を中心に行っているので,rush08のように暗い場面が大半を しめている動画に関して,精度が下ってしまっている.

7 おわりに

本研究ではTRECVIDのラッシュ映像要約タスクについて取り組んだ.色情報をもとにクラスタリングされたショットを,動き,顔情報を用いて重みづけし,その重みから代表ショットを選び時間順につなぎあわせる手法を提案した.

その結果として,動き,顔情報を用いることはシステムの精度を向上させることが分かった.またIN値に関してはTRECVID参加者と比較して良い結果が得られたが,DU値,SYS値に関しては良い結果は得られなかった.

今後の課題として,クラッパーボードのようなジャンクショットの検出を実装す ること,動き情報の改良などの,特徴量の改良,音情報などの現在未使用 の特徴量の追加が挙げられる.

文献目録

1
A. Hauptmann, M. Christel, W. Lin, B. Maher, J. Yang, R. Baron, and G. Xiang.
Clever clustering vs. simple speed-up for summarizing rushes.
In Proc. of the international workshop on TRECVID video summarization, pp. 20-24, 2007.

2
P. Over, A. Smeaton, and P. Kelly.
The trecvid 2007 bbc rushes summarization evaluation pilot.
In Proc. of the international workshop on TRECVID video summarization, pp. 1-15, 2007.

3
A. Hauptmann, M. Christel, W. Lin, B. Maher, J. Yang, R. Baron, and G. Xiang.
Clever clustering vs. simple speed-up for summarizing rushes.
In Proc. of the international workshop on TRECVID video summarization, pp. 20-24, 2007.

4
D. Le and S. Satoh.
National institute of informatics, japan at trecvid 2007: Bbc rushes summarization.
In Proc. of the international workshop on TRECVID video summarization, pp. 70-73, 2007.