saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

一人称視点の移動映像に対する自動要約の研究

岡本 昌也

2013年 2月 7日




1 はじめに

近年、カメラデバイスの高性能小型化によって、ウェアラブルカメラと呼ばれる、 身に付けて常に撮影を行う為のカメラが普及してきている。 ウェアラブルカメラで撮影された映像は、 撮影者の視界とほぼ同等で一人称視点の映像と呼ばれ、 日々の生活を撮影した、 一人称視点のライフログ映像が多く撮影される様になってきた。

しかし、これらライフログ映像は常に撮影しているが故、同じ映像が長く続く場合など冗長な映像になりやすい。 これらを見直す、確認するという作業は多大な労力を要するものとなってきた。

そこで、本研究では、ライフログ映像に対して自動で要約を行い、 より少ない時間で映像の内容を理解できる様にする手法を提案する。

頻繁かつ長時間撮影されるライフログ映像を自動的に要約することが出来れば、短時間で内容を把握することができ、 有用であると考える。

2 関連研究

一人称視点映像の解析の研究分野では、次のような関連研究がある。 位置情報(GPS情報)を使用しない研究としてLeeらの 一人称視点のビデオを要約する手法の提案の論文[1]がある。 これは、色情報によるイベント分割及び、物体認識でライフログ映像の自動要約をおこない、 結果は映像ではなく数枚の画像を出力する。

GPS情報など各種センサを使用してライフログ映像を要約する研究として、 Datchakornらの研究[2]がある。 これは、GPS情報に基づいて、映像を含むライフログ情報のインデキシング及び、要約を行う。 また、GPS情報だけでなく、周囲の音声、撮影者の身体情報も利用している。

本研究では、横断歩道検出と自己行動分類の2つをうまく組み合わせることで、 優れた要約を目指す。 また、結果が編集した動画である点が従来研究とは異なる。 さらに、結果の要約映像をビデオプレイヤーを直接操作することで、 映像を短く見せる。 これによって、動画ファイルを新しく生成する必要がなく、 動的に要約が生成できるという点が従来の研究とは異なる。

3 研究方針

1 対象とする映像

ライフログ映像と言っても、様々な場面が想定され、一様に要約を行うのは不可能である。 そこで、本研究では特に、移動映像について研究する。

移動映像とは、 ウェアラブルカメラを装着した状態で移動しているところを撮影した映像である。 移動手段は徒歩を想定する。

移動映像を要約することが出来れば、道案内のために使用する事が出来る。 なので、本研究では、 道順が分かるように要約された移動映像の自動生成を目的とする。

Figure 1: 理想的な要約の例


2 優れた要約とは

まず、本研究における優れた要約とは何かを定義する。 優れた要約の要件とは、次の3つである。
  • 出発地点と目的地点が分かる
  • どのような道順であったか分かる
  • 周りがどのような風景であったか分かる

これらを満たし、なるべく短い映像を作成することが優れた要約といえるだろう。 例を示す。図1のように重要な部分だけが残る要約が良い要約である。

本研究では、以上の観点から要約された映像を評価することとする。

Figure 2: 処理の流れ

4 手法

実際の手法について説明する。システムの処理の流れは、図2に示す様になる。

記録した一人称視点の移動映像を入力として、提案手法では大きく2つに処理が分かれる。 1つ目は映像中に出現する横断歩道を検出する横断歩道検出である。 2つ目は映像撮影者の行動を``直進''、``停止''、``右折''、``左折''の4つに分類する自己行動分類である。 さらに、この2つの処理の結果を統合し、映像中のシーンごとに重要度を算出する。 この重要度を基に再生シナリオを作成する。 最後に再生シナリオに従ってHTML5ビデオプレイヤーを制御することで要約映像を見せる。

1 横断歩道検出

要約したい映像1秒につき3秒の画像を取り出し、 それらの画像から横断歩道を検出する。 前処理として、関係のない部分を除去するため、地面領域を推定する。 地面領域の推定方法は、 HoiemらのGeometric Contextの手法[3]の手法を利用する。 画像特徴はSIFTとBoFを使用する。 認識手法はSVMで、予め複数の映像から学習を行って使用する。

2 自己行動分類

移動映像を撮影している人自身が映像の中で何をしているか、を推定する。 具体的には、先ず、要約したい映像からのオプティカルフローを計算する。 さらに一定時間ごとに計算したオプティカルフローを合計し、 それを利用して要約したい映像の撮影者の行動を推定する。 分類する行動は``直進''、``停止''、``右折''、``左折''の4つである。

認識手法はSVMを使用し、 one-vs-all方式で4つの認識機を作成して結果を統合して使用する。

3 重要度推定

開始から8秒ごとに動画を分割し、それぞれに対して重要度を推定する。 自己行動分類の4つの分類器から得られた出力値を重みを付けて合計する。 このとき、横断歩道検出数が閾値を越えるシーンの場合は、合計値を高くする。 計算された重要度は最後に正規化を行う。

5 実験

1 データセットの収集

Figure 3: Looxcie2
Figure 4: 装着例
 

データセットを収集するため、映像の撮影には図3に示す、 ウェアラブルカメラLooxcie2を図4のように耳に付けて撮影を行った。

収集したデータは、表1のようになる。 映像は4分から15分の映像で、撮影場所は全て調布市近辺である。


Table 1: 収集したデータセット
移動手段 本数 平均時間
歩き 9 9:12

2 横断歩道検出の精度実験

5つの映像から取り出した画像200枚をテスト用として、横断歩道検出の精度実験を行う。 テスト用の画像を取り出した映像は学習用の映像には含まれてない。

また、地面領域を推定する方法の有効性を検証するため、 地面領域推定を行わない手法との比較を行う。

結果は次の表2のようになった。 地面領域の推定ありの場合の方が約3%向上している事が分かる。 地面領域の推定の処理で失敗した場合、 検出も失敗するという傾向があることが分かった。


Table 2: 横断歩道検出の精度実験結果
手法 精度 再現率 適合率 f値
地面領域推定あり 0.635 0.37 0.787 0.503
地面領域推定なし 0.605 0.26 0.839 0.397

3 自己行動分類の精度実験


Table 3: 自己行動分類の結果
行動 データ数 精度 再現率 適合率 f値
直進 244 0.766 0.943 0.697 0.801
停止 72 0.806 0.694 0.893 0.781
右折 84 0.857 0.738 0.969 0.838
左折 88 0.886 0.795 0.972 0.875

実際のテストデータ数と結果は次の表3の様になった。 データ数の半数がポジティブでもう半数がネガティブである。

4つの状態の平均精度は82.9%であり精度よく分類出来ている。 しかし、代表的な失敗として、その場で右を見るという動作を右折に分類するなど課題も多い。

4 比較実験

要約手法は次の3つである。

  1. 等倍で早送り
  2. 自己行動分類のみ
  3. 横断歩道検出+自己行動分類(提案手法)

2と3が提案手法の要約であり、比較用に1を加えて比較を行う。 2は横断歩道検出による重要度の計算を行わず、自己動作分類の結果のみでの要約である。 3は提案手法である。

結果の映像の長さが、元の映像の4分の1程度の長さとなるように映像の最高速度を設定した。

1は等倍で早送りを行う映像である。 他の映像と同じ時間になるように再生速度を設定した。

比較実験用映像として、収集したデータセットから3つの映像を選択した。実験者に3つの映像を見てもらい、その中で3.2の観点で、 最も良かった要約に投票してもらった。 比較実験を行ったところ、実験者11人から25の投票を得た。 結果は表4のようになった。 まず、比較用に加えた3の等倍で早送りに対して1つの投票もないことが分かる。 この理由は、再生速度が約4倍となり、 映像に何が映っているのか分からないためだと考えられる。


Table 4: 比較実験の結果
映像 要約前 要約後 等倍 自己のみ 提案手法
映像A 7:47 1:45 0 4 3
映像B 9:17 2:20 0 4 3
映像C 11:26 2:40 0 1 7
合計 28:30 6:45 0 9 16

ユーザ評価実験の結果、合計では提案手法が最も優れた要約手法である事が分かった。 しかし、3本の動画中1本では自己動作分類のみの要約の方が良いという結果であり、 自己動作分類のみでも十分要約出来ていると見るべきだろう。 また、実験者からは提案手法と自己動作分類のみの違いが分からない、 という意見もあった。

この結果は、道路を渡るシーンなど横断歩道の出現する重要な部分は 信号待ちなどの行動を行う為、自己行動分類だけでも重要度が高くなり あまり違いがなくなった為だと考えられる。 また、小さな横断歩道を直進で通過するなどの全体的に見れば、 重要でない部分も重要度を引き上げてしまうので見づらいと感じたと考えられる。

6 今後の課題

今後の課題としては、移動映像を歩きに限定せず、 自転車や自動車など他の移動手動でも有効であるかの詳細な検討と、 大規模な実験があげられる。 現在は、大学周辺の主に住宅地での映像を撮影しているが、 この地域以外や住宅地以外の映像でも有効であるかの検討も必要であろう。

横断歩道以外の重要物体を登録もしくは、ユーザデータベースから推定して要約に使用するなど、 屋外だけでなく屋内でも使用できる要約手法にしていく予定である。 また、ストリートビューなどのデータベースと連携して要約を行うなどの発展が考えられる。 それに加えて、現在は手動で設定している要約に使用する各定数も学習によって最適なものを自動で選択する様な手法を検討していく予定である。

Bibliography

1
Y. J. Lee, J. Ghosh, and K. Grauman.
Discovering important people and objects for egocentric video summarization.
In Proc. of IEEE Computer Vision and Pattern Recognition, 2012.

2
Tancharoen. D, Yamasaki. T, and Aizawa. K.
Practical experience recording and indexing of life log video.
In Proc. of ACM SIGMM Workshop on Continuous archival and retrieval of personal experiences, 2005.

3
Hoiem. D, Efros. A, and Hebert. M.
Recovering surface layout from an image.
In Proc. of International journal of Computer Vision, 2006.