YANAI Lab.電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室 |
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介 |
ポーズ推定を用いたWeb動画の分類水野 颯介 Date: 2020 年 2 月 14 日
1 はじめにWeb上には,YouTube,TwitterやInstagramなどのサイトに大量の動画が公開されている.これらの動画は世界中のユーザーが自由に投稿していて,毎秒大量の動画が投稿され続けている.また,投稿された動画にはタグが付けられており,キーワード検索できるようになっている.タグとは,動画の内容に関連したものであり,動画全体を一言で表すようなものである.しかし,キーワード検索において,キーワードとは無関係のWeb動画が検索されることがある.よって,Web上にある大量の動画の中から目的のシーンのみを人の手で探していくのはかなりの時間を要し,多くの負担を生じる.そこで,本研究ではWeb動画から動作キーワードに対応する動作区間を自動で抽出して,その動作の認識モデルを学習できるシステムを提案する.本研究は,Ngaら[1]の手法をベースに行う.Ngaらの手法では集められた動作カテゴリのショットに対してテキスト情報を使用していた.井出ら[2]の研究は,Ngaらの手法にCNN特徴を導入した.本研究では,Two-Stream I3D Networkを用いた特徴量に加え,ポーズ特徴抽出を行い動画ショットのランキングを行う.また,本研究は,Ngaらの手法と井出らの手法との精度の比較を行う.
2 関連研究Web動画からの特定動作の対応ショットの自動収集システムについてはNgaら[1]の研究がある.Ngaらの研究では,Web動画の動画タグから作成されるWeb2.0辞書[3]に基づいて各動画をランキングして分類していた.そこで,井出ら[2]の研究では,Ngaらの手法にTwo-Stream CNNを導入した.本研究では,井出らの提案手法に加え,ポーズ特徴からVisualRankを計算してショットのランキングを行い精度の向上を図る形となる.ポーズ推定の研究は数多くあり,代表的なものにはOpenPose[4]やDeepPoseなどがある.また,近年ではポーズ特徴を用いた動作認識の研究も盛んであり,Ludlらの研究などがある.本研究では, OpenPoseを用いてポーズ特徴量を抽出する.
3 手法概要本研究は,Web動画収集,キーワードによるランキング,動画ショットの切り出し及び,選択はNgaら[1]の手法で処理をして,Ngaらが公開しているデータをそのまま用いる.本研究の手順は以下の通りである,各動作カテゴリの動画からポーズ特徴とTwo-Stream I3D特徴を抽出し,VisualRankによって動画ショットのランキングを行う.
4 手法詳細1 OpenPose[4]によるポーズ特徴抽出本研究では,COCOデータセットとMPIIデータセットでpre-trainされた OpenPoseを使用してポーズ特徴を抽出する.OpenPoseは, 図1(a)のように18箇所の関節座標と信頼度スコアが出力される.本研究では, 図1(b)のように10個の関節ベクトル集合に変換し, これをポーズ特徴量とする.
2 Two-Stream I3D Networkによる特徴抽出本研究では, Kinetics-400でpre-trainされたTwo-Steam I3D Network[5]を用いて時空間特徴を抽出する. Two-Stream CNN[6]と同様に, RGB画像とOpticalFlow抽出された画像とをそれぞれ分割して入力するネットワークがある.
3 ベクトル量子化本研究では, 動画内ないの動作ポイントの時間的ギャップや動画の長さの違いを無くすために, ベクトル量子化を用いる. Bag-of-Features(BoF)とFisher Vectorを用いる. BoFは, 画像を局所特徴量の集合とみなし, ヒストグラム化する手法である. Fisher Vectorは, 混合ガウスモデルを用いた確率密度分布推定によるベクトル量子化手法で, BoFを改良した手法である.
4 ショットランキング動画ショットのランキングにはVisualRankを用いる.VisualRankとは,Webページの重要度を算出するPageRankアルゴリズムに画像類似度行列を適用したものである.今回の予備実験では,Pose特徴を適用してランキングを行った.
5 実験
1 データセット本研究では,Ngaら[1]らが公開しているデータセットと, UCF101データセット, HMDB51データセットを用いる. Ngaらのデータセットは,YouTubeから集められた動画のショット動画で構成されている.100個の動作カテゴリがあり,各カテゴリ2000のショット動画の構成となっている. UCF101とHMDB51データセットは, 人間の動作認識用のデータセットとして知られており, カテゴリ数はそれぞれ101, 51となっている. 実験では, ある動作カテゴリを正解カテゴリとし, それ以外を不正解カテゴリとする. 正解データは, n=100動画で固定し, ノイズとして不正解カテゴリからランダムでn×r(0.5,1,2)を加えて分類する.
2 特徴抽出各動画から, Two-Stream I3D特徴とポーズ特徴を抽出する. I3D特徴は, 動画のフレーム数が30フレーム未満だと抽出不可能であり, 30フレームから79フレームだと全フレーム抽出し, 79フレームより大きい場合は, フレームをスキップしてフレーム長を調整するようにしている. ポーズ特徴量は, BoFやFisher Vectorを用いてベクトル量子化する. そして, (1-w)×I3D特徴量+w×ポーズ特徴量を最終的な特徴量とする. wは,0.1, 0.2, ..., 0.9で実験を行う.
3 ランキングランキングした各動作カテゴリについて,上位100ショットの内いくつのショットが動作キーワードに対応していたのかで精度を出す.表1にNgaらのデータセットの結果を, 表2にUCF101データセットの結果を, 3にHMDB51データセットの結果を示す. |