ポーズ推定を用いたWeb動画の分類

水野颯介

Date: 2020 年 2 月 14 日

1 はじめに

Web上には，YouTube，TwitterやInstagramなどのサイトに大量の動画が公開されている．これらの動画は世界中のユーザーが自由に投稿していて，毎秒大量の動画が投稿され続けている．また，投稿された動画にはタグが付けられており，キーワード検索できるようになっている．タグとは，動画の内容に関連したものであり，動画全体を一言で表すようなものである．しかし，キーワード検索において，キーワードとは無関係のWeb動画が検索されることがある．よって，Web上にある大量の動画の中から目的のシーンのみを人の手で探していくのはかなりの時間を要し，多くの負担を生じる．そこで，本研究ではWeb動画から動作キーワードに対応する動作区間を自動で抽出して，その動作の認識モデルを学習できるシステムを提案する．本研究は，Ngaら[1]の手法をベースに行う．Ngaらの手法では集められた動作カテゴリのショットに対してテキスト情報を使用していた．井出ら[2]の研究は，Ngaらの手法にCNN特徴を導入した．本研究では，Two-Stream I3D Networkを用いた特徴量に加え，ポーズ特徴抽出を行い動画ショットのランキングを行う．また，本研究は，Ngaらの手法と井出らの手法との精度の比較を行う．

2 関連研究

Web動画からの特定動作の対応ショットの自動収集システムについてはNgaら[1]の研究がある．Ngaらの研究では，Web動画の動画タグから作成されるWeb2.0辞書[3]に基づいて各動画をランキングして分類していた．そこで，井出ら[2]の研究では，Ngaらの手法にTwo-Stream CNNを導入した．本研究では，井出らの提案手法に加え，ポーズ特徴からVisualRankを計算してショットのランキングを行い精度の向上を図る形となる．ポーズ推定の研究は数多くあり，代表的なものにはOpenPose[4]やDeepPoseなどがある．また，近年ではポーズ特徴を用いた動作認識の研究も盛んであり，Ludlらの研究などがある．本研究では, OpenPoseを用いてポーズ特徴量を抽出する.

3 手法概要

本研究は，Web動画収集，キーワードによるランキング，動画ショットの切り出し及び，選択はNgaら[1]の手法で処理をして，Ngaらが公開しているデータをそのまま用いる．本研究の手順は以下の通りである，各動作カテゴリの動画からポーズ特徴とTwo-Stream I3D特徴を抽出し，VisualRankによって動画ショットのランキングを行う．

各動作カテゴリ動画の特徴抽出
1. OpenPoseによるポーズ特徴量抽出
2. Two-Stream I3D特徴抽出
Bag-of-Feature, Fisher Vectorによるベクトル量子化
動画ショットのランキング

4 手法詳細

1 OpenPose[4]によるポーズ特徴抽出

本研究では，COCOデータセットとMPIIデータセットでpre-trainされた OpenPoseを使用してポーズ特徴を抽出する．OpenPoseは, 図1(a)のように18箇所の関節座標と信頼度スコアが出力される．本研究では, 図1(b)のように10個の関節ベクトル集合に変換し, これをポーズ特徴量とする.

Figure 1: ポーズ表現の変換

(a) OpenPoseの出力

(b) ポーズのベクトル表現

2 Two-Stream I3D Networkによる特徴抽出

本研究では, Kinetics-400でpre-trainされたTwo-Steam I3D Network[5]を用いて時空間特徴を抽出する. Two-Stream CNN[6]と同様に, RGB画像とOpticalFlow抽出された画像とをそれぞれ分割して入力するネットワークがある.

3 ベクトル量子化

本研究では, 動画内ないの動作ポイントの時間的ギャップや動画の長さの違いを無くすために, ベクトル量子化を用いる. Bag-of-Features(BoF)とFisher Vectorを用いる. BoFは, 画像を局所特徴量の集合とみなし, ヒストグラム化する手法である. Fisher Vectorは, 混合ガウスモデルを用いた確率密度分布推定によるベクトル量子化手法で, BoFを改良した手法である.

4 ショットランキング

動画ショットのランキングにはVisualRankを用いる．VisualRankとは，Webページの重要度を算出するPageRankアルゴリズムに画像類似度行列を適用したものである．今回の予備実験では，Pose特徴を適用してランキングを行った．

5 実験

1 データセット

本研究では，Ngaら[1]らが公開しているデータセットと, UCF101データセット, HMDB51データセットを用いる. Ngaらのデータセットは，YouTubeから集められた動画のショット動画で構成されている．100個の動作カテゴリがあり，各カテゴリ2000のショット動画の構成となっている. UCF101とHMDB51データセットは, 人間の動作認識用のデータセットとして知られており, カテゴリ数はそれぞれ101, 51となっている. 実験では, ある動作カテゴリを正解カテゴリとし, それ以外を不正解カテゴリとする. 正解データは, n=100動画で固定し, ノイズとして不正解カテゴリからランダムでn×r(0.5,1,2)を加えて分類する.

2 特徴抽出

各動画から, Two-Stream I3D特徴とポーズ特徴を抽出する. I3D特徴は, 動画のフレーム数が30フレーム未満だと抽出不可能であり, 30フレームから79フレームだと全フレーム抽出し, 79フレームより大きい場合は, フレームをスキップしてフレーム長を調整するようにしている. ポーズ特徴量は, BoFやFisher Vectorを用いてベクトル量子化する. そして, (1-w)×I3D特徴量+w×ポーズ特徴量を最終的な特徴量とする. wは,0.1, 0.2, ..., 0.9で実験を行う.

3 ランキング

ランキングした各動作カテゴリについて，上位100ショットの内いくつのショットが動作キーワードに対応していたのかで精度を出す．表1にNgaらのデータセットの結果を, 表2にUCF101データセットの結果を, 3にHMDB51データセットの結果を示す.

$\scalebox{0.6}{ \begin{tabular}{\vert c\vert c\vert c\vert c\vert c\vert c\vert ... ...& 50 & 49 & 49 & 47 & 47 & 48 & \textbf{\underline{75}} \\ \hline \end{tabular}}$

表2より, UCF101データセットでは, Two-Stream I3Dでほぼ完璧に分類できていることが分かる. UCF101データセットは, 分類するには容易な動画が多いためこのような結果になった. 表3より, HMDB51データセットでは, UCF101同様にTwo-Stream I3Dが最も精度が良いことが分かる. しかし, HMDB51データセットでは, 本手法がTwo-Stream I3Dよりも精度が良くなるカテゴリが存在した. 表4にそれらの結果を示す. 表4より, ``dribble''や``dive'', ``fall floor'', ``situp''などの動きに特徴のある動作カテゴリに対しては, 本手法は有効であると言える. また, Two-Stream I3Dには及ばないが, ``golf''においては, ポーズ情報だけでかなり高い精度で分類できていることが分かる. 図2に上手くいったカテゴリとそうでないカテゴリのポーズ画像を示す. (a)と(b)は上手くいったカテゴリで, 図2からも分かるように動きに特徴のあるカテゴリであるため精度が高くなったと考えられる. 一方, (c)と(d)は上手くいかなかったカテゴリで, 図2からも分かるように, 多くのカテゴリに存在するようなポーズであることから精度が低くなってしまったと考えられる.

Figure 2: 成功例と失敗例

(a) golf

(b) flicflac

(b) talk

6 まとめ

本研究では, 先行研究である井出ら[2]のTwo-Stream I3D Networkを用いる手法に, OpenPose[4]によるポーズ特徴を加える手法を提案した. Ngaらのデータセット, UCF101, HMDB51データセットで実験した結果, 本手法は井出らの精度を上回ることはできなかった. しかし, 動きに特徴のある動作カテゴリにおいては, ポーズ特徴だけで上手く分類できたり, 井出らの手法を上回ることができたことから, ポーズ特徴の有効性を示すことができた.

7 おわりに

本手法は, xy座標でポーズ情報を取り入れたが, Human Parsingを用いて人間のポーズ情報を画像として扱うことで, 深層学習に落ち仕込むことができ, より良い結果が得られるのではないかと思う.

Bibliography

1: Nga, D. H. and Yanai, K.
Automatic construction of an action video shot database using web videos.
Proc. of International Conference on Computer Vision, 2011.
2: 井出佑汰 and 柳井啓司.
CNNを用いたweb動画からの特定動作区間の自動推定.
電気通信大学卒業論文,2017.
3: Yand, Q. and Chen, X. and Wang, G.
Web 2.0 dictionary.
Proc. of the International Conference on Content-based Image and Video Retrieval, 2008.
4: Cao, Z. and Hidalgo, G. and Simon, T. and Wei, S. and Sheikh, Y.
Realtime multi-person 2d pose estimation using part affinity fields.
Proc.of IEEE Computer Vision and Pattern Recognition, 2017.
5: Carreira, J. and Zisserman, A.
Quo vadis, action recognition? a new model and the kinetics dataset.
Proc.of IEEE Computer Vision and Pattern Recognition, 2017.
6: Simonyan, K. and Zisserman, A.
Two-stream convolutional networks for action recognition in videos.
Proc.of Neural Information Processing System, 2014

YANAI Lab.