湯 志遠
平成21年 2月6日
本研究では,多種類の画像特徴による SVMの出力結果をBoosting,AP weighted fusionなどのアルゴリズムで統合する概念認識フ レームワークを提案し,TRECVID2008 の概念認識タスクである「高次特徴抽出タ スク」に適用し,20 種類の対象概念の認識を行った.また,一般のSVMの代りに,複数の特徴カーネルを統 合するMKL SVMもフレームワークに導入し実験を行った.最後に,これらの統合 手法の結果を比較した.
TRECVID[1]とは,アメリカの国立標準技術研究所NIST(National Institute of Technology)の研究部門が行うテキスト検索ワークショップTREC(Text REtrieval Contest)から派生したビデオ映像検索ワークショップである.毎年共通のタスクおよび各タスクに対する評価基準を設定している. 今年開催されたTRECVID2008は
の5つのタスクが用意されている.
各タスクの実験を行うための映像データとして,オランダ語のドキュメンタリー を中心として約100時間のMPEG-1ファイルが用意されている.さらに,データを 「学習データ」と「テストデータ」と定義している.タスクの多くでは,学習データを基に実験システムの開発を行い,テストデータに対する実験結果を提出する手順を採っている.
TRECVID2008の高次特徴抽出タスクには,全39グループが参加した.
以上の研究を踏まえ,本研究でも,多種類の特徴統合の方法を導入する.
今回はSVMの出力を統合するために,AdaBoostを用いる.通常のAdaBoostはブー
スティングラウンドごとに,SVMを再学習するので,計算コストが大きい,結果
が不安定などの欠点が存在する.本研究では,ブースティ
ングラウンドごとに再学習しないで,学習データの重みのみを更新するreweight
式のAdaBoost改良版を提案し,オリジナルのAdaBoostと両方実装した.
実験で使用する学習データは約33000枚であり、テストデータは35765枚である.
そして,平均適合率は,着目する枚数をNとし,1〜n位までの適合率をと
すると,
本研究では,結果を評価を行う際には, 「推定平均適合率(Inferred Average Precision : infAP)」を用いる.TRECVID2006のデータ量が膨大なので,評価する とき,ランダムサンプリングでテストデータの約半分しか評価を行わない.推定平 均適合率を使用すると,より正確に評価を行うことができる.
それぞれの統合方法のもっとも良かった結果は表1に示す. 表1の各行は20種類の対象に対して,AdaBoostの改良版, AdaBoostのオリジナルバージョン,AP weighted fusion,MKL SVMによる統 合結果およびTRECVID2008の参加チームの結果infAPの平均値,最高値を示している.一番下の行は各列の平均を示し ている.本実験の最高結果は,AP weighted fusionの結果のinfAP=0.0801となり, これは全世界39チームのうち第12位,日本の8チームのうち,第2位と相当する結 果である.
理論的に,オリジナルのAdaBoostはラウンドごとに再学習するので,結果が不
安定になる可能性が高い.これに対して,提案した簡単バージョンは全部の学
習データを使用するので,結果が安定である.しかし,本研究で実装したアル
ゴリズムには曖昧さがあるので,いずれも良い結果が得られなかった.また,
MKL SVMは最適問題を解くので,結果が最も良いと予想したが,実際にそうでは
ない.原因としては,MKL SVMの内部パラメータを最適に設定できなかったと
考えられる.
conceptfusion | smpAda | orgAda | APw | MKL | median | max | |
01.Classroom | 0.0038 | 0.0015 | 0.0218 | 0.0239 | 0.008 | 0.152 | |
02.Bridge | 0.0055 | 0.0123 | 0.0249 | 0.0175 | 0.004 | 0.117 | |
03.E_Vehicle | 0.0017 | 0.0001 | 0.0062 | 0.0015 | 0.003 | 0.065 | |
04.Dog | 0.0188 | 0.0145 | 0.1503 | 0.1192 | 0.067 | 0.271 | |
05.Kitchen | 0.0053 | 0.0161 | 0.0523 | 0.0389 | 0.010 | 0.165 | |
06.Airplane_fly | 0.0301 | 0.0161 | 0.0255 | 0.0181 | 0.029 | 0.278 | |
07.Two people | 0.0385 | 0.0201 | 0.0495 | 0.0007 | 0.050 | 0.174 | |
08.Bus | 0.0005 | 0.0007 | 0.0034 | 0.0032 | 0.004 | 0.119 | |
09.Driver | 0.0232 | 0.0268 | 0.0731 | 0.0682 | 0.046 | 0.324 | |
10.Cityscape | 0.0544 | 0.0803 | 0.1292 | 0.1138 | 0.059 | 0.258 | |
11.Harbor | 0.0085 | 0.0080 | 0.0110 | 0.0155 | 0.007 | 0.182 | |
12.Telephone | 0.0022 | 0.0023 | 0.0360 | 0.0168 | 0.011 | 0.136 | |
13.Street | 0.0760 | 0.0808 | 0.1746 | 0.0001 | 0.112 | 0.413 | |
14.Demonstr | 0.0126 | 0.0206 | 0.0502 | 0.0746 | 0.013 | 0.233 | |
15.Hand | 0.0665 | 0.0779 | 0.2035 | 0.0012 | 0.092 | 0.377 | |
16.Mountain | 0.0354 | 0.0401 | 0.0751 | 0.1154 | 0.042 | 0.246 | |
17.Nighttime | 0.1004 | 0.1358 | 0.1511 | 0.1571 | 0.105 | 0.323 | |
18.Boat_Ship | 0.1125 | 0.1017 | 0.1655 | 0.1330 | 0.093 | 0.394 | |
19.Flower | 0.0887 | 0.0912 | 0.1116 | 0.1154 | 0.058 | 0.161 | |
20.Singing | 0.0052 | 0.0168 | 0.0873 | 0.0211 | 0.013 | 0.258 | |
mean | 0.0345 | 0.0382 | 0.0801 | 0.0528 | 0.043 | 0.233 |