一般画像認識の手法を用いた巨大画像知識データベースの構築
一般物体認識[1]の研究とは,特定の制約のない実世界のシーンに
対して物体を計算
機に認識させる研究である.実世界のシーン画像は,同一対象の画像でも様々な
状態のものが存在する.しかし,現在の一般物体認識の研究では画像の種類が限ら
れている.そのため,それを改善するには多様で質の高い学習画像となり得る
一般画像データベースが必要である.
本研究の目的は,一般物体認識のための1000種類各1000枚以上の巨大画像知識デー
タベースを構築することである.そのために,現在当研究室では1000種類各1000枚以
上の画像データがあるが,その精度は程度である.また,その各コンセプト
において人手で50枚程度の正解画像データベースが用意されている.
本研究では,100種類のコンセプトに対して8通りの方法で各画像に対する正解確
率のランク付けを行い,その精度を評価し,利用価値の高いデータベースの構築
を目指す.
各コンセプト内の人手で判別された正解学習画像50枚と,他のコンセプトの正解
画像からランダムに取得した100枚を学習画像として使用する.
特徴量には,局所特徴のSIFT(Scale Inbariant Feature Transform)特徴
[2]を使用する.特徴量とし
て局所特徴を用いる場合,大量の特徴点を処理するため,bag-of-keypoints手法
[3]を用いて画像を一つの特徴ベクトルとして表現する.分類器には,
SVM(Support Vector Machine)[4]
とpLSA(Probabilistic Latent Semantic Analysis)[5]を用いて,正解学習画像との類似度
を計算する.
局所特徴パターンの出現頻度(ヒストグラム)によって,画像を表現する方法であ
る.各画像から多数の特徴点を抽出し,各点の局所画像パターンをSIFT法で128
次元特徴ベクトルにコード化する.ここで,k-means法によりcodebookを作
成し,代表的な特徴ベクトルを求める.各画像の特徴ベクトルを,作成した
codebookに基づいたコードパターンのヒストグラムを構成することで,画像を一
つの特徴ベクトルで表現する.
SIFT特徴とは,特徴点周りの局所画像パターンを128次元特徴ベク
トルで表現する手法である.この特徴量は,回転,スケール変化,照明変化に不
変な特徴量である.本研究では格子点特徴抽出とランダム点特徴抽出の2つの特
徴点抽出法を用いて,SIFT特徴を取り出す.
SVMは基本的に2つのクラスを識別する分類器を構成するための学習法であり,本
研究では
[6]を用いて,学習画像から抽出した
特徴量から学習モデルを生成し,その学習モデルを元に実験画像の特徴量との類
似度を算出する.
pLSAは統計テキスト文献処理から発生するモデルで,各画像を潜在トピックの混
成として表現する手法であり,潜在トピックを用いて,それぞれの画像における
各コンセプトへの帰属確率(類似度)を算出する.文書
に
おける単語
の発生
確率を,潜在トピック
を用いると以下の式で表される.
|
(1) |
本研究では,学習データからpLSAを用いて得られた
を用いて,
各トピックに帰属したものが正解画像である確率
を計算す
る.また,
hold-in heuristics[5]の手法を用いて実験画像の
を求める.これらの値を用いて,画像の正解
確率
を計算すると以下の式であらわされる.
|
(2) |
本研究では,潜在トピックの数を
の3通りの値を用いて実験を行う.
本研究では,画像データセットとして当研究室でWWWから自動収集した画像を使
用する.ここでは,実験に用いるデータセットの条件としてコンセプト内の収集
画像枚数が1000枚以上あり,評価済枚数が45枚以上ある100種類を対象としている.
この100種類のデータセットの適合率はである.
対象コンセプトを表1に,その中の20種類のコン
セプトについて
の評価済み正解画像の例を図1に示す.
表 1:
100種類の対象データ
No. |
単語
|
No. |
単語
|
No. |
単語
|
No. |
単語 |
1 |
湖 |
26 |
墓 |
51 |
大仏 |
76 |
入学式 |
2 |
ダム |
27 |
動物園 |
52 |
うなぎ |
77 |
七夕 |
3 |
谷 |
28 |
水族館 |
53 |
カニ |
78 |
海水浴 |
4 |
山 |
29 |
球場 |
54 |
みかん |
79 |
花火 |
5 |
丘 |
30 |
競馬場 |
55 |
柿 |
80 |
神輿 |
6 |
坂 |
31 |
鳥居 |
56 |
さぬきうどん |
81 |
音楽会 |
7 |
火口 |
32 |
屋台 |
57 |
ラーメン |
82 |
踊り |
8 |
森 |
33 |
犬 |
58 |
キャベツ |
83 |
剣道 |
9 |
島 |
34 |
キツネ |
59 |
ほうれん草 |
84 |
相撲 |
10 |
ビーチ |
35 |
象 |
60 |
トマト |
85 |
ラグビー |
11 |
漁港 |
36 |
パンダ |
61 |
椎茸 |
86 |
マラソン |
12 |
流氷 |
37 |
鳥 |
62 |
しゃぶしゃぶ |
87 |
デスク |
13 |
鍾乳洞 |
38 |
ネズミ |
63 |
ステーキ |
88 |
帯 |
14 |
牧場 |
39 |
クジラ |
64 |
焼酎 |
89 |
牛 |
15 |
倉庫 |
40 |
魚 |
65 |
紅茶 |
90 |
居酒屋 |
16 |
露天風呂 |
41 |
桜 |
66 |
ジュース |
91 |
ペン |
17 |
ホール |
42 |
紅葉 |
67 |
コーラ |
92 |
瓦 |
18 |
橋 |
43 |
銀杏 |
68 |
フェリー |
93 |
蘭 |
19 |
つり橋 |
44 |
松 |
69 |
ジェット機 |
94 |
馬 |
20 |
鉄道 |
45 |
マングローブ |
70 |
ピアノ |
95 |
靴 |
21 |
林道 |
46 |
紫陽花 |
71 |
太鼓 |
96 |
鮎 |
22 |
寺 |
47 |
サルビア |
72 |
ネックレス |
97 |
草花 |
23 |
神社 |
48 |
ミント |
73 |
雪 |
98 |
盆 |
24 |
城 |
49 |
サンゴ |
74 |
雲 |
99 |
切手 |
25 |
天守閣 |
50 |
屏風 |
75 |
夕景 |
100 |
田植え |
図 1:
20種類のコンセプトにおける正解画像の例
|
対象コンセプトの全画像からSIFT特徴を格子点,ランダム点からそれぞれ取り出
し,学習データのSIFT特徴をk-means法でクラスタリングしてcodebookを作成す
る.学習画像の局所特徴と
実験画像の局所特徴をcodebookに基づいた別々のヒストグラムとして
表現し,学習画像の特徴ベクトルを用いて学習し,実験画像の分類を行った.
本研究では,
画像の特徴点抽出方法を格子点,ランダム点の2通り,分類器
をSVMとpLSAの2種類,pLSAにおいての潜在トピック数を10,30,50の3通り,
計8通りの方法で分類を行った.
本研究では,評価方法に明確な規則がないため人手で評価を行う必要がある.ま
た,実験データが多いために全てのデータに対しての評価を行うことは困難
である.そのため,各コンセプトにおける実験データからランダムに200枚の画
像を取り出して評価を行い,その結果をコンセプト全体の評価として利用するラ
ンダムサンプリングの手法を用いた.
分類結果の評価に用いる基準として,適合率で分類システムの性能を評価する.
各コンセプトに含まれる正解画像の枚数は,ランダムサンプリングによって得ら
れた該当コンセプト全体の適合率を用いて求めた.
ここで,適合率は次式で定義される.
適合率 |
(3) |
評価は,類似度の上位1000位での適合率と,各コンセプトに含まれる正解画像枚
数での適合率
を求めた.また,コンセプト全体での11点平均適合率も求め評価を行った.11点
平均適合率は再現率レベル
における適合
率を
用いて以下のように計算することができる.
|
(4) |
ランダム点特徴抽出を行い,SVMを用いた場合の結果を示す.ここで,
図2は「犬」のコンセプトにおけるランク付けを行った上位100位
と下位100位に含まれ
る画像の例である.青色はGOOD画像,緑色はOK画像,赤色はNG画像,灰色は未評
価画像である.
表2に,類似度の上位1000位での適合率の平均,正解画像枚数
までの適
合率の平均,11点平均適合率の平均を示す.
以上の結果から,ランダム点特徴抽出を用いて,SVMで分類を行った場合の結果が
1000位までの適合率の平均,正解画像枚数までの適合率の平均,11点平均適合率
の平均における値で,最も良い結果となった.この結果を用いて上位1000位まで
の適合率から100種類のコンセプトに対して,1000枚のデータベースを構築すると
元の画像データセットの適合率から,ポイントの増加がみられた.
また,全コンセプトに対してSVMの方が良い結果となったわけではなく,
図3(a)に示すように,「墓」ではpLSAでの分類結果の方が良
い結果となる場合もあった.
図 2:
「犬」での分類結果の例(ランダム点SVM)
|
|
(a)ランキング上位 |
(b)ランキング下位 |
|
表 2:
各分類器における適合率の平均値
|
特徴点 |
1000位までの |
正解画像枚数までの |
11点平均適合率 |
分類手法 |
抽出手法 |
適合率の平均(%) |
適合率の平均(%) |
の平均(%) |
SVM |
格子点 |
47.046 |
54.356 |
57.989 |
SVM |
ランダム |
47.511 |
55.104 |
58.748 |
pLSA(10) |
格子点 |
45.706 |
51.515 |
55.260 |
pLSA(30) |
格子点 |
46.377 |
52.897 |
56.814 |
pLSA(50) |
格子点 |
46.430 |
52.684 |
57.066 |
pLSA(10) |
ランダム |
43.636 |
47.679 |
51.597 |
pLSA(30) |
ランダム |
45.156 |
51.395 |
54.534 |
pLSA(50) |
ランダム |
46.137 |
51.863 |
56.058 |
図 3:
SVMとpLSAの適合率の比較
|
|
(a)「墓」の場合 |
(b)「トマト」の場合 |
|
pLSAでの分類において,潜在トピック数は事前に決める必要がある.そのため,
本研究では潜在トピック数をの3通りで分類を行った.その結果,
表2からわかるように,潜在トピック数が大きい方が結果が
良い.しかし,潜在トピック数が大きくなればなるほど,分類と関係のない
トピックまでも認識対象としてしまい,精度の低下につながる恐れがあるため,
それぞれのコンセプトにおける最適な潜在トピック数を求める必要があると
考えられる.
また,SVMとpLSAの分類精度を比較した結果,pLSAよりもSVMの方が分類精度の高い
場合が多く,SVMが画像分類において有効な手段であることが
表2から見て取れる.
ただし,これは1/0分類の結果であり,マルチクラス分類ではない.一般物体
認識において,あるコンセプトでは,そのコンセプト内に複数の分類可能なカ
テゴリを含むものが存在する.そのため,コンセプトを1つのカテゴリではなく
複数のカテゴリに分類する方が一般画像知識データベースには有益であるため,
マルチクラス分類においてもその精度を比較する必要がある.
収集枚数の少ないコンセプトに関して,さらに画像収集を行い現データ
セットを拡張していく必要がある.また,各コンセプトにおける評価済
み画像についても,現データセットでは似通ったものばかりで正解画像データを構成
しているものがあった.そのため,評価済み画像の再構築を行い,多様性のある正解
画像データにしていかなければいけない.
また,マルチクラス分類を行うことで,コンセプトの多様性についても今後対応し
ていくことが重要であると考えられる.そのため,
今回結果の良かったSVMだけを用いるのでは,マルチクラス分類に適した分類手法と
は言えない.そのため,マルチクラス分類において再びSVMとpLSAの分類精度の比較
を行い,効率の良い分類システムを検証していく必要がある.
他にも,本研究で構築した画像データベースにはノイズとなる不正解画像が入って
いるため,ノイズ画像の除去方法についても今後確立していく必要がある.
- 1
-
柳井啓司.
一般物体認識の現状と今後.
情報処理学会論文誌: コンピュータビジョン・イメージメディア, Vol. 48,
No. SIG16 (CVIM19), pp. 1-24, 2007.
- 2
-
D. G. Lowe.
Distinctive Image Features from Scale-Invariant Keypoints.
International Journal of Computer Vision, Vol. 60, No. 2, pp.
91-110, 2004.
- 3
-
G. Csurka, C. Bray, C. Dance, and L. Fan.
Visual categorization with bags of keypoints.
In Proc. of ECCV Workshop on Statistical Learning in Computer
Vision, pp. 1-22, 2004.
- 4
-
N. Cristianini and J. Shawe-Taylor.
サポートベクターマシン入門.
共立出版, 2005.
- 5
-
T. Hofmann.
Unsupervised Learning by Probabilistic Latent Semantic Analysis.
Machine Learning, Vol. 43, pp. 177-196, 2001.
- 6
-
Thorsten Joachims.
.
http://www.cs.cornell.edu/People/tj/svm_light/index.html.