一般画像認識の手法を用いた巨大画像知識データベースの構築

1 背景

一般物体認識[1]の研究とは，特定の制約のない実世界のシーンに対して物体を計算機に認識させる研究である．実世界のシーン画像は，同一対象の画像でも様々な状態のものが存在する．しかし，現在の一般物体認識の研究では画像の種類が限られている．そのため，それを改善するには多様で質の高い学習画像となり得る一般画像データベースが必要である．

2 研究目的

本研究の目的は，一般物体認識のための1000種類各1000枚以上の巨大画像知識データベースを構築することである．そのために，現在当研究室では1000種類各1000枚以上の画像データがあるが，その精度は $40\%$ 程度である．また，その各コンセプトにおいて人手で50枚程度の正解画像データベースが用意されている．
本研究では，100種類のコンセプトに対して8通りの方法で各画像に対する正解確率のランク付けを行い，その精度を評価し，利用価値の高いデータベースの構築を目指す．

3 画像認識の方法

各コンセプト内の人手で判別された正解学習画像50枚と，他のコンセプトの正解画像からランダムに取得した100枚を学習画像として使用する．
特徴量には，局所特徴のSIFT(Scale Inbariant Feature Transform)特徴 [2]を使用する．特徴量として局所特徴を用いる場合，大量の特徴点を処理するため，bag-of-keypoints手法 [3]を用いて画像を一つの特徴ベクトルとして表現する．分類器には， SVM(Support Vector Machine)[4] とpLSA(Probabilistic Latent Semantic Analysis)[5]を用いて，正解学習画像との類似度を計算する．

3.1 Bag-of-keypoints手法

局所特徴パターンの出現頻度(ヒストグラム)によって，画像を表現する方法である．各画像から多数の特徴点を抽出し，各点の局所画像パターンをSIFT法で128 次元特徴ベクトルにコード化する．ここで，k-means法によりcodebookを作成し，代表的な特徴ベクトルを求める．各画像の特徴ベクトルを，作成した codebookに基づいたコードパターンのヒストグラムを構成することで，画像を一つの特徴ベクトルで表現する．

3.1.0.1 SIFT特徴

SIFT特徴とは，特徴点周りの局所画像パターンを128次元特徴ベクトルで表現する手法である．この特徴量は，回転，スケール変化，照明変化に不変な特徴量である．本研究では格子点特徴抽出とランダム点特徴抽出の2つの特徴点抽出法を用いて，SIFT特徴を取り出す．

3.2 分類方法

3.2.0.1 SVM

SVMは基本的に2つのクラスを識別する分類器を構成するための学習法であり，本研究では ${\rm SVM}^{light}$ [6]を用いて，学習画像から抽出した特徴量から学習モデルを生成し，その学習モデルを元に実験画像の特徴量との類似度を算出する．

3.2.0.2 pLSA

pLSAは統計テキスト文献処理から発生するモデルで，各画像を潜在トピックの混成として表現する手法であり，潜在トピックを用いて，それぞれの画像における各コンセプトへの帰属確率(類似度)を算出する．文書 $d_{i}(i=1,2,\ldots,I)$ における単語 $w_{j}(j=1,2,\ldots,J)$ の発生確率を，潜在トピック $z_{k}(k=1,2,\ldots,K)$ を用いると以下の式で表される．

$\displaystyle P(w_{j}\vert d_{i})=\sum_{k=1}^{K}P(w_{j}\vert z_{k})P(z_{k}\vert d_{i})$

(1)

本研究では，学習データからpLSAを用いて得られた $P_{train}(d\vert z_{k})$ を用いて，各トピック $z_{k}$ に帰属したものが正解画像である確率 $P(OK\vert z_{k})$ を計算する．また， hold-in heuristics[5]の手法を用いて実験画像の $P_{test}(z_{k}\vert d_{i})$ を求める．これらの値を用いて，画像 $d_{i}$ の正解確率 $P_{test}(OK\vert d_{i})$ を計算すると以下の式であらわされる．

$\displaystyle P_{test}(OK\vert d_{i})=\sum_{k=1}^{K}P(OK\vert z_{k})P_{test}(z_{k}\vert d_{i})$

(2)

本研究では，潜在トピックの数をの3通りの値を用いて実験を行う．

4 実験

4.1 データセット

本研究では，画像データセットとして当研究室でWWWから自動収集した画像を使用する．ここでは，実験に用いるデータセットの条件としてコンセプト内の収集画像枚数が1000枚以上あり，評価済枚数が45枚以上ある100種類を対象としている．この100種類のデータセットの適合率は $44.0\%$ である．対象コンセプトを表1に，その中の20種類のコンセプトについての評価済み正解画像の例を図1に示す．

**表 1:** 100種類の対象データ
No.	単語	No.	単語	No.	単語	No.	単語
1	湖	26	墓	51	大仏	76	入学式
2	ダム	27	動物園	52	うなぎ	77	七夕
3	谷	28	水族館	53	カニ	78	海水浴
4	山	29	球場	54	みかん	79	花火
5	丘	30	競馬場	55	柿	80	神輿
6	坂	31	鳥居	56	さぬきうどん	81	音楽会
7	火口	32	屋台	57	ラーメン	82	踊り
8	森	33	犬	58	キャベツ	83	剣道
9	島	34	キツネ	59	ほうれん草	84	相撲
10	ビーチ	35	象	60	トマト	85	ラグビー
11	漁港	36	パンダ	61	椎茸	86	マラソン
12	流氷	37	鳥	62	しゃぶしゃぶ	87	デスク
13	鍾乳洞	38	ネズミ	63	ステーキ	88	帯
14	牧場	39	クジラ	64	焼酎	89	牛
15	倉庫	40	魚	65	紅茶	90	居酒屋
16	露天風呂	41	桜	66	ジュース	91	ペン
17	ホール	42	紅葉	67	コーラ	92	瓦
18	橋	43	銀杏	68	フェリー	93	蘭
19	つり橋	44	松	69	ジェット機	94	馬
20	鉄道	45	マングローブ	70	ピアノ	95	靴
21	林道	46	紫陽花	71	太鼓	96	鮎
22	寺	47	サルビア	72	ネックレス	97	草花
23	神社	48	ミント	73	雪	98	盆
24	城	49	サンゴ	74	雲	99	切手
25	天守閣	50	屏風	75	夕景	100	田植え

**図 1:** 20種類のコンセプトにおける正解画像の例
$\includegraphics[width=0.96\hsize]{eps/good-sample3.eps}$

4.2 実験手順

対象コンセプトの全画像からSIFT特徴を格子点，ランダム点からそれぞれ取り出し，学習データのSIFT特徴をk-means法でクラスタリングしてcodebookを作成する．学習画像の局所特徴と実験画像の局所特徴をcodebookに基づいた別々のヒストグラムとして表現し，学習画像の特徴ベクトルを用いて学習し，実験画像の分類を行った．
本研究では，画像の特徴点抽出方法を格子点，ランダム点の2通り，分類器をSVMとpLSAの2種類，pLSAにおいての潜在トピック数を10,30,50の3通り，計8通りの方法で分類を行った．

4.3 評価方法

本研究では，評価方法に明確な規則がないため人手で評価を行う必要がある．また，実験データが多いために全てのデータに対しての評価を行うことは困難である．そのため，各コンセプトにおける実験データからランダムに200枚の画像を取り出して評価を行い，その結果をコンセプト全体の評価として利用するランダムサンプリングの手法を用いた．
分類結果の評価に用いる基準として，適合率で分類システムの性能を評価する．各コンセプトに含まれる正解画像の枚数は，ランダムサンプリングによって得られた該当コンセプト全体の適合率を用いて求めた．
ここで，適合率は次式で定義される．

$\displaystyle {\rm Precision}($ 適合率 $\displaystyle )= \tfrac{{\rm True\ Positive}}{{\rm True\ Positive}+{\rm False\ Positive}}$

(3)

評価は，類似度の上位1000位での適合率と，各コンセプトに含まれる正解画像枚数での適合率を求めた．また，コンセプト全体での11点平均適合率も求め評価を行った．11点平均適合率 $\tilde{P}$ は再現率レベル $x(x=0.0,0.1,\ldots,1.0)$ における適合率

を用いて以下のように計算することができる．

$\displaystyle \tilde{P}=\frac{1}{11}\sum _{i=0}^{10}P(\frac{i}{10})$

(4)

4.4 実験結果

ランダム点特徴抽出を行い，SVMを用いた場合の結果を示す．ここで，図2は「犬」のコンセプトにおけるランク付けを行った上位100位と下位100位に含まれる画像の例である．青色はGOOD画像，緑色はOK画像，赤色はNG画像，灰色は未評価画像である．
表2に，類似度の上位1000位での適合率の平均，正解画像枚数までの適合率の平均，11点平均適合率の平均を示す．
以上の結果から，ランダム点特徴抽出を用いて，SVMで分類を行った場合の結果が 1000位までの適合率の平均，正解画像枚数までの適合率の平均，11点平均適合率の平均における値で，最も良い結果となった．この結果を用いて上位1000位までの適合率から100種類のコンセプトに対して，1000枚のデータベースを構築すると元の画像データセットの適合率 $44.0\%$ から，

ポイントの増加がみられた．
また，全コンセプトに対してSVMの方が良い結果となったわけではなく，図3(a)に示すように，「墓」ではpLSAでの分類結果の方が良い結果となる場合もあった．

図 2: 「犬」での分類結果の例(ランダム点SVM)

$\includegraphics[width=0.6\hsize]{eps/pos100-2.eps}$	$\includegraphics[width=0.4\hsize]{eps/neg100-2.eps}$
(a)ランキング上位	(b)ランキング下位

**表 2:** 各分類器における適合率の平均値
	特徴点	1000位までの	正解画像枚数までの	11点平均適合率
分類手法	抽出手法	適合率の平均(%)	適合率の平均(%)	の平均(%)
SVM	格子点	47.046	54.356	57.989
SVM	ランダム	47.511	55.104	58.748
pLSA(10)	格子点	45.706	51.515	55.260
pLSA(30)	格子点	46.377	52.897	56.814
pLSA(50)	格子点	46.430	52.684	57.066
pLSA(10)	ランダム	43.636	47.679	51.597
pLSA(30)	ランダム	45.156	51.395	54.534
pLSA(50)	ランダム	46.137	51.863	56.058

図 3: SVMとpLSAの適合率の比較

$\includegraphics[width=0.5\hsize]{eps/haka-result.eps}$	$\includegraphics[width=0.5\hsize]{eps/tomato-result.eps}$
(a)「墓」の場合	(b)「トマト」の場合

5 考察

pLSAでの分類において，潜在トピック数は事前に決める必要がある．そのため，本研究では潜在トピック数を

の3通りで分類を行った．その結果，表2からわかるように，潜在トピック数が大きい方が結果が良い．しかし，潜在トピック数が大きくなればなるほど，分類と関係のないトピックまでも認識対象としてしまい，精度の低下につながる恐れがあるため，それぞれのコンセプトにおける最適な潜在トピック数を求める必要があると考えられる．
また，SVMとpLSAの分類精度を比較した結果，pLSAよりもSVMの方が分類精度の高い場合が多く，SVMが画像分類において有効な手段であることが表2から見て取れる．ただし，これは1/0分類の結果であり，マルチクラス分類ではない．一般物体認識において，あるコンセプトでは，そのコンセプト内に複数の分類可能なカテゴリを含むものが存在する．そのため，コンセプトを1つのカテゴリではなく複数のカテゴリに分類する方が一般画像知識データベースには有益であるため，マルチクラス分類においてもその精度を比較する必要がある．

6 今後の課題

収集枚数の少ないコンセプトに関して，さらに画像収集を行い現データセットを拡張していく必要がある．また，各コンセプトにおける評価済み画像についても，現データセットでは似通ったものばかりで正解画像データを構成しているものがあった．そのため，評価済み画像の再構築を行い，多様性のある正解画像データにしていかなければいけない．
また，マルチクラス分類を行うことで，コンセプトの多様性についても今後対応していくことが重要であると考えられる．そのため，今回結果の良かったSVMだけを用いるのでは，マルチクラス分類に適した分類手法とは言えない．そのため，マルチクラス分類において再びSVMとpLSAの分類精度の比較を行い，効率の良い分類システムを検証していく必要がある．
他にも，本研究で構築した画像データベースにはノイズとなる不正解画像が入っているため，ノイズ画像の除去方法についても今後確立していく必要がある．

文献目録

1: 柳井啓司.
一般物体認識の現状と今後.
情報処理学会論文誌: コンピュータビジョン・イメージメディア, Vol. 48, No. SIG16 (CVIM19), pp. 1-24, 2007.
2: D. G. Lowe.
Distinctive Image Features from Scale-Invariant Keypoints.
International Journal of Computer Vision, Vol. 60, No. 2, pp. 91-110, 2004.
3: G. Csurka, C. Bray, C. Dance, and L. Fan.
Visual categorization with bags of keypoints.
In Proc. of ECCV Workshop on Statistical Learning in Computer Vision, pp. 1-22, 2004.
4: N. Cristianini and J. Shawe-Taylor.
サポートベクターマシン入門.
共立出版, 2005.
5: T. Hofmann.
Unsupervised Learning by Probabilistic Latent Semantic Analysis.
Machine Learning, Vol. 43, pp. 177-196, 2001.
6: Thorsten Joachims.
${\rm svm}^{light}$ .
http://www.cs.cornell.edu/People/tj/svm_light/index.html.