画像中の衣類領域からの色情報抽出

相田優

2012年 2月 10日

1 背景

近年、写真共有サイトの登場によってWeb上の写真は増大しており、それらの画像データの入手も容易に行えるようになっている。そうした画像には人物写真も多く、それによって衣類の情報を含むデータを大量に集めることが可能である。また、データマイニングによる大量データ解析がマーケティングの分野で重要視されており、画像の視覚情報を利用したマイニング手法の有用性は高まっている。衣類の視覚情報を抽出することが可能となれば、データマイニング手法によってファッションの流行や地域性等に関する分析を行うことが可能となる。そのため、大量のデータを処理するためにも、画像中に含まれる衣類の視覚情報の抽出は重要な事項となっている。

2 目的

本研究の目的は、画像中に含まれる衣類領域から、既存のデータマイニング手法で有効となるような視覚情報を抽出することである。視覚情報の中でも特に色に着目し、画像中の衣類の色を12色に分類する手法について研究を行った。提案手法では、入力として画像を与えると、その画像に含まれる衣類の色名を出力する。画像中の衣類の領域を推定し、色分類を行うことで衣類の色名がラベルとして出力されるが、最終的なラベルの決定は衣類領域の面積ベースによる決定手法となる。

3 関連研究

動画中の人物が着ているシャツの色分類を行ったものとしてWuiらの研究やVaqueroらの研究が挙げられる[#!wui06!#][#!vaq09!#]。これらの研究の目的は、防犯・監視システムでの応用や、個人検索を行うという点にあり、そのためにシャツの色分類を行っている。本研究で用いるデータは動画ではなく静止画となる。また、シャツだけでなく、ズボン、ブーツ、バッグといった、人物が着用している物体全てが色分類の対象となる。

色分類を行った研究としてWeijerらの研究が挙げられる[#!colorNames!#]。 eBayデータセットを使用し、PLSAやSVMといった手法に関して色分類の精度比較を行っており、いずれも高い分類精度を示した。 Weijerらの実験では色分類を行う際、物体に対するマスクが与えられるが、本研究ではマスクは与えられず、衣類領域を推定することで色分類を行う。 eBayデータセットと比べて、本研究で使用するデータセットは、テクスチャの複雑性や、中間色の存在といった問題を含んでおり、色分類問題をより難しいものとしている。また、Weijerらはピクセル単位での色分類精度も示しており、その結果から周囲画素の情報を利用した方が精度がよいことが分かっている。本手法においてもこの性質を利用し、色分類を行う際は小領域単位での情報を用いる。

4 提案手法

4.1 概要

次の手順に従い、画像中に含まれる衣類の色分類を行う。

画像を入力する
前処理として画像の色補正やクリッピングを行う
顔検出を行い、人物が写っている範囲を推定する
領域分割を行い、人物と背景の分離を行う
領域を細分化し、衣類領域のスーパーピクセルを得る
各小領域毎に画像特徴を抽出し、ラベルをつける
同じラベルを持つスーパーピクセル同士を結合する
大きな領域をとなったラベルを選出し、それを出力する

手順3〜5の処理の概要を図1に示す。

**図 1:** 顔検出〜領域細分化の処理の流れ
$\includegraphics[width=\hsize]{img/seg.eps}$

4.1.0.1 前処理

画像中の衣類は光や影の影響を受けているものも多く、それらの色補正が必要であればこのステップで行う。また、クリッピング等の前処理が必要な場合もこのとき行う。

4.1.0.2 顔検出

本研究で扱う衣類の画像は着用されているものとし、衣類領域の推定は顔検出から始まる。ここでは、Haar-like特徴を用いたブースティングによる分類器を利用し、顔検出を行っている。また、後述する領域分割手法では、物体と背景との大まかな境界を与える必要がある。そのため、顔検出から得られる顔の領域範囲をもとにし、衣類領域を大まかに決定する。

4.1.0.3 人物・背景の分離

ここでは領域分割手法としてGrabCutを用いる[#!GrabCut!#]。 GrabCutは2つのエネルギー関数を最小化することで、物体と背景に画像を分割する。エネルギー関数は、隣接画素の差分値と、画素が物体・背景に属する確率モデルを使って定義される。背景に属する画素集合を指定し、それらの値をガウス混合分布によって表現することで確率モデルが決定される。前述した顔検出ステップで大まかな領域を決定する必要があるのは、このためである。

4.1.0.4 領域細分化

衣類単位での処理を行うため、領域を細分化する。細分化された画像領域はスーパーピクセルと呼ばれる。スーパーピクセルの作成にはFelzenszwalbらが提案したグラフベースの領域分割手法を用いる[#!graphSeg!#]。画素をノードとみなした最小全域木を構成していく過程で、適時、木の分断を行うことで領域分割を達成する手法となる。

4.1.0.5 小領域単位でのラベル付け

各スーパーピクセルから画像特徴を抽出し、色分類を行うことで、ラベル付けを行う。ここで、ラベルは代表的な12色の色名を表すものとする。これによって、各スーパーピクセルが12色の内のいずれかの色名を持つことになる。

4.1.0.6 小領域の統合

ここでは同じラベルを持つスーパーピクセル同士を結合していく。この処理により、複数個あったスーパーピクセルが、最大でも12個までにまとめられる。 12個の領域はそれぞれ、12色の内のいずれかの色が占める領域を表すことになる。領域統合の結果、図2のようなマスクが得られる。

図 2: 統合後のスーパーピクセル

$\includegraphics[width=\hsize]{img/joinResult/blue.eps}$ blue

$\includegraphics[width=\hsize]{img/joinResult/white.eps}$ white

$\includegraphics[width=\hsize]{img/joinResult/gray.eps}$ gray

$\includegraphics[width=\hsize]{img/joinResult/brown.eps}$ brown

4.1.0.7 ラベルの出力

最終的なラベルは面積ベースの決定法によって求められる。大きな領域となっているものだけを選び、そのラベルを出力する。 12個の領域の総和を定数倍(0:1]し、それを閾値としてラベルの選択を行った。これにより、図2の例からは、gray、 brownのようなラベルが破棄され、blue、whiteのラベルのみが選ばれることが期待できる。

4.2 色分類

色分類は機械学習法により行う。各小領域毎に画像特徴を抽出し、それらを表1で示す12色のいずれかに分類する。

**表 1:** 分類する12色一覧
yellow	orange	green	gray	purple	pink
brown	black	blue	beige	white	red

画像特徴として、各色空間におけるカラーヒストグラムとBag-of-Color(BoC)ヒストグラムを抽出し、精度比較を行った。通常のカラーヒストグラムでは色空間が等間隔に区切られ投票が行われることになるが、 BoCでは、色の分布を表現するための重要度に応じて色空間が分割されることになる。また、分類器として、K-Nearest-Neighbor(KNN)とSupport Vector Machine(SVM)を用い、精度比較を行った。 KNNはシンプルなアルゴリズムであるが、データ構造を工夫することで高速な検索が可能であり、大規模データでの利用に期待が集まっている。 SVMは色分類に関する既存研究でも用いられた手法であり、それらで高精度の分類結果が示されているように、優れた分類器の一つである。

5 実験

5.1 データセット

本研究では、ファッションサイト¹から収集した9592枚の人物画像を対象とし、実験を行った。収集した画像に対し、提案手法の手順で人物・背景の分離までの処理を行った。背景の除去が大方成功しているものから118人の画像を選出し、ラベルとマスクの組を正解データとして与えた。マスクは、衣類や目立つオブジェクト毎のマスクであり、277件のマスクを与えた。選出された画像は、複雑なテクスチャや、中間色となるようなものが多く含まれており、既存の色分類のデータセットと比べ難しいデータセットとなっている。

5.2 マスクが与えられたときの色分類精度

作成したデータセットを用いて、マスクが与えられたときの色分類精度を求めた。マスクで指定された領域から画像特徴を抽出し、12色の学習・分類を行い、 5-foldのクロスバリデーションにより12色の分類率を求めた。これは、衣類領域が確実に分かっているという条件において、どの程度の色分類が可能であるかを確かめるための実験となる。それぞれ、ヒストグラムは1000次元となり、色空間を変えて実験を行った。結果を図3に示す。

カラーヒストグラムとSVMにおいて、RGB色空間での結果が最もよく、そのときの分類率は65.7%となった。 BoCとSVMによる分類においてもRGB色空間が最もよく、そのときの分類率はが63.5%となった。 KNNを用いた分類では、Kの値を変化させ実験を行い、最もよい値を使用した。そのときのKの値はK=9となり、分類率は61.7%となった。 WeijerらによるeBayデータセットを用いた実験では、LabカラーヒストグラムとSVMによる精度を出しているが、そのときの精度は96%となっている。本研究においても同様の手法を試しているが、その精度は57.0%である。この原因は、使用したデータセットの複雑性に関する影響が大きい。本研究で用いたデータセットは複雑なテクスチャや、中間色が多く存在するため、色分類をより難しい問題としている。

**図 3:** マスクが与えられたとき
$\includegraphics[width=\hsize]{img/mask_result.eps}$

**図 4:** 提案手法recall

**図 5:** 提案手法precision

5.3 提案手法の色分類精度

本研究の提案手法は、マスクを与える必要のないアルゴリズムとなっている。ラベルは、スーパーピクセル毎に色名を求め、それらの領域を統合し、領域の大きさをもとに決定される。 12個の領域の総和に定数倍(0:1]をかけたものを閾値として用い、それ以下のものを破棄することでラベルの採択が行われる。そのときの定数倍の値をrateとし、rateの値を変え、再現率(recall)と適合率(precision)を求めた。 recallとprecision は次のようにして求める。

$\begin{displaymath} recall = \frac{正しく分類されたものの総数}{検出されるべきラベルの総数} \\ \end{displaymath}$

(1)

$\begin{displaymath} precision = \frac{正しく分類されたものの総数}{検出されたラベルの総数} \end{displaymath}$

(2)

スーパーピクセル毎での色分類では、カラーヒストグラムとSVMによる手法を用いた。このときの学習データは衣類領域単位での画像特徴となり、テストデータはスーパーピクセル単位での画像特徴となる。 5-foldのクロスバリデーションによってラベル付けを行い、領域を統合した後、面積ベースの選択によってラベルが出力される。 rateの値を変えて実験を行い、そのときの結果を図4、5に示す。 rateが0のときは検出した色すべてを採用したときと同等であり、rateが1のときは、統合されたスーパーピクセルが唯一の色に絞られるときとなる。

F値が最高となったのはRGBにおいてrate=0.13としたときであり、そのときの再現率は61.0%であり、適合率は56.7%となった。このときのラベルの検出数は298件であり、その内正解となったものは169件となる。それに対し、マスクを与えたときの実験での分類率の最高値は65.7%であった。これらの精度をみると、マスクなしという厳しい条件においても、色名によるラベル付けの性能低下が少ないことが分かる。マスクを与えたときの分類率の最高値が65.7%である以上、本手法における色分類精度の限界はその付近となってしまうことが予想される。しかし、その性能は、色分類の性能にほぼ依存することとなるため、マスクを与えたときの分類率を高めることができれば、本手法におけるラベル付けの性能も高まることが大いに期待できる。

6 おわりに

本研究では、画像中の衣類領域からの色情報抽出手法の提案を行った。提案した手法では衣類領域の指定を行う必要がなく、顔検出と領域分割によって衣類領域の推定が行われる。画像中に存在する複数の衣類・オブジェクトに対応することができ、それらの色の最終的な判定は面積ベースの決定法で行われる。人間の視覚においても、着用している衣類の色を判断する際、それらの全体に占める割合での大きさは重要な判断材料となっている。そのため、最終的なラベルの決定を行う際に面積ベースで選択を行うのは、人間の視覚に近い判定法だと言える。

本手法では画像からスーパーピクセルを得て、それらに対しラベルを付けるが、領域細分化を行った段階で、小さすぎる領域の削除を行うといった改良案がある。影の領域や、衣類と衣類の境目は非常に小さなスーパーピクセルとなる傾向がある。そうしたスーパーピクセルは、衣類の色の判定においてノイズとなる可能性が高く、これらを削除することで精度向上が見込める。また、色分類は機械学習法による分類となるが、そこで学習として使うデータの質や量を増やすような改良を行うことでも精度向上が見込める。

section*参考文献参考文献参考文献 1-0.8mm 0.1pt enumiv 4000 4000 `.

G. Wui, A. Rahimi, K. Goh, T. Tsai, A. Jain, Y. Wu, E. Y. Chang, and Y. F. Wang.
Identifying color in motion in video sensors.
In Proc. of IEEE Computer Vision and Pattern Recognition, pp. 561-569, 2006.

D. A. Vaquero, R. S. Feris, D. Tran, L. Brown, A. Hampapur, and M. Turk.
Attribute-based people search in surveillance environments.
In Proc. of Workshop on Applications of Computer Vision, pp. 1-8, 2009.

J. Van De Weijer, C. Schmid, and J. Verbeek.
Learning color names from real-world images.
In Proc. of IEEE Computer Vision and Pattern Recognition, pp. 1-8, 2007.

C. Rother, V. Kolmogorov, and A. Blake.
Grabcut: Interactive foreground extraction using iterated graph cuts.
In Proc. of ACM SIGGRAPH, pp. 309-314, 2004.

P. F. Felzenszwalb and D. P. Huttenlocher.
Efficient graph-based image segmentation.
International Journal of Computer Vision, 2004. Empty `thebibliography' environment

脚注

... 本研究では、ファッションサイト¹: http://eruca.jp/

YANAI Lab.