saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究紹介  

Web上の大量画像を用いた名詞と形容詞の関係分析

小原 侑也

2012年 2月 8日




1 はじめに

写真投稿サイトには、投稿者が画像に関連したタグを付加する機能を提供しているものもあり、タグ 情報が付与された画像もWeb上には多数存在している。これらのタグ情報は、画 像検索や画像収集の際に利用される事もある。

しかしながら、タグを付ける際には1語単位で付与する場合がほとんどであり、 タグ同士の関連性が考慮されることは少ない。そのため、赤い車の画像を検索す る際に、redとcarでタグによるAND検索を行っても、赤い車の画像以外の画像も 検索結果として表示されるといった事も多々生じる。 そこで、検索結果を向上させるためには、タグ間の視覚的関連性に着目する必要がある。

2 目的

本論文では、修飾・被修飾関係にある名詞と形容詞間の視覚的関連性に着目する 。

2組の単語の組み合わせにおいて、画像の分布がより狭くなるような組み合わせ は、分布に変化が見られない組み合わせより、視覚的な関連性が高いであろうと考えられる。 よって、視覚的関連性の高低をエントロピーに基づいて数値化し、比較および考察 を行うことが、本論文の目標である。

3 関連研究

柳井らの研究[1]では、単語概念における視覚性を定量化する方法としてエントロピー を提案し、150個の形容詞に着目して視覚的関連性について言及している。 本論文内で使用するエントロピーによる単語の視覚性を数値化する方法、また、 エントロピーの計算方法は、柳井らの研究によって提案された手法を用いる。

4 実験

本実験では、名詞と形容詞の視覚的関連性を、エントロピーの計算を行うことか ら求める。以下に本実験の実行手順を示す。
  1. Flickrからタグ検索による画像収集

  2. JSEGによる画像の領域分割

  3. 部分領域ごとにColor-SIFT特徴量抽出およびBoFの作成

  4. SVMによる正領域判定

  5. 正領域ごとに特徴量分布をpLSAで計算

  6. エントロピーの計算
まず、名詞と形容詞を組み合わせたものを1つのクラスとし、各クラスに属する 画像を、Flickrからタグ検索によって収集する。

次に、画像内のノイズ除去を行う。まず画像の領域分割を行い、特徴量を用い たBoF表現によって領域を特徴ベクトルで表し、定量化する。そして、そのベクトルを 用いて、よりそのクラスらしさを持つ正領域となる部分領域を求める。

その後、正領域の特徴ベクトルからpLSAを用いて、領域内の特徴量の出現頻度を 基にクラスタリングを行う。そしてpLSAの計算によって求まる、画像内における隠れ トピックの同時確率からエントロピーを計算する。

5 SVM

正領域判定はSVMを用いて行う。最初に、ポジティブ画像の全領域をポジティ ブ領域、ネガティブ画像の全領域をネガティブ領域として分類器の学習を行う。 次にポジティブ領域の評価を行い、評価の高い領域を次のポジティブ領域と して、残りはネガティブ領域に変更し、次の学習を行う。これを5回繰り返して 最終的に残った200領域を正領域とした。

6 エントロピー

エントロピーとは、特定クラスの画像分布を視覚性に基づいて数値化する手法に よって求められる値である。エントロピーは画像分布が広くなると増大し、狭 くなると減少する。 以下に、エントロピーの計算に必要な、画像内における隠れトピックの同時確率を 求めるpLSAと、エントロピーの計算方法について記載する。

1 pLSA

pLSAはT. Hofmannによって提案された、テキストコーパス内のトピック検出を行 う、統計的言語処理のためのモデルである[2]。

pLSAの計算では、 が画像、 が特徴量、 が隠れトピックを表す。隠れト ピックとは、文書内における単語の生成に関するトピック変数である。 これにより、特徴量と隠れトピックの同時確率は次の式で表すことができる。

   

また、画像内での特徴量の出現回数を と表すと、データの対数尤度は次のように表すことができる。
   

この対数尤度を最大にするような をEMアルゴリズムを用いた最尤推定によって求める。

2 エントロピーの計算方法

pLSAを用いて求めた を用いて計算を行う。各隠れトピック に対して、
   

を求める。次に、先ほど求めた を用いて、各画像 に 対して、
   

を求める。以上から求まるがエントロピーである。

7 実験結果

本実験では、名詞20単語、形容詞15単語について、各名詞と各形容詞の組み合わ せである300クラスと、名詞のみの20クラスの合計320クラスについてエントロピー を計算した。そして、エントロピーの高低、また、名詞のみのクラスと形容詞を付与したク ラスを比較した際のエントロピーの増減から、名詞と形容詞の視覚的関連性を求 めた。スペースの都合上、全てのクラスの結果を提示することができないため、 図1から図4に実験結果の一 部を示す。図1から図4において、上段は正領域の例であり、下段はエントロピー の計算結果のグラフである。

8 考察

色に関する形容詞では、sky&redクラスのように、物体自体が形容詞の示す色に 変化するクラスでエントロピーの減少が多く見られた(図1参照)。 一方、catやpeopleに色を示す形容詞が付加されても、色が変化するのは服や背景であ り、物体自体の領域では色変化があまり無い。 そのためcarやflowerのように、カラーバリエーションの多い名詞のクラスではエント ロピーが減少しやすいため、視覚的関連性が高いと考えられる。 しかし、bridge&blueクラスでは青い橋の画像は少ないにも関わらず、エント ロピーが減少している。この理由として、橋は水辺に多く存在しており、 正領域内に青色が多く含まれていることが考えられる。 またwhiteやblackの付くクラスでは、白黒画像が多く含まれることにより、正 領域判定で正しく色情報が使用されなかったのではないかと思われる。そのた め、snow&whiteクラスでエントロピーが減少しない、sea&blackクラスでエン トロピーが減少するという結果になったと考えられる。
Figure 1: 実験結果(sky&red)

時間帯を示す形容詞では、sky、sun、cloudといった空に関係した名詞と組み 合わせたクラスで、エントロピーの減少が多く見られた。 これは、morningの付くクラスでは、空の色が赤色や青色になってい る画像が多く、nightの付くクラスでは、夜空の黒になっている画像が多くなっ ているためだと考えられる(図2参照)。よって、時間帯を示す 形容詞は、空に関する名詞との視覚的関連性が高いと思われる。

Figure 2: 実験結果(cloud&morning)

新旧に関する形容詞では、特にoldの付くクラスで分布にばらつきが見受けられ、 全20個の名詞の内12個の名詞で、名詞のみのクラスよりエントロピーが増加した。 増加したクラスは、sun、sky、cloudのように新旧による変化のない名詞 のクラスであり、減少したクラスは、cat、dog、peopleのような生物に関係した 名詞のクラスや、house、tower、trainのような人工物に関係した名詞のクラス であった(図3参照)。これらは時間の経過による変化が生じや すい名詞である。よって、新旧に関する形容詞ではエントロピーの変化の幅は少 ないものの、エントロピーが減少したクラスに関しては、視覚的関連性が高いと 考えて良いと思われる。

Figure 3: 実験結果(people&old)

beautifulやcoolのような形容詞では、他のクラスよりも分布のばらつきが大きいという結果を得た。 これは、タグを付加した画像投稿者の主観に影響を強く受ける形容詞であること が考えられ、収集した画像全体の分布のばらつきが他クラスより大きくなってる ことが考えられる。そのため、正領域判定を行っても、ノイズとなる領域を減少 させる事ができなかったのではないかと思われる。 しかし、sun&beautiful クラスのように、エントロピーの減 少が見受けられたクラスもあった。sun&beautifulクラスでは、朝焼けや夕焼け を写した画像が多く見受けられるため、人が美しいと考える景気に一定の共通概念があ り、視覚的関連性が高くなったのではないかと考えられる(図4参照)。

Figure 4: 実験結果(sun&beautiful)

9 まとめと今後の課題

本論文では、画像からクラスらしさを持つ正領域を求め、エントロピーの計算に よって、名詞と形容詞の視覚的関連性を分析した。

その結果、色を示す形容詞では、組み合わせた名詞の示す物体自体が形容詞の示 す色に変化する場合に視覚的関連性が高くなるという結果を得た。 また、空に関する名詞と、時間帯を示す形容詞の間にも視覚的関連性があること が確認できた。 さらに、oldやbeautifulといった形容詞においては、エントロピーが減少するク ラスは他と比べて少ないが存在し、そのようなクラスでは、エントロピーが減少 しない他の名詞と比べて、視覚的関連性が高くなることが分かった。

今回の実験により、視覚的関連性が高くなりやすい組み合わせと低くなりやすい 組み合わせを発見することができた。そのため、今回求めた視覚的関連性を基に、 名詞と形容詞の同時認識を行っていくことを、今後の課題とする。

Bibliography

1
柳井啓司, Kobus Barnard.
一般物体認識のための単語概念の視覚性の分析.
情報処理学会論文誌: コンピュータビジョン・イメージメディア, Vol. 48, No. SIG10 (CVIM17), pp. 88-97, 2007.

2
T. Hofmann.
Unsupervised learning by probabilistic latent semantic analysis.
Machine Learning, Vol. 43, pp. 177-196, 2001.