saguar1

YANAI Lab.

電気通信大学 総合情報学科/大学院 総合情報学専攻 メディア情報学コース 柳井研究室
電気通信大学 > 情報工学科 > コンピュータ学講座 > 柳井研究室 > 研究内容   

研究内容

 本研究室では,対象を限定しない一般的な画像・映像認識の実現のための研究を行っています.

「画像認識 (Image Recognition)」 
「マルチメディア情報処理 (Multimedia Processing)」 
「Webマルチメディアマイニング (Web Multimedia Mining)」

が当研究室の研究キーワードです. これらに3つに関連する研究,特に3つを組合せた研究を行っています.

 こうした研究では,処理すべき画像・映像データの量は常に膨大なものとなります.例えば,1000万枚の画像をWebから収集して,自動的に画像の認識のための知識ベースを構築したり,MPEG2でエンコードされた100時間以上のテレビ映像に対して「飛行機」「サッカー」などの特定のシーンを自動認識したりすることを行っています.そのため,当研究室では,学生1人に1台割り当てられるPCワークステーション以外に,総容量約150TBのファイルサーバ群と,計算専用計算機80台(計320コア)を用いて,大規模並列分散処理による画像・映像処理を行っています.

 

主な研究テーマ

 対象を限定しない一般画像・映像認識,Webからの視覚的概念の自動獲得,画像と言語概念との対応付け,位置情報と画像の意味の関係の分析およびそれを利用した画像認識,Web動画からの特定シーンの自動収集,Webマルメディアマイニング,ソーシャルメディアマイニング

 

研究概要

一般的画像認識のための学習材料をコンピュータ自身に集めさせる

  近年,デジタルカメラの急速な普及や,Web(インターネット)上の画像情報の飛躍的増大により,デジタル画像の意味をコンピュータに自動認識させること(一般画像認識)への要請が高まっている.しかし,現状では対象を絞り込んで,その対象だけに適用できる独自の方法を用いれば,人間の顔などはある程度認識できるレベルにあるが,対象を限定しない一般的な画像認識の場合は,まだ実現が難しい.当研究室では,こうしたコンピュータでの一般画像認識について,その方法論とアルゴリズムを研究している.

 たとえば,「ライオン」を認識する場合,人間であればライオンがどこで(動物園で,あるいはサバンナで)どんな格好をしていようと(走っていようと寝そべっていようと),またライオン型の帽子や,可愛いらしくデフォルメされて服の模様になっていようと,たやすく「これはライオンである」と認識できる.ところが,こうした一般的認識がコンピュータでは非常に難しい.

  これを実現するためには,実際には,膨大な量の画像情報を前もってコンピュータに学習させておくことが必要であり,しかも,その画像はできる限り多様なものであることが望ましい.また,コンピュータの認識・学習のために,画像の示す概念と画像を対応させるキーワードを付けておく必要もある.このように,コンピュータに学習させるその題材を集める段階で,既に大変な作業が要求されるのである.そこで,当研究室では,コンピュータにWebからキーワードの付いた画像を自動的に収集させるシステムを研究しており,これをWeb画像マイニングと呼んでいる.Web上には,現在,多種多様な画像が存在すると考えられる.また,Webの画像にはキャプションなどの文字情報も付いている場合が多く,それを利用すれば,画像にキーワードを人為的に付けてやる手間も省ける.Web上の画像を一般画像認識に利用することは有効な方法なのである.

 Webからの画像収集の目的は,実世界の画像例をできる限り多く集めることにより,コンピュータのための画像辞書といったもの(「実世界画像コーパス」)を作ってやることである.最終的には将来,一般的画像認識,つまり写真を見ればどんな写真でも理解できるコンピュータを実現することを目指している.

 以下の写真は,当研究室のシステムによって,Webから自動収集した「夕日」「滝」画像である.他の結果も ここ で公開している.

 
sunset waterfall


研究の特色

Webマイニングと画像認識の融合とWeb画像の収集手法および収集した画像の評価手法を開発

  研究概要で述べた一般画像認識のための画像をWebから自動的に収集することはために,Web画像マイニングのシステムを開発しているが,これは収集した画像からより適切な画像を選び出すために確率的手法を用いるもので,研究室の開発した新しい方法論と言える.

  また,言語概念と画像との関係についてWeb上の画像を用いて解析する研究も行っている.たとえば,「赤い」「楽しい」「豪華な」などの形容詞や形容動詞のうち,どれが視覚的な概念(特徴的な画像が連想される概念)であるかを数値化するための指標「画像エントロピー」を開発した.これは,Webから集めた画像がどの程度まとまったものであるかを示す指標で,画像につけるキーワードや画像認識に用いる概念として適切なものを選び出す際に活用できる.

 

今後の展開

コンピュータのための「実世界画像コーパス」を,まず名詞から作成したい

  現在,当研究グループで開発している手法で評価と解析を行い,コンピュータがWebから集めてきた画像について,キーワードと画像との適合率を調べてみた.結果は,「夕暮れ」「山」「滝」といった風景を表わすキーワードの場合であれば,非常に高い適合率が得られている.特に,「夕暮れ」「山」の場合は,それぞれ適合率91.0%,89.0%という好結果が出ている.これは,風景の場合,画像全体で評価でき細かい部分を取り出す必要があまりないので,キーワードと画像の対応をコンピュータが認識しやすいということによるものと思われる.これに対し,風景に溶け込む形の画像が多く見られる「ライオン」や,他の機械との区別が難しい「ノートPC」といったキーワードについては,まだ高い適合率が得られていない.今後はこの問題について,画像認識の手法を応用することによって取り組み,より高い適合率を目指していく予定である.

 更に,まず名詞から「実世界画像コーパス」を作ることに(1000種類の画像1000枚を当面の目標としている),本格的に取り組みたいと考えている.また,「黄色い」「可愛い」「怖い」といった主観的判断を含むキーワードについても,画像収集を行っていきたい.

 こうして,コンピュータがWebから自分で画像情報を獲得できるようになれば,将来的には,一般画像認識の可能なコンピュータの実現に道を拓くことになり,また,個人的な画像データベース作成といった日常的な要請にも役に立つと考えている.


(以上の文章は,共同研究センターOPAL-RING掲載された研究室紹介文で,ライターの方が書かれたものを一部修正して掲載してあります.)

 

その他の研究テーマ

Web画像マイニング以外のテーマは,例えば以下のようなものがあります.

  • TV映像から自動的に情報を抽出するシステム
    MPEG2 で録画された大量の映像データから,ある特定の対象(例えば, 飛行機,車,犬,ネコなど)が写っているシーンを抽出する.
    原則 として,TREC VIDEO(ビデオ映像処理の国際ベンチマークコンテスト) の feature extraction task で決められている39種類の対象について100時間以上の映像データに対して認識を行う.
  • Web上の動画像の自動分類システム
    Web上の動画像を収集し,内容を認識して自動分類します.通常は,タグと呼ばれるキーワードが動画についていますが,大雑把なキーワードが多く,例えば,「サッカー」というタグの動画でも,プロの試合,少年サッカー,小さな子どもがボールを蹴っているシーンなど様々な動画が存在します.そうした,タグに表れない内容の差異を映像認識技術によって認識し,動画を細かく分類します.
  • GPS情報を用いた画像アプリケーション
    写真を撮影する時に同時にGPS情報を記録しておくと,写真を位置 情報で管理することができる.位置情報,それから推定される地名,Webか ら収集した地名に関するテキスト情報および画像情報を有機的に結び付けることによって新しい画像アプリケーションを構築する.例えば,GPS情報付の 観光地画像から,Web上の情報を利用して観光地画像ガイドを自動構築する.