マイクロソフト、文章をもとに絵を描くボット開発　背景描く想像力もあり

2018年1月29日 11:47

ボットが描いた「黄色い胴体、黒い羽、短いくちばしの鳥」。(画像: マイクロソフトの発表資料より)

ボットが描いた「黄色い胴体、黒い羽、短いくちばしの鳥」。(画像: マイクロソフトの発表資料より)[写真拡大]

　日本マイクロソフトは25日、文章中の単語を基に画像を生成するボットを開発したと発表。業界標準テストによるその画像品質は、従来技術に比べ約3倍に向上した。加えて文章にはない詳細な背景を描く想像力も有している。

　研究者にドローイングボットと呼ばれているこのテクノロジは、家畜の群れがいる農村の風景から宙に浮くバスといった現実ではありえない光景まであらゆる画像を描くことが可能という。画像と自然言語処理の分野が交差して生まれた研究の集大成とされる。

　ドローイングボットの核となるのはGAN（敵対的生成ネットワーク）というテクノロジで、2つの機械学習モデル、生成ネットワークとディスクリミネータから構成される。前者が文章から画像を生成し、後者がその正当性を判断する仕組みだ。

　ボットは画像とキャプションをペアにしたデータセットで訓練され、単語とそれのビジュアル表現の関係を学習した。例えばキャプションに鳥と書いてあれば鳥を描くよう学び、そして鳥の絵がどのようであるかを学習する。

　ただ、青い鳥、といった簡単な記述ならできても、頭が緑、翼が黄、腹が赤色の鳥、のように記述が複雑になってくると画像の品質が下がってしまう問題があった。これは文書全体が単一の情報となり、詳細な情報が失われるためで、結果生成されるのは緑、黄、赤が混ざりぼやけた鳥の画像となる。

　この問題を克服すべく、研究者は人間の洞察力を表現したネットワーク、AttnGANを構築した。人間は絵を描くとき何度も文を見返し、いま描いている部分の記述に注意を払う。その性質をもったネットワークだ。入力文を個別の単語に分解し、画像の特定領域と結びつけて作業を行える。

　またAttnGANは人間の常識をデータから学んでいるので、文章に記述がない想像力が問われる部分にはそれを当てはめる。鳥の例でいえば、木の枝にとまる鳥の画像が訓練データに多いと、文章と矛盾しない限り木の枝にとまった鳥の画像を描く。

　このように想像力、洞察力と言われるような人間的な概念を身に付けたボットといえる。未だ完璧と呼べる精度ではないが、将来的には画家やデザイナーのスケッチ補助や音声による写真編集ツール、台本に基づくアニメーションの自動作成などへの応用が期待されている。（記事：小椋恒示・記事一覧を見る）

スポンサードリンク