Microsoft Researchら、テキスト記述の説明文に加えて「対話」からの情報を含めることでより高品質な画像を生成する機械学習を用いたモデルを発表

Microsoft Research、モントリオール大学、モントリオールの研究機関「Montreal Institute for Learning Algorithms(MILA)」の研究者らは、テキスト記述の説明文とDialog(対話)から画像を生成する機械学習を用いたモデル「ChatPainter」を発表しました。

論文:ChatPainter: Improving Text to Image Generation using Dialogue
著者:Shikhar Sharma, Dendi Suhubdy, Vincent Michalski, Samira Ebrahimi Kahou, Yoshua Bengio

本稿は、機械学習を用いてテキストによる説明文から画像を生成するモデルを提案します。本提案は、説明文に加えて、質疑応答による対話を加えることで精度を向上させます。

上図は、説明文「adult woman with yellow surfboard standing in water」に対して、10個の対話が付け加えられています。例えば、天気はいいですか?ウェットスーツはどうか?山はどうか?など。複数の対話から得られた情報を加味して画像を生成します。

Microsoft COCOデータセットとVisual Dialogデータセットを用いて画像生成をテストしました。 結果、シーンをさらに説明する対話を追加することで、より高品質な画像が生成されたことを実証しました。

アーカイブ

ページ上部へ戻る