コーネル大学とNVIDIA、1枚の画像を多様な画像に変換する敵対生成学習GANを用いたフレームワーク発表

コーネル大学とNVIDIAの研究者らは、1枚の画像を多様な画像に変換する敵対生成学習を用いたフレームワーク「Multimodal Unsupervised Image-to-image Translation （MUNIT）」を発表しました。

論文：Multimodal Unsupervised Image-to-Image Translation
著者：Xun Huang, Ming-Yu Liu, Serge Belongie, Jan Kautz
GitHub:NVlabs/MUNIT

本稿は、1枚の画像から多数の画像に変換する機械学習を用いた手法を提案します。上図のように、猫を犬に変換したり、猫をトラやライオンに変換したり。

提案手法では、画像をコンテンツとスタイルに分離し（例えば、猫画像の場合、ポーズがコンテンツで品種がスタイル）、敵対生成学習の「Generative Adversarial Network（GAN）」を用いて学習します。

2つのニューラルネットワークを使用し、1つは画像を生成、もう1つは生成された画像が正か偽であるかを評価、2つが競合し精度を上げる手法です。ラベル付けを排除します。

典型的には、オリジナルの猫画像と同じような変換させたい他の画像、つまり画像の変換には対応する画像データセット（ペア画像）を必要としますが、本提案手法は必要としません。対応画像を排除し動作します。

これらにより、1枚の画像から多様な画像を生成することを可能にします。また、ユーザがスタイルイメージのサンプルを提供することで、変換出力のスタイルを制御することも可能です。

このことで、多様で新しいキャラクタや多数の新しい世界をより迅速かつ簡単に作成できるとしており、今後は、本フレームワークをビデオやテキストなどに拡張したいとも考えています。

関連