テクニオン – イスラエル工科大学の研究チームが開発した「Breaking the cycle—Colleagues are all you need」は、ペアでないドメイン間(分野、領域、種類など)で画像から画像への変換を行うGAN(Generative Adversarial Network)を用いた新しい手法「Council GAN」だ。
1対1のペア画像から学習し変換する手法
画像から画像への変換(image-to-image translation)では、過去に Image-to-Image Translation with Conditional Adversarial Nets [Isola et al. 2017] などで教師あり学習によるアプローチが実証されている。しかしながら、これは輪郭が合う似たペア画像がないと変換できない制限があり、そのため1対1のペア画像データが大量に必要なデメリットがあった。
画像群のペアで学習し変換する手法
一方で、Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks [Zhu et al. 2017] では、厳密な1対1のペア画像でない画像群のペアで変換を可能にする。これは2つの画像群同士のドメインの関係を教師なし学習で行い、ドメイン間の変換を可能にする。ポイントは、元データAからBへ変換した画像をさらにAへ変換し、その画像が元データAの画像にどれくらい似ているか、そのズレを表す損失を導き出すシステムCycle Consistent Lossを導入したこと。このシステムを用いることから、Cycle GANと呼ばれている。
このように、これまでの教師なし学習による画像から画像への変換は強力だが、欠点もある。例えば、実顔とアニメキャラ顔のドメイン間のように、形状変化の大きい画像変換タスクの場合失敗するケースが多かったり、男と女の顔ドメイン間で男性のヒゲが残ったり、メガネなどの大きな物体を完全に除去することができなかったり、課題も多く残っている。
本手法
これらの課題を解決するために、今回の手法ではCouncil GANと呼ばれる新しいアプローチを提案する。Council GANのコアになるのは、Cycle Consistent Lossではなく、Council lossというシステム。通常のGANは生成器と識別器の組み合わせで学習するが、今回の手法は、1つの生成器と2つの識別器の組み合わせで行う。通常のように識別器が画像を真偽判定する一方で、さらに自分の生成器で生成された画像なのか、それとも他の生成器で生成された画像なのかを判別する学習を行う。この組み合わせを複数用意し、複数間で行う。これにより、各生成器は他の生成器が同意する結果に収束するように強制され、ドメイン間の相互情報を最大化する。
学習したCouncil GANを、CycleGAN、MUNIT、DRIT++、U-GAT-IT、StarGAN、Fixed-PointGANを含む、いくつかの最先端モデルとCelebA、selfie2animeデータセットなどで結果を比較した。
定性的には、男性から女性への画像変換の場合、他の最先端の方法で生成されたものよりも違和感の少ない女性らしい結果を示した。ヒゲも完全に消えている。実顔からアニメキャラ顔への変換でも、他のモデルと比較して、入力画像の顔の構造を保持しつつアニメの特徴を捉え生成している。メガネ除去の比較でも他と比べメガネが完全に消えている。また定量的にも、概ね優れた結果を得られた。
以下、その他の比較画像。