NVIDIAとMITの研究者らは、素材ビデオから現実的なビデオへの変換を可能にする機械学習を用いた手法を発表しました。
論文:Video-to-Video Synthesis
著者:Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro
GitHub:NVIDIA/vid2vid
左下が入力である顔のエッジマップで、色の付いた3つの顔が生成した出力結果
本論文は、ソースビデオを入力にフォトリアリスティックな合成ビデオを出力する機械学習アーキテクチャを提案します。
ソースビデオには、セグメンテーションマスク(領域毎の意味分け)、エッジマップ(エッジ処理した顔)、ポーズ(姿勢推定)が含まれており、この素材動画を入力に、現実的な動画を生成します。
敵対的生成ネットワークConditional GAN(Generative Adversarial Network)フレームワークを用いており、生成器と2種類の識別器を駆使して精度を高め、高解像度でフォトリアリスティックな一貫性のある合成ビデオを生成するよう学習します。
これらのことで、セグメンテーションマスクから背景や自動車を出力したり、顔のエッジマップから人物の顔を出力したり、ポーズから人の踊りを出力したり、ビデオからビデオへの変換を可能にします。既存研究の「pix2pixHD」や「COVST(COherent Video Style Transfer)」と比較しても、精度が高いことを実証します。