MPI-Infなど、口の動きと声をより自然に他人へ転送できるGANを用いた手法を発表

Max Planck Institute for Informatics、スタンフォード大学、DisneyResearch、バース大学による研究チームは、GAN(敵対的生成ネットワーク/Generative adversarial networks)を用いて、ビデオ内の人の唇の動きを、別のビデオ内の人へ転送するアプローチを発表しました。

論文:Neural Style-Preserving Visual Dubbing

HYEONGWOO KIM, Max Planck Institute for Informatics
MOHAMED ELGHARIB, Max Planck Institute for Informatics
MICHAEL ZOLLHÖFER, Stanford University
HANS-PETER SEIDEL, Max Planck Institute for Informatics
THABO BEELER, DisneyResearch|Studios
CHRISTIAN RICHARDT, University of Bath
CHRISTIAN THEOBALT, Max Planck Institute for Informatics

左:ソース画像、中央:ターゲット画像、右:本手法の出力結果

本研究は、ビデオ内人物の口の動きを別のビデオ内人物の口の動きへ転送するGANを用いた手法を提案します。本手法を用いることで、ターゲット人物のアイデンティティを維持しながら、ソース人物の口の動きと声を転送することができます。これにより、映画の吹き替え版を作成する時に、口の動きも合わせることができることから、より自然な吹き替え版を作成することが可能になります。