ヘブライ大学による研究チームは、口の動きに別音声を合わせる合成法を発表しました。
論文:Dynamic Temporal Alignment of Speech to Lips
著者:Tavi Halperin, Ariel Ephrat, Shmuel Peleg
所属:The Hebrew University of Jerusalem
映画の吹き替えなどにおいて、新しく録音した音声を元の唇の動きに手動で合わせるのは面倒な作業です。そこで本論文は、動的な音声と映像間の時間整列を行えるAutomated Dialogue Replacement (ADR,自動台詞変換)のための手法を提案します。
提案手法は、ビデオの唇の動きに合わせてオーディオを位置合わせするアプローチです。クリップ内で唇の動きに合わせて音声信号を伸張および圧縮することで時間整列を実行します。
スピーチから唇への整列は、大きく3段階で構成されており、オーディオビジュアル特徴抽出、スピーチとビデオをマッピングする最適な位置合わせの検索、およびビデオと位置合わせさした新しいスピーチの合成です。これにより、ビデオと位置合わせされた新しいスピーチが合成され、ADR作成を容易にします。出力結果の精度は、以下のデモ動画より確認できます。