スタンフォード大学など、動画内の人の会話をテキストベースに修正するだけで口の動きも音声と共に修正できる機械学習を用いた手法を発表

スタンフォード大学やMPI-Infなどによる研究チームは、動画内の人の会話をテキストベースに修正するだけで口の動きも修正できる機械学習を用いた手法を発表しました。

論文:Text-based Editing of Talking-head Video

OHAD FRIED, Stanford University
AYUSH TEWARI, Max Planck Institute for Informatics
MICHAEL ZOLLHÖFER, Stanford University
ADAM FINKELSTEIN, Princeton University
ELI SHECHTMAN, Adobe
DAN B GOLDMANKYLE GENOVA, Princeton University
ZEYU JIN, Adobe
CHRISTIAN THEOBALT, Max Planck Institute for Informatics
MANEESH AGRAWALA, Stanford University

本論文は、動画内の人の会話をテキストベースで修正すると、その修正に合わせた口の動きも音声と共に生成する機械学習を用いた手法を提案します。本モデルを使用することで、修正するフレームをカットして新しいフレームを繋げるのではなく、テキストベースで会話文を編集するだけで、言い間違いなどの部分的な箇所を自然に修正できます。

提案手法は、まず入力された動画に対して、音素とテキストとの関係が揃えられ、テキストが修正されると、与えられた修正に対して、新しい単語と似た入力動画のセグメントを見つけ、音声とそれに合う口元モデルを合成します。本モデルを使用することで、容易に修正できる他、新しく付け加えたり、カットしたり、単語を移動させたりを可能にします。

アーカイブ

ページ上部へ戻る