スタンフォード大学など、動画内の人の会話をテキストベースに修正するだけで口の動きも音声と共に修正できる機械学習を用いた手法を発表

スタンフォード大学やMPI-Infなどによる研究チームは、動画内の人の会話をテキストベースに修正するだけで口の動きも修正できる機械学習を用いた手法を発表しました。

論文:Text-based Editing of Talking-head Video

OHAD FRIED, Stanford University
AYUSH TEWARI, Max Planck Institute for Informatics
MICHAEL ZOLLHÖFER, Stanford University
ADAM FINKELSTEIN, Princeton University
ELI SHECHTMAN, Adobe
DAN B GOLDMANKYLE GENOVA, Princeton University
ZEYU JIN, Adobe
CHRISTIAN THEOBALT, Max Planck Institute for Informatics
MANEESH AGRAWALA, Stanford University

本論文は、動画内の人の会話をテキストベースで修正すると、その修正に合わせた口の動きも音声と共に生成する機械学習を用いた手法を提案します。本モデルを使用することで、修正するフレームをカットして新しいフレームを繋げるのではなく、テキストベースで会話文を編集するだけで、言い間違いなどの部分的な箇所を自然に修正できます。

提案手法は、まず入力された動画に対して、音素とテキストとの関係が揃えられ、テキストが修正されると、与えられた修正に対して、新しい単語と似た入力動画のセグメントを見つけ、音声とそれに合う口元モデルを合成します。本モデルを使用することで、容易に修正できる他、新しく付け加えたり、カットしたり、単語を移動させたりを可能にします。

ABOUT

 本サイト(Seamless/シームレス)は、2014年に始めた先端テクノロジーの研究を論文ベースで記事にしているWebメディアです。山下が個人で運営し、執筆を行っています。現在は主に寄稿(ITmedia NEWS)と、Seamless Journalに専念しています。

連絡先:yamashita(at)seamless.jp
Subscribe:TwitterFacebookHatenaNewsPicks

ゲスト連載:プロジェクションマッピング技術の変遷 岩井大輔

 Seamless Journalとは、月額10ドルの課金で厳選した最新論文がほぼ毎日メールボックスに届くというものです。記事にならない気になる論文をお届けします。決済はPatreonを介して、クレジットカードおよびPayPalで行え、解約も同サービスからいつでも可能です。お申し込みはこちらから

ページ上部へ戻る