Seamless

V i r t u a l R e a l i t y

動画の他言語への吹替をした場合に、その吹替言語に合わせた口の動きも同時に合成する機械学習を用いた技術「ENACT」登場

英国に拠点を置くチーム「Synthesia」は、他言語への吹替えを口の動きごと再構築するdeep learningを用いた技術「ENACT」を発表しました。 

例えば、英語をベースとした映画を日本語吹替した場合、日本語で話しているのに俳優の口の動きは英語を口パクするといった状態になり、不自然さが残ります。この不自然さは、口の動きと日本語が合っていないからで、これが口の動きも日本語の口の動きに合成できればより自然な吹替映画になります。

そこで、Synthesiaは、吹替をした時にその言語に合わせた口の動きも同時に合成する技術を開発しました。これは、アフレコする人の口の動きと声を同時に俳優へ合成するというもので、今までは音声だけのアフレコだったのが口の動きも付いてくると。これにより、自然な吹替動画を作成することができ、視聴者にシームレスな映像を提供することが可能になります。


右のポルトガル語を話す女性の言語と口の動きが、左の英語を話す女性に転送されている様子

Synthesiaは、ユニヴァーシティ・カレッジ・ロンドン、スタンフォード大学、ミュンヘン工科大学、ケンブリッジ大学の研究者などにより設立されたチームです。ファウンダーには、2人の教授も加わっており、その1人は、数年前に動画内の他人の顔の動きを自分の顔の動きに変換するというビデオ合成技術を主導したMatthias Niessner氏です。フェイクニュースで使用される懸念など一部で話題になりました。

 

本技術を使用したデモ映像も公開されており、女性が他言語を話している様子、その言語に合った口の動きをしている様子を確認することができます。