NVIDIAの音声入力から3D顔面モデル・アニメーションを駆動させる機械学習ベースの技術がSIGGRAPH 2017にて採択

NVIDIAが開発する機械学習を用いたオーディオ駆動の3Dフェイシャル・アニメーション技術がSIGGRAPH 2017にて採択されました。論文はこちら（PDF）。

本提案は、俳優の音声入力から話すスタイルを3Dモデル化し、表情含め動的に低レイテンシおよびリアルタイムに動作させることを可能にします。

本提案で同社が用いる機械学習技術ディープニューラルネットワークは、音声の入力波形から顔モデルの3D頂点座標へのマッピングを学習し、と同時にオーディオだけでは説明できない表情の変化も推論し明確にします。

性別、アクセント、言語が異なる多様なスピーカーの音声で駆動しても合理的な結果をもたらしました。

説明映像はこちら。

関連