ヒューストン大学、3人対話で各アバターの視線や頭胴部などの動きを会話に合わせて自動生成するdeep learningを用いた手法を発表

ヒューストン大学による研究チームは、3者対話の各アバターの視線や身体ジェスチャをdeep learningを用いて自動生成する手法を発表しました。

論文:A Deep Learning-Based Model for Head and Eye MotionGeneration in Three-party Conversations

Aobo Jin(University of Houston)
Qixin Deng(University of Houston)
Yuting Zhang(University of Houston)
Zhigang Deng(University of Houston)

複数人がアバターを通して同時に会話していると、不自然な方向を向いていたりで現実世界とは違う雰囲気になります。そこで本論文は、3人の会話において、3人の自然な胴体や頭部、眼球のアニメーションを生成するためのdeep learningアーキテクチャを提案することで、現実世界に近い3者対話シミュレーションを再構築します。

事前準備として、実際に3人の話者から顔の表情、頭の動き、手のジェスチャ、胴の動き、音声などを同時に取得しモーションデータセットを作成します。取得したデータセットを用いて、音声信号入力ベースで話者の目と頭の動的方向を自動的に予測するためにネットワークを訓練します。訓練したモデルを使用して、既存のリップシンクと音声駆動のボディジャスチャシステムを通して、頭部と眼球の動きなどを生成します。

アーカイブ

ページ上部へ戻る