Facebook AI Research、ユーザーの顔の表情を読み取りエージェントと非言語対話を可能にする機械学習モデル「Learn2Smile」を論文にて公開

Facebook AI Researchは、機械学習を用いてユーザーの顔の表情を読み取り「インタラクティブ・エージェント」に役立てる手法「Learn2Smile」を公開しました。

昨今、テキストチャットや音声でエージェントと対話しながら必要な情報にたどり着く「インタラクティブ・エージェント」という手法が用いられるケースが増えてきています。

背景には、自然言語認識や音声認識の進化が大きく影響していますが、一方でユーザーの表情を認識し反応する分野がおろそかになっています。

そこで、本論文では、ユーザーの表情（非言語）に基づいてエージェントを自動更新する機械学習を用いた手法を提案します。

機械学習には、Deep neural network（DNN）が用いられ、数百のビデオを使用して訓練します。モデルは、VAE（Variational Autoencoder）を利用し、ユーザーの顔からのトラッキング2Dポイントデータを基にエンコードします。

そのことで、ユーザーとエージェントが言語と非言語（表情）の組み合わせで対話することが可能となり、インタラクティブ・エージェントとしてより進化するとしています。

関連