カーネギーメロン大学、マシンの自然言語理解をより向上させるためのアーキテクチャを論文にて発表。一人称3Dゲーム環境の中でタスク指向の言語接地へアプローチ

カーネギーメロン大学の研究者は、自律エージェントに自然言語命令を与え、指定したタスクを実行させるためのタスク指向の言語接地のための訓練可能なエンドツーエンドアーキテクチャを提案した論文を発表しました。

昨今、Amazon AlexaやGoogle Homeなどの人の言語を読み取り行動に移すデバイスは、音声制御技術の向上を示しましたが、まだまだ単純なコマンドしか扱っていないのが現状です。

自律型ロボットなどにおいては、人が発する自然言語命令を読み取り、目の前の環境からどれを指しているのか、どこにあるのか、などの概念理解を含めたより複雑なコマンドに対応する必要があります。

そこで、本論文では自然言語を自律エージェントにより理解させるため、強化学習と模擬学習のため、一人称視点ゲームに基づいた3D環境の中でシミュレーションするトレーニング手法を提案します。

下のGIFのように、提示される周囲の環境と自然言語の指示だけで多様なオブジェクトの中から指定したオブジェクトへ向かうゲームを構築します。言語や知覚の知識は前提としてありません。

（テキストで指示が表示され、その通りマシンが動く様子）

（ゲームに登場するオブジェクトの種類）

下の図のように行動を分解するとこうです。

青がエージェント、口が開いている方が視点、後ろの緑の炎が灯ったタイマツに向かうコマンドを指示します。

といった具合に、一人称3Dゲーム環境で豊富な命令セットや環境状態に基づいてタスク指向の言語接地の課題をシミュレートし、エージェントが言語に関連付けてオブジェクトの色属性やサイズ属性などを認識することを学習します。

また、本モデルは3D環境で実行できることは現実世界でも実行できる重要なステップになる前提で行われています。

本論文を主導で執筆したDevendra Chaplot氏は、Linkedinによると現在AppleのインターンでAI研究をしているとのことです。

関連