Facebook AI Researchら、3D仮想環境内でエージェントが質問に回答するため一人称視点で探索する強化学習タスクを提案

ジョージア工科大学とFacebook AI Researchの研究者らは、3D仮想環境内でエージェントが質問に回答するため探索するタスクを提案した論文を発表しました。

論文：Embodied Question Answering
著者：Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra

エージェントに質問すると、質問に答えるため、前進、後退、右、左、旋回と仮想空間内を一人称視点で探索し必要なビジュアル情報を収集します。質問に答えるために必要なビジュアル情報を見たと判断したとき、ナビゲートを停止し回答を出力します。

例えば、エージェントに対して「車の色は何？」と質問した場合、答えである「オレンジ」にたどり着く探索をし回答する。強化学習を駆使します。

それは、質問を理解する言語理解、車をどのように見えるかなどの視覚推論、そして目標主導のインテリジェントなナビゲートなど、それらをHouse3Dデータセットで評価し訓練することで精度を高めます。また、House3Dに基づいて構築した視覚的な質問と回答のEQAデータセット（公開される予定）も用います。

関連