ジョージア工科大学とFacebook AI Researchの研究者らは、3D仮想環境内でエージェントが質問に回答するため探索するタスクを提案した論文を発表しました。
論文:Embodied Question Answering
著者:Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra
エージェントに質問すると、質問に答えるため、前進、後退、右、左、旋回と仮想空間内を一人称視点で探索し必要なビジュアル情報を収集します。質問に答えるために必要なビジュアル情報を見たと判断したとき、ナビゲートを停止し回答を出力します。
例えば、エージェントに対して「車の色は何?」と質問した場合、答えである「オレンジ」にたどり着く探索をし回答する。強化学習を駆使します。
それは、質問を理解する言語理解、車をどのように見えるかなどの視覚推論、そして目標主導のインテリジェントなナビゲートなど、それらをHouse3Dデータセットで評価し訓練することで精度を高めます。また、House3Dに基づいて構築した視覚的な質問と回答のEQAデータセット(公開される予定)も用います。
関連
深セン大学ら、RGB-Dカメラ搭載の移動式ロボットに未知の屋内を自律走行させる方法を論文にて発表。リアルタイム更新するテンソル場からロボットの動きを導く | Seamless