OpenAI、エージェントが相互に協力し合い、競争することを可能にする新しい強化学習アルゴリズム「MADDPG」を開発

イーロン・マスク（Elon Musk）氏などが設立した人工知能を研究する非営利団体「OpenAI」は、エージェントが相互に協力し合い、競争することを可能にするマルチエージェント環境における新しい強化学習アルゴリズム「MADDPG」を開発しました。

前提知識として、ここでいうエージェントとは、なんらかの情報をインプットしてアウトプットする一連の概念のことを言います。そのエージェントのアウトプットに対してご褒美（報酬）の強弱でどれくらい良い行動だったか悪い行動だったかを学習させ最大化を目指すことを強化学習と言います。

今回、そんなエージェント同士が協力し合い、競い合うことを可能にする強化学習アルゴリズムを発表、このことで最大化という意味でより効果的な結果を示しました。

以下の映像では、MADDPGが実行されます。赤エージェントは、緑エージェントに接触すると報酬が得られ、緑エージェントはそれを回避して青丸に到達すると報酬が得られる。

赤エージェントは、2つの緑エージェントを追いかけるのではなく、1つの緑エージェントに全員が絞り互いに協力しより高い報酬を得ることを学ぶ、一方で緑エージェントは分裂することを学び、一方の緑エージェントが追跡されている間に離れて赤エージェントを避けながら青丸に接近し高い報酬を得ることを学ぶ。

関連