Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、強化学習アルゴリズムにおいてセルフプレーで訓練された競争力のあるマルチエージェント環境で複雑な行動を生成できることを提案した論文を公開しました。
Emergent Complexity via Multi-Agent Competition(PDF)
訓練を受けたエージェントは、物理的にシミュレートされた環境自体が比較的シンプルであっても、簡単な報酬で複雑で興味深いさまざまなスキルを学習します。
環境には、相撲やサッカーのPK、相手を通さないゲームなどが含まれ、スキルには、ランニング、ブロッキング、ダッキング、タックル、対戦相手を欺き、蹴り、両腕と脚を使った防御などの行動が含まれます。
今後の研究では、より複雑で大規模な環境でエージェント同士が互いに競争し合う実験を実施すると述べます。今回学習された行動のハイライトは以下のビデオで確認できます。
関連
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless