OpenAI、強化学習において相撲やサッカー等の環境でセルフプレーで訓練された競争力のあるマルチエージェントが複雑な行動を生成できる提案を論文で公開

Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、強化学習アルゴリズムにおいてセルフプレーで訓練された競争力のあるマルチエージェント環境で複雑な行動を生成できることを提案した論文を公開しました。

訓練を受けたエージェントは、物理的にシミュレートされた環境自体が比較的シンプルであっても、簡単な報酬で複雑で興味深いさまざまなスキルを学習します。

環境には、相撲やサッカーのPK、相手を通さないゲームなどが含まれ、スキルには、ランニング、ブロッキング、ダッキング、タックル、対戦相手を欺き、蹴り、両腕と脚を使った防御などの行動が含まれます。

今後の研究では、より複雑で大規模な環境でエージェント同士が互いに競争し合う実験を実施すると述べます。今回学習された行動のハイライトは以下のビデオで確認できます。

関連