GoogleのAIを研究する子会社「DeepMind」は、強化学習で人型含めシミュレートされた環境の中で複雑で柔軟な動きを生成するアプローチを提案した論文を公開しました。
Emergence of Locomotion Behaviours in Rich Environments(PDF)
これら動きは、コンピュータが独学で最善の方法として考案した行動です。
研究者は、エージェントに動きのセットと前進するインセンティブを与え、AからB地点にたどり着く最善の方法を生み出すための強化学習を仕込みます。
コンピュータは、今ある動作を使って試行錯誤を繰り返し、さまざまな動き方を思いつく中で次々と最善へ近づけていきます。
関連
深層強化学習を使用し、人間の3D二足歩行をリアルにシミュレートする論文が登場。サッカードリブルや動的障害物を通り抜ける能力も再現 | Seamless