Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、現在のOpenAIのデフォルト強化学習アルゴリズムとなる「PPO(Proximal Policy Optimization)」をリリースしました。
PPOは、エージェントが目標(ピンク色の球)に到達しようとするロボットシミュレーション「Roboschool」のような複雑な環境の中でも最適にポリシー(方針)を訓練することができます。強化学習の目的は、最良のポリシーを学習すること。
PPOで訓練されたエージェントは柔軟な移動ポリシーを策定し、目標地点に向かうときに旋回と傾斜を即座に行います。
PPOは、最先端のアプローチと同等またはそれ以上の性能を発揮しながら、実装およびチューニングを容易にし、各ステップで計算してコスト関数を最小限に抑えながら、ポリシーからの逸脱を比較的小さく抑えることができると言います。
また、使いやすさとパフォーマンスが優れているため、OpenAIが使用する強化学習アルゴリズムのデフォルトとの事です。
(上の動画:PPOで訓練したポリシーに基づいてキーボード操作のインタラクティブエージェントを作成)また、ソフトバンクグループが子会社を通じて買収を発表している「Boston Dynamics」の人型ロボットAtlasモデルのように、複雑にシミュレートされたロボットを教えるのにもPPOを使用する事が可能です。
GitHubページはこちら。
論文はこちらです。Proximal Policy Optimization Algorithms(PDF)
関連
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless