OpenAI、同団体デフォルト強化学習アルゴリズム「PPO」をリリース。Boston Dynamicsのような人型ロボットシミュレーション環境でもポリシーを最適に訓練可能

Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、現在のOpenAIのデフォルト強化学習アルゴリズムとなる「PPO（Proximal Policy Optimization）」をリリースしました。

PPOは、エージェントが目標（ピンク色の球）に到達しようとするロボットシミュレーション「Roboschool」のような複雑な環境の中でも最適にポリシー（方針）を訓練することができます。強化学習の目的は、最良のポリシーを学習すること。

（上の動画：PPOで訓練中）

PPOで訓練されたエージェントは柔軟な移動ポリシーを策定し、目標地点に向かうときに旋回と傾斜を即座に行います。

PPOは、最先端のアプローチと同等またはそれ以上の性能を発揮しながら、実装およびチューニングを容易にし、各ステップで計算してコスト関数を最小限に抑えながら、ポリシーからの逸脱を比較的小さく抑えることができると言います。

また、使いやすさとパフォーマンスが優れているため、OpenAIが使用する強化学習アルゴリズムのデフォルトとの事です。

（上の動画：PPOで訓練したポリシーに基づいてキーボード操作のインタラクティブエージェントを作成）

また、ソフトバンクグループが子会社を通じて買収を発表している「Boston Dynamics」の人型ロボットAtlasモデルのように、複雑にシミュレートされたロボットを教えるのにもPPOを使用する事が可能です。

GitHubページはこちら。

関連