OpenAI、同団体デフォルト強化学習アルゴリズム「PPO」をリリース。Boston Dynamicsのような人型ロボットシミュレーション環境でもポリシーを最適に訓練可能

Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、現在のOpenAIのデフォルト強化学習アルゴリズムとなる「PPO(Proximal Policy Optimization)」をリリースしました。

PPOは、エージェントが目標(ピンク色の球)に到達しようとするロボットシミュレーション「Roboschool」のような複雑な環境の中でも最適にポリシー(方針)を訓練することができます。強化学習の目的は、最良のポリシーを学習すること。

(上の動画:PPOで訓練中)

PPOで訓練されたエージェントは柔軟な移動ポリシーを策定し、目標地点に向かうときに旋回と傾斜を即座に行います。

PPOは、最先端のアプローチと同等またはそれ以上の性能を発揮しながら、実装およびチューニングを容易にし、各ステップで計算してコスト関数を最小限に抑えながら、ポリシーからの逸脱を比較的小さく抑えることができると言います。

また、使いやすさとパフォーマンスが優れているため、OpenAIが使用する強化学習アルゴリズムのデフォルトとの事です。

(上の動画:PPOで訓練したポリシーに基づいてキーボード操作のインタラクティブエージェントを作成)

また、ソフトバンクグループが子会社を通じて買収を発表している「Boston Dynamics」の人型ロボットAtlasモデルのように、複雑にシミュレートされたロボットを教えるのにもPPOを使用する事が可能です。

GitHubページはこちら。

論文はこちらです。Proximal Policy Optimization Algorithms(PDF)

関連

Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless

アーカイブ

ページ上部へ戻る