OpenAI、他のエージェントを察知(学習プロセスを考慮)しながら学習する強化学習モデル「LOLA」論文にて発表。例題に「囚人のジレンマ」結果は一方が自白するに確信度が高い

Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、英国のオックスフォード大学、米国のカリフォルニア大学バークレー校、カーネギーメロン大学の研究者らと共同で、強化学習において他のエージェントの学習プロセスを考慮しながら学習する「LOLA(Learning with Opponent-Learning Awareness)」を論文にて発表しました。

Learning with Opponent-Learning Awareness(PDF)

本提案は、従来の強化学習とは違ってマルチエージェントにおいて、他のエージェントの動作を察知しながら学習します。

例として「囚人のジレンマ」が使用されます。囚人のジレンマとは、2人の共犯者が捕まり、一方が自白すると自分は無罪になって仲間が3年の刑、両方が自白すると両方が2年の刑、両方が黙秘すると両方が1年の刑、になるというゲーム理論のモデルです。

従来の強化学習では、軽い1年の刑を選択するため両者黙秘に確信度が高まります。一方で、本提案「LOLA」では、相手を意識するため一方が自白することに確信度が高まります。


(Cが自白でDが黙秘。)


( a)が従来でb)が本提案。従来では両者黙秘のCCに確信度が高く、LOLAでは一方が自白に確信度が高い。)

関連

M Zuckerberg/E Musk等が投資するAIチーム「Vicarious」、Aゲーム学習のみで追加学習なしに応用のA’バージョンゲームも理解しプレイできる「Schema Networks」を論文にて発表 | Seamless

アーカイブ

ページ上部へ戻る