OpenAI、他のエージェントを察知（学習プロセスを考慮）しながら学習する強化学習モデル「LOLA」論文にて発表。例題に「囚人のジレンマ」結果は一方が自白するに確信度が高い

2017-09-21

Elon Musk氏などが設立した人工知能を研究する非営利団体「OpenAI」は、英国のオックスフォード大学、米国のカリフォルニア大学バークレー校、カーネギーメロン大学の研究者らと共同で、強化学習において他のエージェントの学習プロセスを考慮しながら学習する「LOLA（Learning with Opponent-Learning Awareness）」を論文にて発表しました。

Learning with Opponent-Learning Awareness（PDF）

本提案は、従来の強化学習とは違ってマルチエージェントにおいて、他のエージェントの動作を察知しながら学習します。

例として「囚人のジレンマ」が使用されます。囚人のジレンマとは、2人の共犯者が捕まり、一方が自白すると自分は無罪になって仲間が3年の刑、両方が自白すると両方が2年の刑、両方が黙秘すると両方が1年の刑、になるというゲーム理論のモデルです。

従来の強化学習では、軽い1年の刑を選択するため両者黙秘に確信度が高まります。一方で、本提案「LOLA」では、相手を意識するため一方が自白することに確信度が高まります。

（Cが自白でDが黙秘。）

（ a)が従来でb)が本提案。従来では両者黙秘のCCに確信度が高く、LOLAでは一方が自白に確信度が高い。）

Seamless

OpenAI、他のエージェントを察知（学習プロセスを考慮）しながら学習する強化学習モデル「LOLA」論文にて発表。例題に「囚人のジレンマ」結果は一方が自白するに確信度が高い

関連

アーカイブ

ゲスト連載：