Google DeepMind、AlphaGoに圧勝（100勝0敗）する新たな囲碁AIプログラム「AlphaGo Zero」を発表。囲碁の基礎ルールのみ教え3日間で500万回強化学習

Google DeepMindは、囲碁の世界トッププロ棋士を破ってきたコンピュータ囲碁AIプログラム「AlphaGo」に圧勝する新たな人工知能プログラム「AlphaGo Zero」を論文にて発表しました。

AlphaGoは、数千もの打ち手のデータを学習し強化しましたが、AlphaGo Zeroは、このステップをスキップし、答えなしの白紙の状態からランダムにプレイし強化学習する手法を取り入れます。

過去のデータからではなく、囲碁の基本ルールだけ教えて、あとはAI同士が教師なし学習で対局を繰り返すことで上達していく手法が採用されます。

そして、3日間で500万回の対戦を強化学習したところ、トップ棋士を破ってきたAlphaGoを、100勝0敗という圧倒的強さで打ち破ったということです。

また、それだけでなく、2000年前から存在していたとされる囲碁の歴史で人が編み出してきた定石と呼ばれる最善の石の打ち方を更新する、新たな定石も生成したと言います。

関連