Google DeepMindは、囲碁の世界トッププロ棋士を破ってきたコンピュータ囲碁AIプログラム「AlphaGo」に圧勝する新たな人工知能プログラム「AlphaGo Zero」を論文にて発表しました。
Mastering the game of Go without human knowledge(PDF)
AlphaGoは、数千もの打ち手のデータを学習し強化しましたが、AlphaGo Zeroは、このステップをスキップし、答えなしの白紙の状態からランダムにプレイし強化学習する手法を取り入れます。
過去のデータからではなく、囲碁の基本ルールだけ教えて、あとはAI同士が教師なし学習で対局を繰り返すことで上達していく手法が採用されます。
そして、3日間で500万回の対戦を強化学習したところ、トップ棋士を破ってきたAlphaGoを、100勝0敗という圧倒的強さで打ち破ったということです。
また、それだけでなく、2000年前から存在していたとされる囲碁の歴史で人が編み出してきた定石と呼ばれる最善の石の打ち方を更新する、新たな定石も生成したと言います。
関連
Google「DeepMind」、コンピュータが人型ベースでB地点にたどり着く最善の方法(柔軟な動き)を独学で生成する強化学習を用いたアプローチを提案した論文を発表 | Seamless