先日5,000万ドルを資金調達し、Mark Zuckerberg氏、Jeff Bezos氏、Elon Musk氏など、多数の著名人から投資を受けるカリフォルニア州ユニオンシティに本拠を置くAIスタートアップ「Vicarious」は、原因と結果を学習する「Schema Networks」という新しい技術を論文にて公開しました。
Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics(PDF)
人間がゲームをすることを学ぶとき、まずそれを概念的に理解します。そして、似たようなゲームをすることになってもその概念から理解しプレイすることを可能にします。つまり、人間は原因と結果を理解するため変化に適応して先に計画を立てます。
しかし、深層強化学習の場合、小規模な変化でも混乱しますし、ゲームのダイナミクスをモデル化しないので目標を達成する計画もありません。
(上画像は、ブロック崩しゲームで、左から標準、真ん中がバーの高さが違うバーション、右がセンターに壁があるバージョン)
人はノーマルをプレイすれば他2つも理解しクリア(目標)へ向けてプレイすることができるのに対して、強化学習ではノーマルを学習しても他2つをクリアへ向けてプレイすることができない。同じようにするには、バージョンごとに追加でトレーニングする必要がある。
そこで、本論文では目的を達成するための原因を後方に推論し、データから直接環境のダイナミクスを学ぶことができる「Schema Networks」を提案します。
「Schema Networks」は、標準的なゲームのトップスコアを達成し、追加のトレーニングなしで多くの応用ゲームを処理します。また、現在のDeep learningシステムでは難しい複雑なパズルを解決することもできます。
(上GIFは、左が従来型で、右がSchema Networksです。)