カリフォルニア大学バークレー校(UCバークレー)の研究者らは、ロボットが自ら収集したデータから学び、自身の未来の行動を想像(動画として予測)することで、以前に遭遇したことのない物体をどのように操作するかを理解できる自己監視型ロボットによる動画予測学習システムを論文にて発表しました。
Self-Supervised Visual Planning with Temporal Skip Connections(PDF)
人間は、赤ちゃんの頃から目の前の様々な物体と繰り返し相互作用を通じて、教師なしで物体操作技術を学びます。
本稿では、同様の方法論を使用して、ロボットでも目の前のオブジェクトから自律的なやりとりの中でラベルなしデータを収集し、物体操作技術を学ぶアプローチを提案します。そして、そのことで、以前には見たことがない物体との複雑な物理的相互作用を予測することができるようになります。
動画予測
本研究では、単一のカメラを使用して、ロボットが物体を押したときの予測画像を学習させ視覚的に動画予測モデルを生成します。本技術を「visual foresight」と呼んでいます。
システムのコアとなるのは、DNA(Dynamic neural advection)と呼ばれる畳み込みLSTMによるモデルで、ロボットの動作に基づいて、画像内のピクセルがフレーム間でどのように移動するかを予測します。
実験では、ロボットに複数の物体を遊ぶかのようにランダムに押させデータを収集、それを元に学習した予測モデルを使用してオブジェクトを押して目的の場所に移動させます。
結果、将来の予測は数秒しか分からないものの、見たことのない物体を押して移動させることに成功し、さらに、障害物を回避し移動させることにも成功しました。
関連
東京大学、機械学習を用いて0.5秒後の人間の動きをリアルタイムに推定する体動予測システム「Computational Foresight」を論文にて発表 | Seamless