動きある物体に対して、0.数秒後にどうのような動きをするのかを予測することができます。相手の動きを0.数秒はやく知ることができれば何ができるでしょうか。飛んでくるボールを0.数秒はやく知ることができれば何ができるでしょうか。今回は、そんな未来予測に関する研究4本を厳選しご紹介します。
機械学習を用いて0.5秒後の人間の動きをリアルタイムに推定する体動予測システム「Computational Foresight」
Yuuki Horiuchi¹, Yasutoshi Makino¹, Hiroyuki Shinoda¹
¹The University of Tokyo, Bunkyo-ku, Tokyo, Japan
東京大学 篠田・牧野研究室は、Kinectから人間の動きを測定し、ニューラルネットワークを用いてリアルタイムに0.5秒後の人間の動きを推定するシステムを提案します。提案システムは、25個の人体関節を検出し時系列順に並べたデータを入力に、5層のニューラルネットワークで学習し0.5秒後の動きを予測します。上記GIFを見てもらえれば分かるように、ジャンプした後の着地部分に影が先に到達しているのを確認できます。
0.5秒後の相手の動きをリアルタイムに予測するdeep learningを用いた格闘訓練システム「FuturePose」
Erwin Wu¹, Hideki Koike¹
¹Tokyo Institute of Technology
東京工業大学による研究チームは、1台のRGBカメラによる画像から0.5秒後の相手の動きをリアルタイムに予測するdeep learningを用いた格闘訓練システムを提案します。本提案は、RGB画像の入力から相手の未来の姿勢を推定し提示することで格闘を訓練するシステムです。
具体的には、最初にResidual Networkを用いてRGB画像から相手の2D関節位置を推定します。続けて、推定した2D関節位置をLSTMネットワークの入力として時間的特徴を学習するために使用し、未来の2D関節位置を予測します。正確な動き予測を得るためにオプティカルフローを使用、中でも計算コストを下げるためにlattice オプティカルフローを使用します。
最後に、予測した2D関節位置を可視化するために3Dスケルトンモデルを構築しユーザに提示します。ユーザは、提示された未来の動きをする3DスケルトンモデルをVR HMDで体験しながら、格闘技の訓練をすることができます。
実験では、HTC Viveを装着したユーザに、パンチやキックの攻撃を回避してもらいます。提示される映像は、予測なし映像と予測あり映像(ARベースとVRベースの2種類)。30 fpsのビデオで15フレーム先を予測(0.5秒後を予測)します。結果、予測なしのユーザの平均応答時間は0.62秒に対して、予測ありはそれぞれ0.42秒および0.41秒と予測ありの方が速く動作し、相手のパンチやキックを回避できることを示しました。
また、オンラインビデオに本手法を適応することで、視聴者に対して動画内の人の動作予測を提示することも実証しました。これにより、例えばPK時でのゴールキーパーの動きや、ダンスの動きなど、スポーツやエンターテインメントなど幅広い分野での活用が期待されます。
バレーボールにおけるトスの動きから0.3秒後のボール軌道を予測するニューラルネットワークを用いた手法
論文:Prediction of Volleyball Trajectory Using Skeletal Motions of Setter Player
Shuya Suda(Graduate School of Information Science and Technology, The University of Tokyo)
Yasutoshi Makino(Department of Complexity Science and Engineering, The University of Tokyo / JST PRESTO Tokyo, Japan)
Hiroyuki Shinoda (Department of Complexity Science and Engineering, The University of Tokyo Tokyo, Japan)
東京大学とJSTさきがけによる研究チームは、バレーボールにおけるトスの動きに基づいて、0.3秒後のバレーボールの2次元的な位置を予測する手法を提案します。本システムは、深度センサ(Kinect v2)を用いて、トスをする動きに対して3次元骨格座標をセッターの正面から計測し、取得したデータを時系列順に並べたデータセットをニューラルネットワークの入力として使用します。ネットワークの出力と、セッターの左側面から計測した映像から検出した実際のボール軌道との誤差が小さくなるように学習します。機械学習ライブラリはChainerを用います。
結果、トスの動きが未学習のテストデータであったとしても、ボールの軌跡を高い精度で予測することを実証しました。また、下半身を入力するよりも、全身、あるいは腕部分のみを入力する方が、高い精度になることも実証しました。
さらに、画像から人物の2次元骨格座標を推定できる機械学習ライブラリOpenPoseを用いても、適切にボールの軌道予測ができることを実証しました。これにより、RGBカメラで撮影した映像からでも予測できる可能性を示しました。今後は、オリンピック等の世界的なスポーツ大会での実用化を目指すとしています。
ボールの未来軌道をARで先に視覚化する手法「Laplacian Vision(LV)」
論文:Laplacian Vision: Augmenting Motion Prediction via Optical See-Through Head-Mounted Displays
Yuta Itoh¹ Jason Orlosky² Kiyoshi Kiyokawa³ Gudrun Klinker⁴
¹, ⁴Technical University of Munich, Garching, Germany
²,³Osaka University, Osaka, Japan
ミュンヘン工科大学と大阪大学の研究チームは、動きのある物体の未来軌道を光学シースルーHMD(HoloLensなど)を介して提示するアプローチを提案します。周囲に取り付けた高速トラッキング用のセンサーと運動予測により、ユーザに跳ねる実際のボールが、次にどこへ落ちるかの軌跡をリアルタイムにAR表示します。