MITとIBM、映像内で何が起きているのかにラベル付けされた3秒動画の大規模データセット100万点を発表。AIシステムが動的な行動を理解する

CSAIL MITとIBM Researchの研究者たちは、AIシステムが動画を認識し理解するのに役立つ動画ベースの大規模なデータセット「Moments in Time Dataset」を公開しました。

本稿では、映像内のアクションやイベントにラベル付けされた3秒以内の動画が100万点あるデータセットを紹介します。例えば、以下の図を確認します。左に動画内の出来事が書かれたテキストが表示され、横一列にその出来事の3秒動画シーンが羅列します。

「Flying」であれば、ドローンが飛ぶ映像、スカイダイビングの映像、気球が飛ぶ映像、鳥が飛ぶアニメーション映像、など。「Climing」であれば、赤ちゃんが階段を登る映像、パンダが木に登る映像、ロッククライミングをする映像、子供がジャングルジムを登る映像、など。

そういった映像内で何が起きているのかに焦点を当てた事象をベースにしてラベル付けされたデータセットになります。抽象度が高いラベルに対応しているデータセットとも言えます。

3秒動画の検索はこちらから。

（ビデオ内のイベントを認識するためにニューラルネットワークが注目しているフレームの領域を示しています。「CAM：Class Activation Mapping」が用いられています。）

関連