MIT CSAILのRobot Locomotion Groupは、ピクセル単位のラベル付き高品質RGB-Dデータを生成するオープンソース・パイプライン「LabelFusion」を論文にて発表しました。
LabelFusion: A Pipeline for Generating Ground Truth Labels for Real RGBD Data of Cluttered Scenes(PDF)
本提案は、人の作業を最小限に任意のオブジェクトをラベル付き高品質RGB-Dデータとして迅速に生成することができ、このことでニューラルネットワークにおいてのオリジナルRGB-Dデータセットを大量に構築することができます。
実験では、Xtion RGB-DセンサーとElasticFusionが使用されます。RGB-Dカメラを使用して複数の視点からシーンを収集し3D再構成を生成、手動でアライメントを決定しICP(Iterative Closest Point)を用いてメッシュをフィッテイングします。
メッシュは、画像内のマスクとしてレンダリングされ、各ビューの画素ごとにラベル付けされたRGB-D画像を生成します。手動でするのは、3点の初期アライメントを決定するだけで後は自動で生成してくれます。
(パイプラインによって生成されたラベル付きデータの例:混雑したマルチオブジェクトの中、暗い照明の中、モーションブラー、異なる距離)
人の手を大幅に削減できる本提案では、ほんの数日でラベル付けされた352,000の画像と1,000,000を超えるラベル付きオブジェクトインスタンスを収集できたとしており、また、LabelFusionはオープンソースであり、パイプラインで生成されたサンプルデータセットも提供しています。
関連
単一のRGB-Dカメラを使用してより正確に動きを捉えリアルタイムにレンダリングするメソッドを提案の論文が登場 | Seamless