Seamless

Virtual Reality News

メニュー

Facebook AI Researchら、密集した人間の姿勢を2D画像から推定し、人の表面にテクスチャマッピングできるCNNを用いたシステム「DensePose」を発表

Facebook AI Research(FAIR)とINRIAの研究者らは、密集した人間の姿勢を2D画像から推定し、人体の表面にテクスチャをマッピングできる機械学習を用いたシステム「DensePose」を発表しました。

論文:DensePose: Dense Human Pose Estimation In The Wild
著者:Rıza Alp Guler、Natalia Neverova、Iasonas Kokkinos

本稿では、アノテーションを5万点のCOCO画像データから手作業で500万以上注釈したデータセット「DensePose-COCO Dataset」と、そのデータセットを用いて訓練する「DensePose-RCNN」を提案します。

DensePose-COCO Datasetでは、人体をパーツ領域に分割してから、3Dサーフェスモデルに対応する点を特定する2段階のアノテーションプロセスを用います。また、パーツごとに6つのプリレンダリングされた視点が用意されているため、効率的なインターフェースになっています。

これにより、高精度でありながら効率的に注釈データを収集することに成功します。収集の際には、「SMPL」と「SURREAL」を使用しています。

続けて、DensePose-RCNNアーキテクチャでは、画像ピクセルとサーフェスポイントとの対応を予測するために訓練されます。RoI Alignを含む「Mask-RCNN」をベースに、FCN(Fully Convolutional Network、完全畳み込みネットワーク )を用いる「DenseReg」と組み合わせることによる改良されたアーキテクチャを用います。

これらのことで、複数人が密集した2D画像から人体それぞれの3Dモデルを計算し、画像ピクセルを人体のサーフェス座標に関連付けることができるとします。

(左が入力画像で、右がDensePose-RCNN推定。スカートでも体の姿勢を正しく推定しているのが確認できる。)

本システムは、NVIDIA GeForce GTX1080 GPUを使用した場合、320×240イメージで25fps、800×1100イメージで4-5fpsで動作します。

コードとデータに関しては、こちらのサイトにて今後公開されます。

 

関連

Facebook、リアルタイムで体のポーズを検出し、人を背景から分離させる新しい機械学習フレームワーク「Mask R-CNN2Go」を発表。モバイル使用も可能 | Seamless

About

Seamless(シームレス)は、Virtual Realityの記事を主軸に更新しています。(詳細はこちら