Cloudwalkなど、CNNとUVマッピングを組み合わせて1枚の2D画像から人の3Dモデルを生成する中間タスクを省略したフレームワーク「DenseBody」発表

Cloudwalkと上海交通大学による研究チームは、Convolutional Neural Network(CNN)とUVマッピングを組み合わせて、1枚の2D画像から人体3Dモデルをより効率的に推定するエンドツーエンドのフレームワーク「DenseBody」を発表しました。

論文:DenseBody: Directly Regressing Dense 3D Human Pose and Shape From a Single Color Image

著者:Pengfei Yao, Zheng Fang, Fan Wu, Yao Feng, Jiwei Li
所属:Cloudwalk, Shanghai Jiao Tong University

単一のRGB画像から人体の3D姿勢および形状を予測する既存の手法は、2D姿勢推定や2Dセグメンテーション、ヒートマップやマスクなどのサブタスクを中間に計算する2段階プロセスのアプローチを採用しています。しかしながら、これら中間サブタスクを計算するニューラルネットワークの出力品質は最終的なパフォーマンスに大きく影響します。そこで、本提案では2段階プロセスを1段階プロセスに省略し、中間サブタスクに依存しない最適化したフレームワークを提案します。

本提案は、中間サブタスクに頼らないために、UVマッピングを用いるアプローチを採用します。UVマッピングは、テクスチャのレンダリングによく使用されますが、本研究では体表面の形状を表現するのに使用します。ネットワークには、単一RGB画像から身体形状へのマッピングを直接学習するエンコーダ – デコーダネットワークを訓練します。

結果、提案された方法はHuman3.6M、SURREAL、UP3Dのデータセットで高い精度を報告し、本アーキテクチャが中間サブタスクを使用することなく単一画像から3D人体姿勢および形状推定できるシンプルで効率的なフレームワークであると実証しました。