メリーランド大学とGoogle、ネット上の画像群を使用して観光地の3Dシーンをより現実的に再構築する機械学習フレームワークを発表

メリーランド大学とGoogleによる研究チームは、ネット上にアップロードされている大量の異なる視点画像を使用して、観光地の3Dシーンを生成するより現実的にレンダリングできる機械学習フレームワークを発表しました。

論文:Neural Rerendering in the Wild

Moustafa Meshry1, Dan B Goldman2, Sameh Khamis2, Hugues Hoppe2, Rohit Pandey2, Noah Snavely2, Ricardo Martin-Brualla2

1University of Maryland, College Park      2Google Inc.

異なる角度や距離から撮影した観光地のランドマーク画像群から3Dモデルを生成する研究はいくつかありますが、結果として得られる点群データ(ポイントクラウド)やメッシュから生成されるレンダリングは現実とはやや離れています。

そこで本論文では、公に入手可能な写真を唯一の入力に、さまざまな照明条件下で非常にリアルな3Dシーンを生成する機械学習を用いたアプローチを提案します。提案手法は、点群データをベースに構築するアプローチです。具体的には、入力画像からdeep buffer(ピクセル単位のアルベド、法線、デプス、セグメンテーションなどの情報が含まれる)を生成し、リアルな画像をレンダリングするためにマルチモーダル画像変換モデルを学習します。

モデルは、外観の照明条件(季節や時間帯など)や視点、歩行者や自動車のような一時的なオブジェクトも考慮しているため、さまざなな条件下のシーンを生成することができます。