Google、シーン内の人とカメラの両方が移動していても1台の単眼カメラから深度を予測するdeep learningを用いた手法を発表

Googleによる研究チームは、単眼カメラと人物の両方が動いているシーンにおいて深さを推定するdeep learningを用いた手法を発表しました。

論文:Learning the Depths of Moving People by Watching Frozen People

著者:Zhengqi Li Tali Dekel Forrester Cole Richard TuckerNoah Snavely Ce Liu William T. Freeman
所属:Google Research

左が入力画像で、右が本モデルを用いて予測した深度マップ

本論文は、1台のカメラにおいてシーン内の人物とカメラの両方が自由に動いている場合でも正確な高密度深度を予測するdeep learningを用いた手法を提案します。

データセットは、MannequinChallenge(マネキンチャレンジ)をしているネットビデオから構築しました。マネキンチャレンジとは、マネキンの真似(自然なポーズでフリーズ)をしている人たちによるシーンをカメラが巡回し撮影したビデオのことで、一時ムーブメントになりました。このデータセットを用いてモデルを訓練します。

具体的には、RGB画像、人領域のマスク、環境深度(人以外の領域)を取得し、環境と人間の両方の画像にわたって深度マップを出力するネットワークを設計し、訓練します。環境深度は、2つのフレーム間の運動視差を使用し計算されます。

実験では、複雑な人間動作(歩行、走行、ダンスなど)を描写するビデオで行い、高い精度で深度を予測できることを実証しました。このモデルを用いて予測された深度マップで映像に様々な視覚効果を加工できます。例えば、ぼかし領域のリアルタイム操作、オブジェクトの除去と挿入、ビューの3D化などを可能にします。

ABOUT

 本サイト(Seamless/シームレス)は、2014年に始めた先端テクノロジーの研究を論文ベースで記事にしているWebメディアです。山下が個人で運営し、執筆を行っています。現在は主に寄稿(ITmedia NEWS)と、Seamless Journalに専念しています。

連絡先:yamashita(at)seamless.jp
Subscribe:TwitterFacebookHatenaNewsPicks

ゲスト連載:プロジェクションマッピング技術の変遷 岩井大輔

 Seamless Journalとは、月額10ドルの課金で厳選した最新論文がほぼ毎日メールボックスに届くというものです。記事にならない気になる論文をお届けします。決済はPatreonを介して、クレジットカードおよびPayPalで行え、解約も同サービスからいつでも可能です。お申し込みはこちらから

ページ上部へ戻る