UCバークレーやFacebookなど、スマートフォン撮影の動画に背景ボケを自動で入れる手法を発表。動画内の音声や動き等から適切な焦点箇所を予測

カリフォルニア大学バークレー校やFacebook Researchなどによる研究チームは、スマートフォンカメラで気軽に撮影する映像において、背景ボケ映像(被写界深度の浅い映像)の表現を文脈に合わせてリアルタイムに合成する機械学習を用いた手法を発表しました。

論文:Synthetic Defocus and Look-Ahead Autofocus  for Casual Videography

XUANER ZHANG, University of California, Berkeley
KEVIN MATZEN, Facebook Research
VIVIEN NGUYEN, DILLON YAO, University of California, Berkeley
YOU ZHANG, Chapman University, Independent Filmmaker
REN NG, University of California, Berkeley

後ろの犬が走り出すと、手前の人から犬に焦点が移動しているのが確認できる。

被写界深度が浅いとは、主役にピントがあたり背景がボヤける現象を指します。現状、スマートフォン内蔵カメラなどで撮影するカジュアルビデオ撮影において、被写界深度の浅い映像を表現するのは困難です。なぜなら、映画のように台本やカメラワークなどを考えて撮影しないので被写体がランダムに動くとフォーカスが困難になるからです。そこで本論文は、スマートフォンカメラなどで撮影する段取りなしのカジュアルビデオ撮影において、被写界深度の浅い映像を作成する手法を提案します。

本提案手法は、スマートフォンで撮影した被写界深度の深いビデオからリフォーカス可能な被写界深度が浅いビデオを合成的にレンダリングするアプローチを採用します。また、2つのモジュールからなるフレームワークを使用します。1つ目は、被写界深度の深いビデオから任意の焦点による被写界深度が浅いビデオをレンダリングできる「Refocusable Video Rendering (RVR)」。2つ目が、将来のビデオフレームにおいて「いつ、どこで焦点を合わせるべきか」を決定するための先読みするオートフォーカス技術「Look-Ahead Autofocus (LAAF)」です。

後者のLAAFでは、次のフレームにおいて焦点を維持するべきか、移動するべきかを決定するために学習します。具体的には、フレーム内の動き、顔、音声などの情報を検出し計算します。つまり、動いている動物やしゃべっている人などを予測し優先的に焦点を合わせにいきます。これにより、フォーカスすべき箇所を先読みし自動的に焦点を当てます。前者のRVRと組み合わせることで、被写界深度の深いビデオからオートフォーカスしながら被写界深度の浅いビデオに作り替えることを可能にします。