カリフォルニア大学バークレー校の研究者らは、異なるビデオ内の人物間の動きを転送する機械学習を用いた手法を発表しました。
論文:Everybody Dance Now
著者:Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros
本論文は、ソースビデオ内の人からターゲットビデオ内の人へ動きを転送した合成ビデオを生成する機械学習アーキテクチャを提案します。
本提案手法は、ソースビデオのフレームからポーズを検出し画像を生成、GAN(Generative Adversarial Networks)を用いて、ポーズと画像が生成した画像かどうかを区別、ポーズ画像からターゲット画像へのマッピングを学習します。ピクセルベースのパイプラインを介してこれらの対象間の動きをエンドツーエンドで転送します。
ポーズ検出には、OpenPoseが用いられており、身体だけでなく、顔と手のポーズキーポイントも抽出し顔と手も含めて合成画像を生成します。これらのことで、ビデオ内の人から別のビデオ内の人へ動きを転送することを可能にします。
Seamless Video