UTとFacebook AI Research、動画を活用して、モノラルオーディオをバイノーラルオーディオに変換するdeep learningを用いた手法を発表

テキサス大学オースティン校とFacebook AI Researchの研究チームは、動画を活用して、モノラルオーディオをバイノーラルオーディオに変換するdeep learningを用いた手法を発表しました。

論文:2.5D Visual Sound

著者:Ruohan Gao, Kristen Grauman
所属:The University of Texas at Austin, Facebook AI Research

本論文は、ビジュアルフレームに見られるオブジェクトとシーン構成を利用して、シングルチャンネルオーディオをバイノーラルオーディオに変換する技術を提案します。例えば、上図の動画では、左にピアノ、右にチェロを弾く人がいますが、通常のモノラルではどこから聞こえているか分かりませんが、本提案手法を用いると、音源の位置を感知しながら視聴することができます。

本提案手法は、Mono2Binauralと呼ぶフレームワークを使用します。モノラルオーディオとそれに付随するビジュアルフレームを入力とし、ResNet-18で視覚的特徴を抽出、U-NETでオーディオ特徴を抽出、オーディオビジュアル分析を実行し、ビデオの空間構成と一致するバイノーラルオーディオを推定します。

これにより推定されたバイノーラルオーディオ(2.5Dビジュアルサウンド)は、音源の位置を感じさせることができ、より没入感のあるオーディオ体験を提供できます。今後の課題としては、オブジェクトの位置特定と動きを取り入れ、シーンサウンドを明示的にモデル化する方法を模索する予定としています。

 

ABOUT

 本サイト(Seamless/シームレス)は、2014年に始めた先端テクノロジーの研究を論文ベースで記事にしているWebメディアです。山下が個人で運営し、執筆を行っています。現在は主に寄稿(ITmedia NEWS)と、Seamless Journalに専念しています。

連絡先:yamashita(at)seamless.jp
Subscribe:TwitterFacebookHatenaNewsPicks

ゲスト連載:プロジェクションマッピング技術の変遷 岩井大輔

 Seamless Journalとは、月額10ドルの課金で厳選した最新論文がほぼ毎日メールボックスに届くというものです。記事にならない気になる論文をお届けします。決済はPatreonを介して、クレジットカードおよびPayPalで行え、解約も同サービスからいつでも可能です。お申し込みはこちらから

ページ上部へ戻る