MIT、音楽ビデオから特定の楽器音だけを分離する教師なし学習アーキテクチャ「PixelPlayer」を発表

MITの研究者らは、音楽ビデオから、特定の楽器の音だけを分離するニューラルネットワークを用いた手法「PixelPlayer」を発表しました。

論文：The Sound of Pixels
著者：Hang Zhao, Chuang Gan, Andrew Rouditchenko, Carl Vondrick, Josh McDermott, Antonio Torralba

本稿は、動画から音を生成する画像領域を見つけ出し、特定の楽器の音を分離する教師なし学習アーキテクチャを提案します。訓練したシステムは、特定の楽器をピクセルレベルで識別したり、それらの楽器に関連付けられたサウンドを抽出することができます。

本アーキテクチャは、ビデオアナリシスネットワーク、オーディオアナリシスネットワーク、およびオーディオシンセサイザネットワークで構成されています。

訓練には、MUSICデータセットを用いており、実験では、20以上の一般的に見られる楽器の音を識別できることを示しました。データセットとコードの公開はComing soon。