NVIDIA、物体検出を効率的に学習するために、シーンの構造とコンテキストを考慮した訓練用合成データを生成する手法を発表。実データに匹敵する結果

NVIDIA Researchの研究者らは、オブジェクト検出によるDeep learningの効率的な訓練のために、シーンの構造とコンテキストを考慮した合成データを生成するシステムを発表しました。

論文:Structured Domain Randomization: Bridging the Reality Gap by Context-Aware Synthetic Data
著者:Aayush Prakash, Eric Cameracci, Shaad Boochoon, Gavriel State, Mark Brophy, Omer Shapira, David Acuna, Stan Birchfield

オブジェクト検出のためのDeep learningを訓練するには、膨大な量のラベル付き訓練データが必要になりますが、手作業で訓練データにラベリングする作業は面倒で時間もかかります。

そこで、本論文では、訓練するための合成データを生成するStructured Domain Randomization(SDR)という手法によるシステムを提案します。実データではなく、シーンの構造とコンテキストを考慮した合成データで訓練することで効率的な学習を行います。

SDRによって生成された画像は、実際の画像上の物体検出のような知覚タスクのためにニューラルネットワークを訓練するために使用することができます。これらの合成データで使用するレーン、車、歩行者、道路標識、歩道などのオブジェクトは、位置、テクスチャ、形状、色、照明パラメータなどをランダム化することで、多様な合成シーンを生成することを可能にします。

本提案手法で生成した合成データによる訓練結果は、実データに匹敵する結果を報告します。

上図では、合成データ(DR、SDR)と実データ(BDD100K、KITTI)の比較を表にしています。SDRは、KITTIには及ばないもののBDD100Kよりかは優れていることを実証しました。さらに、KITTIとSDRを組み合わせたデータは、実際のKITTI単独よりも優れていることも実証しました。

 

アーカイブ

ページ上部へ戻る