グリーンバック不要で前景を精密に抜き出す、深層学習を用いたAlpha Matting技術「HAttMatting」

 大連理工大学、 大連大学、鄭州大学、北京工商大学による研究チームが開発した「Attention-Guided Hierarchical Structure Aggregation for Image Matting」は、1枚の画像から被写体である前景を精密に抽出するAlpha Matting技術だ。

本手法の出力結果

説明動画 Our Video

本記事の内容を映像で見たい方はこちらから。

Alpha Mattingとは

 グリーンバック等の特殊な撮影環境を必要とせず、自然状態の画像から前景を抽出し背景と分離するタスクをAlpha Mattingと呼ぶ。画像から前景のAlpha値を抽出する処理をMattingと呼び、 Alpha値を各画素に持つ画像をAlpha Matteと呼ぶ。

Trimapを用いた既存研究

 Alpha Mattingは、元となる画像とTrimapと呼ばれる中間データを用いる手法が一般的である。Trimapとは、前景であろう領域に白色、背景であろう領域に黒色、どちらか判断できない、または細かくて白と黒では塗り分けられない領域を灰色で塗り分けたものである。このTrimapを用いて、画像からAlpha Mattingを行う研究として、過去にDeep Image Matting [Xu et al. 2017] がある。

(左)入力画像(中央)Trimap(右)Alpha Matte
[Xu et al. 2017]

 この研究では、転移学習を用いた粗いAlpha Matteを生成するCNN(Convolutional Neural Network)モデルと、粗いAlpha Matteをより細かく生成し直すモデルの組み合わせで学習を行い、高精度にAlpha Mattingを実現させている。しかしながら、この手法はTrimapに依存している。Trimapは煩雑なラベリングを手作業で行うことが多く、実用上コストが高いのが現状である。

Trimapを使用しない既存研究

 Trimapを使用しない手法では、A Late Fusion CNN for Digital Matting [Zhang et al. 2019] がある。これは、前景分類と背景分類のために2つのデコーダブランチを持つ完全畳み込みのセグメンテーションネットワークで、1枚のRGB画像を入力に、前景のAlpha Matteを予測する。しかしながら、セグメンテーションが困難になると、精度も低下する。

[Zhang et al. 2019]

本手法

 本手法では、Trimapや人の操作を必要とせずに、1枚のRGB画像からAlpha Matteを予測するエンドツーエンドのネットワーク「Hierarchical Attention Matting Network」(HAttMatting)を提案する。

 Alpha Mattingは、基本的に前景の特定と分離という2つの要素がある。既存手法ではユーザーが追加入力で前景を特定し、低次の情報を用いた手法で分離するのが一般的だった。

 本手法では、前景の特定と分離において、高次の抽象的な意味的特徴と、低次の外観的な細部特徴の両方を捉えるための階層的なattention機構で行う。最後に、これにより出力した結果を、Patch GANを参考にした識別ネットワークを利用して、Alpha Matteの視覚的品質を向上させている。

本手法のアーキテクチャ

 

 これにより学習したモデルは、ユーザーの前景指定と中間データのTrimapを必要としない、Alpha Mattingネットワークを実現する。出力結果を既存の手法と比較し、定量的にも定性的にも良好な結果を示した。

本手法の出力結果
既存の手法と比較した出力結果の図

 また、もう一つの成果として、59,600枚の訓練用画像と1000枚のテスト画像からなる大規模なAlpha Mattingデータセットも作成した。これは多様な前景オブジェクトを持つ最大のAlpha Matting データセットであり、本手法の安定性をさらに向上させた。

Alpha Matting データセット

 

ページ上部へ戻る