チェコ工科大学とSnapによる研究チームは、スタイル見本画像を動的な顔へリアルタイムに転送する機械学習を用いた手法「FaceStyleGAN」を発表しました。
論文:Real-Time Patch-Based Stylization of Portraits Using Generative
Adversarial Network
著者:D. Futschik, M. Chai, C. Cao, C. Ma, A. Stoliar, S. Korolev, S. Tulyakov, M. Kucera, D. Sýkora
所属:Czech technical university, Snap, Inc.
本論文は、パッチベース合成法[FJS∗17]と画像間変換ネットワークの変形を学習するためのConditional GAN(conditional generative adversarial network)を組み合わせて人間の肖像画のための転送アルゴリズムを提案します。既存研究のパッチベース合成法は、被写体のアイデンティティを維持しながら、スタイル見本画像の豊かさを保持し動的に表現する技術です。本提案は、この技術をベースに消費者向けGPUでリアルタイムの高速処理を検証します。
ネットワークは、人間の顔のカラー画像とそれらの様式化された対応物との間のマッピングを学習します。C ++とPythonフレームワーク「PyTorch」を使って実装し、スタイルごとに512×512の解像度で5124個の様式化された顔画像のトレーニングデータセットを作成します。作成したデータセットを使用して、画像間変換ネットワークを訓練します。
結果、パッチベース合成法の出力に匹敵するか、より視覚的に満足できる結果を生み出すことに成功しました。これらは消費者向けGPU(GeForce RTX 2080 Ti)で駆動し、リアルタイム(15フレーム毎秒)に転送することができます。この利点により、ライブビデオストリームに高品質スタイルの転送を実装することを可能にします。さらに、本ネットワークアーキテクチャを256×256の解像度に(各層のフィルタ数を減らすことで)縮小し、モバイル機器でも視覚的な品質を大幅に損なうことなくインタラクティブな応答を実現します。