Samsung AI Center、HSE University、スコルコボ研究所による研究チームが開発した「HiDT(High-Resolution Daytime Translation Without Domain Labels)」は、画像から画像への変換(Image-to-image translation)で昼夜のタイムラプス動画を高解像度で生成する学習ベースのシステムだ。
ある画像からある画像への変換を行う教師なし学習ベースのフレームワークは、Image-to-Image Translation with Conditional Adversarial Nets [Isola et al. 2017] などで実証されている。ここでいう画像変換とは、画像をあるドメインから異なるドメインへ変換するアプローチを指す。ドメインとは同じ属性(特徴)を持つ画像の組を指す。
単一のモデルで異なる複数のドメインに変換できることもStarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation [Choi et al.2018] などで実証されている。
これら画像から画像への変換アプローチを応用して昼夜のタイムラプス動画を生成するのが本研究の目的となる。しかしながらこれらアプローチは、学習時だけでなく推定時にもドメインを必要とするため、ドメイン定義が困難な昼夜のタイムラプス動画の作成は難しい。
そこで今回提案する研究では、学習中または推定中にもドメインに依存しない画像から画像への変換モデルを提案することで昼夜のタイムラプス動画の作成を可能にする。
モデルは元の画像の細部を保存するため、Skip Connections(恒等写像)を設けることでエンコーダデコーダのアーキテクチャを強化。学習に使っていないスタイル画像でも変換が可能な「AdaIN」を用いた畳み込みブロックを追加導入し、Skip Connectionsに適用している。
さらに本研究は高解像度での変換に挑戦している。直接学習することは計算量が高くなるため、中解像度で学習した変換ネットワークを高解像度画像に適用できるモデルを提案している。
これにより1枚の画像からスタイル変換したもっともらしい風景画像、昼夜のタイムラプス動画を生成できる。
また絵画のデータセットで訓練されたHiDTモデルは、芸術的なスタイルの転送もできることを実証した。