Googleは、画像に対して技術面と審美面の両方で訓練できるCNN(Convolutional Neural Network)ベースの画像評価モデル「NIMA(Neural Image Assessment)」を論文にて発表しました。
本稿では、任意の画像に対して1から10(10が最高得点)の程度で評価の分布を生成し、スコアのそれぞれに尤度を割り当てるアプローチを提案します。
ユーザが技術的(ピクセルレベルの技術品質)に美しく、または審美的(美の本質)に美しく見えるような画像を予測するために訓練されたdeep CNNが紹介されます。
実験では、AVAなどの大規模データセットを使用して、NIMAが1から10までの基準で評価しスコアリングしたものが示されます。
(NIMAを使用してAVAデータセットを評価した画像、スコアが各画像の下に表示されている)
NIMAによるこれらの審美的ランキングは、人間の評価者の平均評点とよく一致し、人間の評価に近い品質スコアを予測していることを実証しました。 また、他のデータセットを使用しても同等の成果を示しました。
活用例として、画像の様々なタイプとレベルの歪みが表現された画像群を並べて比較するのに使用したりも提案されます。以下は、TID2013データセットを使用して採点したもの。
(NIMAを使用してTID2013データセットを評価した画像。様々な画像の歪みが比較できる)
また、別の論文(Learned Perceptual Image Enhancement)で提案されているように、審美的スコアを使用して、明るさ、ハイライト、シャドウなどのパラメータの美観的に最適な設定を見つけ画像補正することもできるとしています。以下の画像は、NIMAを使用して画像処理を行ったもので、左がインプット、右が画像補正後です。
(左がインプット画像で、右がスコアを利用して画像補正した画像。スコアが向上したのが確認できる)
関連
NVIDIAら、Conditional GANを用いて任意の画像から2048×1024高解像度のフォトリアリスティックな画像合成モデルを生成できる手法を論文にて発表 | Seamless