Semantic Image Synthesis with Spatially-Adaptive Normalization

論文リンク
https://arxiv.org/pdf/1903.07291.pdf
Github
https://github.com/NVlabs/SPADE

Semantic Image Synthesis with Spatially-Adaptive Normalization

 

論文概要

下記のようにセグメンテーションから実際の写真を生成するSPADEというモデルを紹介しています。
セマンティックレイアウト(下記の右側)をinputとし、実際の現実に近い画像を生成してしまいます。
あらためて見てもすごい。

すごい
Githubより引用

 

論文のモチベーション

従来の画像生成モデルでは、畳み込み層、正規化層と順番に情報が通っていきます。
その過程の中で、正規化層を通ることで意味のある情報がなくなってしまっています。
この問題を解決するために、正規化層において、活性化を調節する方法を提案している。

 

何を主張している論文なのか

新しく条件付きの正規化の方法である、 SPatially-Adaptive normalization(SPADE)提案しています。
これは非常にBatch正規化と似ています。

このモデルが成功した理由の一つにセグメンテーション情報の保存があります。
従来の画像生成モデルは、正規化されたInstance Normを使用しており、
どうもこの「正規化」が、セグメンテーションの情報損失の原因だと書かれています。
下記の図を見ると、pix2pixHDの画像が灰色っぽくなってしまっています。
これが正規化による情報損失であると論文では書かれています。
Image from Gyazo
論文より引用

一方、正規化なしでspatially adaptive modulationを通してみると、きれいな現実に近い画像が生成されていることがわかると思います。

そして下記が、SPADEの概要図です。
いくつかのResNet ブロックで構成されています。
Image from Gyazo
論文より引用

 

実験・実験結果

実験は、CRN、SIMS、pix2pixHDの画像生成モデルと今回提案したモデルを比較しています。
結果のとおり、今回紹介したモデルが一番良い結果となっています。
Image from Gyazo
論文より引用

今回データセットに関しては、5つ使用してますが、そのうちの一つであるCOCO-Stuffだけ紹介したいと思います。
COCO-Stuffは、COCOデータセットから生まれたもので、118,000枚の様々なシーンの学習データが含まれています。
CRN、SIMS、pix2pixHDなどの画像生成モデルの結果は良くないことがわかります。
しかし「Ours」の画像を見てみると、正解に非常に近い画像が生成できていることがわかります。
Image from Gyazo
論文より引用