A Unified Feature Disentangler for Multi-Domain Image Translation and Manipulation まとめ

https://arxiv.org/pdf/1809.01361.pdf

実装されたコード
https://github.com/Alexander-H-Liu/UFDN

A Unified Feature Disentangler for Multi-Domain
Image Translation and Manipulation

 

論文のモチベーション

それぞれドメインが異なる画像に対して、ドメインの不変の表現を学習するためのモデルを作りたい。
この特徴表現(representation)というのが何を際しているのか理解できていない….
特徴量のことなのかな。
少しわかるまで特徴表現と記載しておきます。

何を主張している論文なのか

ドメインが異なる画像の不変な特徴表現を学ぶためのモデルである、
Unified Feature Disentanglement Network(UFDN)という新しいモデルを提唱しています。

どんな工夫をしているのか

画像出力までの流れ、論文より引用
Image from Gyazo

このUFDNでは、不変のドメイン特徴表現を抽出することを目標とし、その後特徴表現を使って、画像を生成します。
そしてその画像はドメインの変換などを自由に行うことができます。
すげーーー。

モデル構造図、論文より引用
Image from Gyazo

そしてそのモデルの構造は、主に2つのパートに分かれています。
上記モデル構造図をベースにすると、Pixcel SpaceとFeature Spaceに分けることができます。
EncoderとGeneratorは2つのSpaceをまたがって存在しています。

Self-supervised feature disentanglement

異なるドメインのdisentangled representationを獲得するために、VAEの構造ををベースにしています。
ただこれだけだと、disentangleドメイン情報は取得できないらしく、 ドメイン固有の情報を削除するために、モデルを拡張する必要があります。
そしてDvを使用することでそれを解決することができるようです。

Adversarial learning in pixel space

VAEアーキテクチャはぼやけた画像を生成する傾向があるようで、
その解決策として、Dxを導入しています。
このDxは合成画像の画質を向上させるだけでなく、潜在空間からドメイン情報を取得する能力も向上させています。

 

感想

大きな流れがまだ理解しきれていない。
コードを使いながら徐々に理解していこう。

実務で使うとしても、どういう用途があるのかがまだわからない……
GAN関係全般なんだけど、実務で使うとなると、どういうふうにプロジェクトに取り入れていくべきなのかがまだ見えていない。

わからなかったた単語

twofold

2通り

latent

潜在的