R 2CNN++: Multi-Dimensional Attention Based Rotation Invariant Detector with Robust Anchor Strategy

【R2CNN++: Multi-Dimensional Attention Based Rotation Invariant Detector with
Robust Anchor Strategy】
https://arxiv.org/pdf/1811.07126.pdf

R 2CNN++: Multi-Dimensional Attention Based Rotation Invariant Detector with Robust Anchor Strategy

 

論文のモチベーション

Faster R-CNN、SSdの¥などの画期的なモデルの登場で、コンピュータビジョンの分野は大きく前進したが、
航空写真を使っての検出はまだブレイクスルーが来ていない。

この理由は、下記は様々ですが、下記具体例です。
1. 検出する物体が多すぎる
2. 検出する物体が小さい
3. 検出する物体が密集する場合がある(車や船など)

 

何をしたいのか

航空写真を使っての物体検出

 

どんな工夫をいているのか[モデルの構成]

今回のモデルは、Faster R-CNNをベースにモデルを考えています。

全体のモデルの流れ

1. IF-Net
2. MDA-Net
3. Rotation Branch

下記がモデルの全体像
Image from Gyazo

※上記3つに分けてますが、論文では、1、2を1つの工程とし、合計で2つの工程として紹介しています。

IF-Net

小さい物体を検出するための工夫しているみたいですが、まだ理解しきれていません……

下記がIF-Netの全体図になります。
Image from Gyazo

MDA-Net

SENet(Squeeze-and-Excitation Networks)をベースに使っており、構造は、図からでも分かるとおり、主に2つに分けられます。
ここでは、一つだけ紹介させていただきます!

SENetについては、下記を見ていただけると!
https://qiita.com/daisukelab/items/0ec936744d1b0fd8d523

Image from Gyazo

pixel attention networkでは、
Inceptionを通った後、Conv層でsaliency map(顕著性を表すもの)を学習させている?
saliency mapは下記のような画像みたいです。
Image from Gyazo

そしてその後、sotmaxをかけて、下記のアウトプットが得られます。
小さい物体でも特徴とらえていることがわかります。
Image from Gyazo

Rotation Branch

ここは、Faster R-CNNのRPNと同じ構造になっていると思います。

 

評価

データセット

データセットは、DOTAという航空写真を集めたものを使用しています。
ちなみにフレームワークは、tensorflowを使用しています。

結果

なんか恐ろしいほど、できている。
怖い….ww
Image from Gyazo

 

感想

中国の北京大学がこの論文出してるけど、中国のレベルの高さがうかがえます。
航空写真での検出でこんなに精度よく検出してくるなんて…
まだまだ精進せねば。