Convolutional Neural Networks with Alternately Updated Clique まとめ

やっと最近論文を読むのがなれてきました。
15本読んだくらいから、少し読むべきところがわかってきたからかな。

今週2本目は、CNNを改造した最新の構造を紹介します。
その名も「CliqueNet」です。

使用した論文
【 Convolutional Neural Networks with Alternately Updated Clique まとめ 】
Convolutional Neural Networks with Alternately Updated Clique

CliqueNet

この論文では、新しいCNNの形が提唱されています。
その名前が、CliqueNetです。
このCliqueNetは、RNNとAttentionの仕組みを取り入れた新しいCNNの形となっています。

 

構造と特徴

Clique Netは、ここで2つの特徴に分けることができます。

CliqueBlock

1つ目は、機能の最大化を可能にできる交互に更新される**CliqueBlock**です。
CliqueBlockは、それぞれの層をinput、outputの層にすることができ、
各層は、更新された層からのフィードバック情報も常に受け​​取ることができます。
こうすることで、情報の流れの最適化を行っています。

multi-scale feature strategy

2つ目は、multi-scale feature strategyです。
論文では、2つのステージについて言及があります。
これをStageⅠとStageⅡと読んでいます。
イメージは下記になります。

StageⅠでは、すべての層を初期化するために使用されます。

StageⅡでは、Attentionの機能によって、より高度な視覚情報を取り入れることができている?
そしてそれを各ブロックの入力層に連結し、グローバルプーリング後に損失関数にアクセスしている。

 

Extra Techniques

論文では、上記構造に追加で、さらなる精度向上を目指し、いくつかのテクニックを提案しています。

Attentional transition

チャネル単位で、Attentionの仕組みをtransition層に組み込んでいる。
transition層は、Conv層とPooling層の2つの層で成り立っている。

Bottleneck

これは、パラメータ数を下げるための手法です。
各ブロック内の3×3Convカーネルを1×1に置き換えて、中間層を生成しています。

Compression

モデルのコンパクトさを向上させるために使用します。
transiiton層内のフィルタの数を圧縮する代わりに、損失関数にアクセスされるフィーチャ、つまり入力レイヤと連結されたStageⅡのみを圧縮しています。
圧縮されたモデルは、グローバルプーリング前に1×1のカーネルサイズを持つ余分な畳み込みレイヤーを持っており、
これは、モデルのコンパクトさを向上させ、最終フィーチャの次元を適切な範囲に保つために、フィルタの数を半分にすることができます。

 

わからなかった単語

bidirectionally

双方向

incorporate

組み込む

circulated

循環される

alternately

交互に

 

感想

時間内に論文をまとめるのは本当に難しいな。
次々にComputer Vissionの知識がアップデートされていくのを感じる。
けどその流れが早すぎて、ついていくのもゼーハー言ってる。