U-Net まとめ

今回紹介するのは、U-Netというモデルです。
セグメンテーションを行うためのモデルは多く論文など出ていますが、
今回紹介するU-Netは、医療系の画像で成果を出したモデルとして有名です。
またkaggleのコンペでたまに見かけますね。
医療系の画像は、画像の境界線がはっきりとしていなければいけないという条件があるのですが、
それをどのように工夫してるのでしょうか。

使用した論文
【 U-Net 】
https://arxiv.org/pdf/1505.04597.pdf

U-Net まとめ

概要

冒頭でも紹介したとおり、このU-Netは、医療系の画像で成果を出したモデルです。
ISBI challenge 2015という大会で、成果を出したみたいです。

構造

FCN(fully convolutional network)を修正したモデルになってます。
なので、全結合層はありません。
見た目は、下記で見ていただいたら分かる通り、U字型の構造になっています。
基本的に、3*3のConvolutional、2*2のmax poolingが使用されています。
活性化関数には、Reluを使用しています。
トータルで、23のConvolutional層があります。

特徴

アップサンプリング

このモデルの一番の特徴だと思っています。
アップサンプリングは、プーリングと逆の効果を持ち、次元をあげてくれます。
本来プーリングを行うと、次元が下がり、位置情報が不明瞭になるのですが、
そうなってしまうと、セグメンテーションのタスクにおいては、あまり良いとは言えません。

そこで、アップサンプリングを行うことで、位置情報を保持することができるのです。

データ拡張

FNCで修正した箇所として、1つ取り上げているのが、少ないデータ数でもデータ拡張を行うことで、
高い精度が出るようにしているのもこのモデルの特徴です。

感想

2015年に出たモデルですが、最先端のモデルは過去のモデルの考え方を応用しているものが多いと思うので、過去のモデルでも勉強すべきだなと思いました。
あと今まで読んだ論文の中で、一番読みやすいものだったので、論文読む練習したい人に最適だなとも思いました。
また時間できたタイミングで実装していきたいと思います。

参考にしたリンク集

Deep learningで画像認識⑨〜Kerasで畳み込みニューラルネットワーク vol.5〜
U-NetでPascal VOC 2012の画像をSemantic Segmentationする (TensorFlow)
ディープラーニング セグメンテーション手法のまとめ