Speed/accuracy trade-offs for modern convolutional object detectors

今週2本目は、比較の論文をご紹介します。

最近は、物体検知も新しいモデルが次々に出てくるので、何を使うべきなのか正直言って難しい時がある。
Faster R-CNN、MASK-CNN、SSD、Yoloなどあげれば結構でてくる。
なので今回は、そのモデルを選定する際の基準を紹介しようと思う。

使用した論文
【 Speed/accuracy trade-offs for modern convolutional object detectors 】
http://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_SpeedAccuracy_Trade-Offs_for_CVPR_2017_paper.pdf

Speed/accuracy trade-offs for modern convolutional object detectors

概要

速度、メモリ、精度の良いバランスを生み出すために物体検出のモデルは何を選択すべきかという論文です。

モデルは、
– Faster RCNN
– R-FCN
– SSDを使用しており、

CNNの構造は、下記のうちいづれかを使用しています。
– VGG
– ResNet 101
– Inception V2
    (GogleLeNet)
– Inception Resnet
– MobileNet

速度と精度の結果

基本的に速度と精度はトレードオフです。
以下3つの部門で選ばれています。

最速は
SSD & MobileNet or Inceptionv2
最高精度は
Faster R-CNN & Inception Resnet
バランスが良かったものは、
R-FCN & Resnet101

メモリの結果

GPUとCPUで結果を出しています。
論文のグラフを見る感じ、
実行に一番メモリが必要なのが、Faster RCNN
ResNetは終了までに時間がかかる

参考にしたリンク集

https://qiita.com/GushiSnow/items/8c946208de0d6a4e31e7#faster-r-cnn

https://www.slideshare.net/takashiabe338/fast-rcnnfaster-rcnn