The Marginal Value of Adaptive Gradient Methods in Machine Learning まとめ

勾配降下法といえば、Adamが一番有名かつ、一番使用されていると思います。
しかし、Adamがどんなときでも有効かといえばそうではありません。
今回紹介する論文では、「勾配降下法はAdamでいいじゃん」の考えをもう一度考え直すよいきっかけとなればと思います。

使用した論文
【 The Marginal Value of Adaptive Gradient Methods in Machine Learning 】
The Marginal Value of Adaptive Gradient Methods in Machine Learning

The Marginal Value of Adaptive Gradient Methods in Machine Learning まとめ

イントロ

結論汎用化については、Adamよりも、SGDのほうが向いているよという趣旨の論文です。

実験内容

今回は、4つの学習問題に対して、
SGDとHB、もしくは、AdaGrad, RMSProp と Adamを比較した結果を記載しています。
学習問題は、下記の通りです。

  • Deep Convolutional
  • 2-Layer LSTM
  • 2-Layer LSTM + Feedforward
  • 3-Layer LSTM

Deep Convolutional 結果

この実験では、VGG + Batch Normalization + Dropoutを使用しています。
実験1つ目では、テストエラーに関してSGDが一番よい結果でした。
下記の図を見ればわかるとおり、SGDが一番エラーが低いことがわかります。

Character-Level Language Modeling 結果

おそらく、「2-Layer LSTM」のところを指している。
結果は、またまたSGDが一番よい結果でした。
論文の図を見ると、確かにSGDが一番エラーの値が低いことがわかります。
ここでは、AdamよりもRMSPropの結果のほうが良かったなど、意外な結果も出ています。

Constituency Parsing:Discriminative Model 結果

おそらく、「2-Layer LSTM + Feedforward」のところ。
結果は、テストエラーでまたまたSGDが一番よい結果でした。
Adamは早い段階でかなりよい値が出ていましたが、その後失速する形となっています。

Constituency Parsing:Generative Model 結果

「3-Layer LSTM」のところ。
ここでも結果は、SGDが一番良かったです。

わからなかった単語

surpass

凌ぐ

attain

達成する

erratic

不安定な

まとめ

今回は総じて、SGDを使用したほうが、Adamよりも結果が良かったです。
Adamばっかり使わずに、いろいろ試してみよう!!