MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE まとめ

Attention

NLPの学習を最近はじめました。
なので、古いですが、Attentionに関する論文をまとめておきたいと思います。
NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

 

論文概要・モチベーション

seq2seqのEncoder Decoderのモデル構成では、Encoderの入力が固定長ベクトルであることが課題でした。
理由は、Encoderに渡される文章が長文になった場合でも決められたベクトルにおし込まなければいけないためです。

それを解決しようとしたのが、この論文になります。

 

内容

モデル構造は、encoderには、 bidirectional RNN(双方向RNN)、そしてdecoderを使用しています。
bidirectional RNNは、RNNのforwardとbackwardの2つの構造をもっています。
forwardで順序通り、シーケンスを読み、backwardで逆の順番に読む込みます。
こうすることで、両方向の情報を集約することができ、バランスのとれた情報がエンコードされることになります。

提案したモデル構造により、文章によって、ベクトルの長さを変え、
文章のすべてを固定長ベクトルに符号化する必要がなくなり、モデルは次のターゲットの単語の生成に関連する情報にのみ焦点を合わせることができるようになりました。

Image from Gyazo
論文より引用

 

実験・結果

実験は「WMT ’14」というデータセットを用い、
タスクとしては、英語からフランス語に変換するするタスクを実施しています。
また比較するモデルは、RNN(encoder, decoderモデル)と今回論文で紹介したモデルで比較を行っています。

下記のグラフのBLEUスコアを見てみると、論文で提案されたモデルが長文でも制度を維持できていることがわかります。
Image from Gyazo
論文より引用

 

英単語

mechanism of attention

アテンション(注意機構)

align

並べる

 

参考にした記事

最近のDeep Learning (NLP) 界隈におけるAttention事情