Show, Attend and Tell

毎週読んだ論文の内容をあげていければと思います。
今週は、Show, Attend and Tell
内容としては、cnnとrnnを組み合わせて、画像に説明文を付与するというものです。
下記の論文を使用しています
https://arxiv.org/pdf/1502.03044.pdf

Show, Attend and Tell

実装の流れ

実装の流れは下記のようなイメージ

  1. Input Image
  2. CNN
  3. RNN with Attention
  4. Word by word generation

なので、EncoderがCNNになり、
DecoderがRNNになるイメージです

CNNでは、特徴ベクトルを抽出し、
RNNでは、特徴ベクトルを自然言語に変換している?という認識です

重要な用語

Soft Attention

下記参考にさせていただいたリンクには、下記のように記載してくれている
複数個のベクトルの重み付け平均を用いる方法をSoft Attentionと呼ぶ

論文の画像を見ると、白い部分が幅広く広がっているのがわかる
※画像のせていいかわからなかったので、のせていません

なので、自分の解釈としては、広く浅く

Hard Attention

一方、Hardは下記のような説明になっている
複数の情報源が選択される確率的抽出家庭において、その情報の'期待値(平均値)'を確率的に1つ選択している

これも論文の画像を見ると、softのときとは違い、
白い部分が一つの位置に集中しているのがわかる

なので自分の解釈としては、狭く深く

参考になったリンク集

http://yagami12.hatenablog.com/entry/2017/12/30/175113#ID_10-6