Zero-Shot Visual Question Answering まとめ

お久しぶりの投稿です。
今回は、VQAに関する論文を紹介したいと思います。

使用した論文
【 Zero-Shot Visual Question Answering まとめ 】
Zero-Shot Visual Question Answering

Zero-Shot Visual Question Answering

 

VQAとは?

Visual Question Answering(VQA)とは,
ある画像とその画像に関する質問を入力したときに、適した回答を出すタスクです。

 

論文のモチベーション

VQAの問題で、データセットに依存していること
汎用性が低いこと
評価方法をトレーニングセットに含まれていない単語が含まれているものを使用したこと

最初の投稿は、すべてのテストインスタンス(質問と回答)にトレーニングセットに含まれていない単語が含まれているVQAの評価設定です。
How many giraffes are in the image ? の質問だと、giraffesという単語が入ってるので、それを数える機会を与えてしまっており、よい質問ではないです。

今回はこの問題に対応する手法を提案しています。

 

手法

その前にこの論文で頻出する「zero shot」という単語は、「見たことがない画像」と訳せるっぽいです。
https://github.com/arXivTimes/arXivTimes/issues/53

いかにしてVQAの汎用性を高めるのかを伝えていると考えています。
それを達成するため新しいデータセットとベースラインを提案しています。

データセット

Visual7Wというデータセットを再利用
新しい分割を定義しており、トレーニングデータには存在していない単語を検証、テストで少なくとも1つは使用しています。

ベースライン

最近流行のattentionは使っていないようです。
質問文の作成bには、BoWを使っています。

BoW
単語の構造は無視して、何の単語が含まれているかをチェックする。