Deriving User- and Content-specific Rewards for Contextual Bandits

論文リンク
Deriving User- and Content-specific Rewards for Contextual Bandits

Deriving User- and Content-specific Rewards for Contextual Bandits

 

論文概要

音楽ストリーミングサービスにおいて、どの音楽をおすすめとして出すのかは非常に重要です。
この論文では、共クラスタリング(co-clustering)と報酬を使用し、Streaming rateを改善しました。

共クラスタリングについては下記を見ていただければと思います。
ぞくパタ最終回: 13章「共クラスタリング」

bandit algorithm

データに基づいた意思決定手法の一つです。
よくレコメンドに使用されているようです。知らなかった….

詳細は、下記をみればよいと思います!
A/Bテストよりすごい?バンディットアルゴリズムとは一体何者か

上記記事の下記例えが非常にわかりやすかった。

Webアプリケーション開発の文脈に置きかえると、5つのデザインと1000人のユーザがいるとき、どのようにユーザを分配すれば最も効果的かを考える、ということになる。

 

論文のモチベーション

bandit algorithmの精度を改善し、Streaming rateを改善する。

 

何を主張している論文なのか

共クラスタリングと報酬を使って、ストリーミングのレコメンド機能の精度を向上させている。

共クラスタリング

何と何をクラスタリングしているかについてです。
今回の提案では、ユーザー(user cluster)と再生リスト(playlist cluster)で行っています。

報酬

3つ紹介されています。
適切な報酬の設定がユーザーの満足度につながりエンゲージメントを高めます。
それぞれエンゲージメントを設定します。

平均報酬(Mean-based reward)
用意したデータセットのストリーミングの時間よりも少なくとも同じくらい音楽を再生しているかを指標にしている
ストリーミングの平均音楽再生時間は約23分ほどです。

Image from Gyazo
論文より引用

追加報酬(Mean-based reward)
ストリーミング時間が平均とどのくらい異なるか(ここでは、標準偏差を使用)

Image from Gyazo
論文より引用

累積報酬(Mean-based reward)
うーん……

報酬という単語が出てきたので、強化学習に関する記事は下記がわかりやすいです。
ゼロからDeepまで学ぶ強化学習

エンゲージメントについては下記がいいかな。
エンゲージメントとは?TwitterやFacebookでユーザーとの繋がりを強めよう

 

実験・実験結果

平均報酬が一番Stream rateが良く、今回提案されている共クラスタリングのStream rateも良いことがわかります。
Image from Gyazo
論文より引用

 

わからなかった単語

post-click

クリック後