ペパボ研究所 研究員/プリンシパルエンジニアの三宅(@monochromegane)です。 2020年7月10日に開催された、第50回インターネットと運用技術研究会(IOT50)で、ペパボ研究所から発表を行いましたので論文(研究会予稿)とスライドと共に紹介します。
非定常な多腕バンディット問題における変化検出アプローチの線形モデルへの拡張
ECサイトなどのWebサービスにおける情報過多問題を解決するため、多くのWebサービスでは推薦システムが導入されています。 推薦を受ける側である利用者の嗜好は未知であることから、推薦システムには、利用者の嗜好を蓄積し、その時点で有用と考えられる情報を活用した提案を行う一方で、より有用な提案につながる情報の探索が求められます。 この活用と探索のトレードオフの最適な解を求める問題は、多腕バンディット問題として知られており、同問題の解法の推薦システムへの応用が報告されています。 多腕バンディット問題は、ある確率分布に従い報酬を生成する腕と呼ばれる複数の候補から得られる報酬を最大化する問題ですが、基本的な多腕バンディット問題では、報酬の確率分布が常に同じであるという仮定が置かれています。 推薦システムにおいて腕となる、利用者の商品に対する嗜好傾向は様々な要因によって変化することから、できるだけ多くの文脈と報酬分布の変化を考慮できることが望ましいと考えられます。
本研究では、従来の多腕バンディット問題の解法が個別に考慮していた文脈と報酬分布の変化に対して、同時に対応できるよう、これらの解法を拡張します。 また、解法を単純に拡張した場合に発生する課題について改善を図りました。 提案手法では、報酬分布の変化に対する従来解法であるS-TS-ADWINを複数の文脈に対しても利用できるように拡張します。 ここで、要因の組み合わせ数によらない単一の値の推移のみから報酬分布の変化を検出・追従することで、 従来の解法を利用可能でありながら、汎用的でメモリ効率に優れた解法としています。 また、記録された観測値の数の減少に合わせて探索が重視されるよう動的にハイパーパラメータを調整することで、従来の解法と比較して積極的な活用と探索の切り替えを行えるようになりました。
評価では、文脈と報酬分布の変化が発生する状況のシミュレーションを行い、従来解法と比較して性能が向上することを確認しました。
研究会予稿
スライド
まとめ
第50回インターネットと運用技術研究会(IOT50)では、推薦システムの利用者の嗜好の変化への追従性を向上する研究についてペパボ研究所から発表を行いました。 当日の発表では、和を用いた単一の値の利用について、理論的な裏付けや情報の欠落に関する議論を活発に行うことができました。 正規化を行い方向データの変化として扱ってはどうかという有意義な意見もいただくことができ、早速検討を開始しているところです。
研究報告を行うことで、区切りがつきにくい研究において、現時点までの考えをまとめ、その内容を土台にじっくり議論することができるため、今後も積極的に報告していくとともに他の報告に対してなるべくフィードバックができるようにしたいと思える有意義な会でした。 今後も、第51回インターネットと運用技術研究会(IOT51)がオンラインで開催されますので、エンジニアの皆様もぜひご参加ください。
【PR】パートナー積極採用中!
ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。