IEEE COMPSAC 2024で重み付き逐次ガウス過程回帰モデルを用いた多腕バンディット方策について発表しました

2024-07-05

ペパボ研究所研究員／プリンシパルエンジニアの三宅(@monochromegane)です。 2024年7月2日から4日に渡って大阪で開催されたIEEE COMPSAC 2024において、Online Nonstationary and Nonlinear Bandits with Recursive Weighted Gaussian Processという標題で、フルペーパー採択論文の発表を行ってきました。発表資料と共に内容を紹介します。

IEEE COMPSAC 2024

compsac2024

IEEE COMPSACは、IEEE内のテクニカルソサイエティIEEE Computer Societyによる、コンピュータソフトウェア分野の主要な国際会議です。 13ものシンポジウムに渡るコンピューティング技術の各分野に関する幅広い議論が、実応用まで踏まえてなされるのが特徴で、「研究開発により事業を差別化できる技術を生み出す」というペパボ研究所のビジョンに通じる部分が多い国際会議です。

なお、今年のCOMPSAC 2024は、約300本の投稿がありフルペーパーの採択率は24%だったとのことです。

発表概要

ECサイトをはじめとするWebサービスでは、利用者にとって快適な体験を提供することが重要です。このために、サービス運用者は施策の試行錯誤を重ねています。一方で、これらの施策の有用性は、利用者や実環境に応じた様々な要因によって異なるため、実環境での評価が欠かせません。ただし、判断の遅延や誤った判断によって生じる機会損失は避けねばなりません。この機会損失の低減は多腕バンディット問題とみなすことができ、この問題に対する多くの方策が研究・提案されてきました。

本研究では、Webサービスにおける施策の比較評価に適した多腕バンディットの方策を提案しました。提案では、この比較評価に必要な要件を整理し、時間変化、文脈の考慮、応答速度という要件を満たすような方策を検討しています。特に、従来の方策では難しかった、利用者の文脈と施策の有用性の間にある複雑な関係の理解に挑戦しました。具体的には、非線形回帰モデルであるガウス過程回帰モデルをベースとした重み付き逐次ガウス過程回帰モデルを提案し、施策の有用性に対する時間変化と、文脈との間にある複雑な関係性を捉え、再帰的学習の適用によって応答速度の要件を満たします。また、これらの組み合わせにより生じてしまうガウス過程回帰の予測分布の推定誤差を任意のタイミングで正確に補正することで、予測分布の推定精度と計算時間のトレードオフを解決しています。詳細は以下の発表資料もしくは公開後の論文をご覧ください。

評価では、非定常・非線形な多腕バンディット問題のシミュレーションを通して、機会損失の低減性能と実行時間を評価しました。シミュレーションでは、同分野の最先端方策に対し、提案した方策が機会損失の低減性能を維持しながら、大幅な計算時間の削減が可能という結果を得ることができました。

今後は、適応的なパラメータ調整の検討を進めつつ、実システムへの積極的な展開を進めていきます。

compsac2024-talk

発表資料

発表を終えて

今回は、アカデミックな国際会議として2度目の発表だったこともあり、前回よりも発表や質疑応答を余裕を持ってこなすことができたように感じます。そのため、自身の研究内容に関連する発表内容はもちろんのこと、幅広い分野での取り組みや、発表における表現方法など様々なことを吸収できました。今後は専門分野での能力だけでなく英語力も一層向上させ、活発かつ深い議論の輪にもっと入っていけるようにしたいと思います。

【PR】パートナー積極採用中！

ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。

書いた人

三宅悠介

ペパボ研究所研究員、プリンシパルエンジニア