SMASH22 Summer Symposiumで逐次適応性を損なうことなく非線形性を扱う多腕バンディット解法の提案を発表し、優秀賞と奨励賞を受賞しました

2022-10-07

ペパボ研究所研究員／プリンシパルエンジニアの三宅(@monochromegane)です。 2022年9月15日、16日に開催された、SMASH22 Summer Symposiumで、「迅速な学習機構を用いて逐次適応性を損なうことなく非線形性を扱う文脈付き多腕バンディット手法」の発表を行い、優秀賞と奨励賞をいただきました。論文と発表資料と共に内容を紹介します。

発表概要

適応的なシステムの実現には、利用者とシステムのコミュニケーションが不可欠ですが、このコミュニケーションにもコストが発生します。私は、このコストの最小化を多腕バンディット問題と見なすことで、機会損失を抑えた適応的なシステムを実現する研究に取り組んでいます。本研究報告では情報システムで取り扱えるデータの種類と量の増加を背景に、この多腕バンディット問題を、高度化する意思決定基準にも対応させるための問題設定と解法を検討しています。具体的には、文脈付き多腕バンディット問題と呼ばれる問題設定のうち、文脈と報酬の間に非線形な関係性を仮定した問題設定に挑戦しています。従来の解法では、この複雑な関係性を扱うため学習時間の増加が課題となっていました。本研究では、Online Sequential Extreme Learning Machine (OS-ELM)と呼ばれる反復的な学習が不要で学習時間の短いニューラルネットワークモデルを多腕バンディット解法に統合することでこの問題の解決を図りました。評価では、非線形な多腕バンディット問題のシミュレーションにおいて従来の解法と遜色ない性能でありながら学習時間を大幅に削減できることが確認できました。また、採用したOS-ELMの表現力の限界や、多腕バンディット解法への統合にあたって有用な特性の考察など提案手法の改善要件の検討を進めることができました。

受賞

本研究報告に対して、優秀賞ならびに奨励賞をいただきました。研究会の運営委員と聴講者の皆様からご評価いただき非常に嬉しいです。ありがとうございます！

smash22-award

論文

三宅悠介, 峯恒憲, 迅速な学習機構を用いて逐次適応性を損なうことなく非線形性を扱う文脈付き多腕バンディット手法, 信学技報, vol. 122, no. 186, AI2022-22, pp. 25-30, 2022年9月.

発表資料

発表を終えて

SMASHシンポジウムは、2回目の参加でしたが、知能的なシステムの実現のための様々な研究が報告されており、自身の研究分野と近しいこともあって、今回もとても楽しむことができました。また、自身の発表に関しても有意義なフィードバックをたくさんいただき、非常に充実した時間となりました。昨年に引き続いての受賞に至ったのは、指導教官の峯先生や研究所の皆さんのおかげだと思います。いつも支えていただき誠にありがとうございます。本研究報告で得た考察や発表へのフィードバックを元に研究を発展させ、年内を目標に国際会議への挑戦を進めていきます。

【PR】パートナー積極採用中！

ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。

書いた人

三宅悠介

ペパボ研究所研究員、プリンシパルエンジニア