研究会 運用技術

情報処理学会第70回インターネットと運用技術研究会で不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用について発表をしました

研究会 運用技術

ペパボ研究所 研究員/プリンシパルエンジニアの三宅(@monochromegane)です。 2025年7月28日に開催された、第70回インターネットと運用技術研究会(IOT70)で、ペパボ研究所から発表を行いましたので論文(研究会予稿)とスライドと共に紹介します。

不確実性下における目的と手段の統合的探索に向けた連続腕バンディットの応用

本研究では、情報システムの運用において、あらかじめ定まった目的に従うのではなく、状況に応じて目的自体も含めて適切な判断を構成していくという視点から、意思決定を支援する探索的アプローチを提案しました。施策の効果が文脈や時間とともに変化する実運用の中では、従来のような固定的な目的設定では対応しきれない課題が生じます。本研究は、そうした現実に即した柔軟な意思決定を可能にする枠組みの構築を目的としています。

従来の情報システムでは、「何を目的とし」「どのような手段を選ぶか」を事前に定めたうえで、施策の評価と選択が行われてきました。しかし実際には、目的が曖昧であったり、試行錯誤の中で見直されることも珍しくありません。そこで本研究では、目的と手段を固定せず、両者を統合的に探索する方策に着目しました。

提案手法では、目的(ターゲット・指標)と手段(施策・設定)の組合せ空間における評価を効率的に行うため、ガウス過程回帰とランダムフーリエ特徴(RFF)を組み合わせた連続腕バンディットの枠組みを導入しました。RFFにより高次元での計算負荷を軽減しつつ、候補点集合の構築を行わず連続空間上で効率的な探索を実現します。また、ハイパーパラメータ推定においては、尤度やその勾配の高速な計算によって、学習コストを抑えながら高精度な推定を可能にしています。

評価実験では、従来法と比較して、提案手法が累積リグレットを抑えつつ、推論時間を大幅に短縮できることを確認しました。

本研究は、AIエージェントによる自律的な意思決定支援の高度化に向けて、目的と手段の関係を統合的に扱う新たな探索手法を検討するものです。今後は、より複雑な実環境や実サービスへの応用を視野に、探索戦略の適応性や運用効率のさらなる改善を目指していきます。

発表を終えて

今回の発表は、シンポジウムを除けば実に5年ぶりのIOT研究会での報告となりました。ネットワークや情報システム基盤の運用技術を中心に、幅広い話題について活発な議論が展開されており、改めてIOT研究会の懐の深さを実感しました。

研究会の雰囲気は以前と変わらず、発表後には多くの質問や意見をいただき、参加者の高い関心や実務的な視点に触れる貴重な機会となりました。

今後は、今回のバンディット手法を出発点としつつ、より広範な意思決定支援や適応的なシステム運用の在り方にまで視野を広げ、研究を進めていきたいと考えています。


【PR】パートナー積極採用中!

ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。