研究会 運用技術 機械学習

第40回人工知能学会全国大会(JSAI2026)で適応的スパムフィルタのための軽量な類似メッセージカウンタについて発表しました

研究会 運用技術 機械学習

ペパボ研究所 研究員/シニア・プリンシパルエンジニアの三宅(@monochromegane)です。 2026年6月9日に開催された、第40回人工知能学会全国大会(JSAI2026)で、ペパボ研究所から発表を行いましたので論文とスライドと共に紹介します。

適応的スパムフィルタのための軽量な類似メッセージカウンタ

本研究では、メッセージ機能を有する情報システムにおいて、スパム検知のための機械学習モデルの再学習・反映までの時間差を補う、軽量な類似メッセージカウンタを提案しました。機械学習モデルによるスパム検知は高精度な判定が可能である一方、新たなスパムパターンを検知してからデータ収集・再学習・本番反映までには一定の時間を要します。この時間差の間、システムは未知のスパムに対して脆弱な状態となります。とりわけ、アカウントを跨いで大量の類似メッセージが送信されるスパムキャンペーンでは、この課題が顕著になります。

そこで本研究では、システムを通過するメッセージの類似性と出現頻度に着目し、頻度変化に応じて判定を調整する適応的なスパムフィルタリングを実現しました。実運用に組み込むうえで、テキストと画像が混在するマルチモーダルなメッセージへの対応、そして検出処理自体がボトルネックとならないための低レイテンシ・低コスト化を要件として整理しています。

提案手法は、(1) 逐次的な類似性の判定、(2) 頻度変化に応じた判定の調整、(3) 時間経過への対処、の3つの構成要素からなります。テキストはTF-IDFによるベクトル化の後にランダム超平面に基づく局所感度ハッシュ法(LSH)でハッシュ値に変換し、画像は差分ハッシュ(dHash)で直接ハッシュ値に変換することで、軽量かつ逐次処理可能な類似性判定を行います。得られたハッシュ値は、時間窓を用いた近似頻度計算手法であるSliding Window Count-Min Sketch(SW-CMS)に入力し、固定サイズのメモリで類似メッセージの出現頻度を推定します。これにより、長期運用でパターン種類が増えてもメモリが際限なく増大せず、出現頻度が減ったパターンは自然に忘却される仕組みを備えています。

スパムキャンペーンを模擬したシミュレーション評価では、平均3〜4件の検出遅延でスパムの亜種を検出できることを確認しました。また、処理時間は1件あたり36〜42μs、メモリ使用量は4〜7MBの固定サイズで実現でき、既存のスパムフィルタに追加的な機構として組み込む際にも、処理遅延や運用コストへの影響を最小限に抑えられることを示しました。一方で、既知語彙の削除・置換や画像全体に及ぶノイズのように、ハッシュ値への影響が大きい編集に対してはマッチ率が低下するという制約も明らかになりました。

本研究は、機械学習モデルの再学習・反映までの時間差を補う軽量な仕組みとして、適応的なスパム対応の実現を目指すものです。今後は、軽量性を維持しつつ、多様な編集パターンに対してもより頑健な類似性判定を実現するハッシュ手法について研究を進めていきます。

論文

発表資料

発表を終えて

今回は、私にとって初めての人工知能学会での発表となりました。会場には幅広い分野から多くの参加者が集まっており、これまで参加してきた研究会とはまた違った熱気と盛り上がりを肌で感じることができました。

発表後の質疑応答や、セッション後の議論を通じて、これまで接点のなかった分野の方々と新たに繋がりを持てたことも大きな収穫でした。普段とは異なる視点からのご意見やご質問をいただき、自身の研究を捉え直すきっかけとなると同時に、今後の研究の発展に向けた多くのヒントを得ることができました。

また、大会全体を通して、AIと人の協働や、AIの社会進出に向けた知能システムとしての未来像など、幅広い議論や研究に触れられたことも大きな収穫でした。

なお、本大会では当研究所の所長である栗林(@kentaro)も、GMOインターネットグループを代表してスポンサー講演「ロボットとともに働く — フィジカルAIが拓く未来へ」に登壇し、AIが物理世界へと進出する「フィジカルAI」への取り組みを紹介しました。

AIが物理世界へと進出していくこうした潮流も見据えながら、今後も、適応的なシステム運用の在り方にまで視野を広げ、研究を進めていきたいと考えています。


【PR】パートナー積極採用中!

ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。