ペパボ研究所 研究員の酒井(@tossy)です。 2022年9月18日に行われた2022年度情報処理学会関西支部支部大会にて、「ECサイトにおける作品の特徴ラベル分類に関する精度と付与率の向上に向けた取り組み」というタイトルで発表しました。 今回は発表の概要および論文や発表資料についてご紹介したいと思います。
発表概要
背景、目的
ハンドメイド作品を扱うCtoCのECサイト「minne」では、ユーザは作品を探索する際に、特徴ラベルを利用し、作品を絞り込むことができます。 例えば、minneで出品されているアクセサリー・ジュエリー>ピアスのカテゴリには、素材として、「ゴールド類」や「シルバー類」といったラベルが付与されており、このラベルを特徴ラベルと呼びます。 ユーザは関心のあるラベルを指定することで、該当の特徴を持つ作品のみを閲覧することができます。
現在、特徴ラベルの付与は、作品を制作した作家に依頼しています。 しかし、このような人手でのラベル付与は一定数の付与漏れ・付与誤りが発生する懸念があります。 そこで、本研究では、ラベル付与の自動化を目指し、作品情報(作品の画像やテキスト)を入力とする高精度な特徴ラベル分類器の構築に取り組みます。
課題
CtoCのECサイトで特徴ラベル分類を行う際の課題として、以下が挙げられます。
課題①:作品のテキスト・画像単体では、特徴ラベルを分類するための情報が不足している
作家は作品情報を作成する際、特徴ラベルを考慮し、作成する訳ではありません。例えば、カテゴリがピアスの作品において、テキストだけでは、「ゴールド類」を識別できる情報が無い場合があります。また、画像単体でも同様の問題が起きえます。
課題②:既存の作品群には一定数の特徴ラベルの付与漏れ・付与誤りの懸念がある
上述の付与漏れ・付与誤りのため、特徴ラベルの信頼度及び付与率が低くなる懸念から、学習した分類器の分類精度は低いことが想定されます。
手法
本研究では、これらの課題に対し、それぞれ以下のアプローチを検討します。
手法①:作品のテキスト・画像の予測結果の和集合を求める
テキスト分類器・画像分類器の予測結果はそれぞれ特徴ラベルの集合の形を取ります。 そのため、テキスト単体、画像単体で識別できない事例でも、各集合の和集合を求めることで識別可能とする狙いがあります。
手法②:特徴ラベルの単語によるキーワードマッチを行う
特徴ラベルの単語を含む場合、作品はその特徴を持つと考えられます。 そこで、特徴ラベルの単語によるキーワードマッチにより、付与漏れや分類器の識別誤りを防ぐことを可能とする狙いがあります。
評価
実際のminneのデータに対して、テキストはTF-IDFと多層パーセプトロン、画像はResNet50を用いて分類器を構築しました。 手法を適用した結果として、以下を確認しました。
- 作品のテキスト・画像の予測結果の和集合を求める手法は、画像識別による誤識別の影響から、全体性能が劣化
- 個別の特徴量では、テキストを用いた場合が、画像を用いた場合よりも、識別性能が高いことを確認
- 手法①では、作品テキストでは識別できなかったが、画像で正しく識別できた例を一部確認
- 手法②では、主観的な評価を行い、特徴ラベルの付与漏れ・識別誤りを防ぐことができたことを確認
論文
発表資料
発表を終えて
今回は前回の研究会発表からほぼ一年越しの発表となりました。 今年は年初から新たな研究テーマを構想するところから始め、CtoCのECサイトにおける特徴ラベル分類に取り組むこととしました。 その取り組みの中で、サービスのCTR等の実際の数字を踏まえた現状把握や論文ストラクチャによる主張を明確化するための構造の整理に取り組みました。
ただ、現状は考えうる課題に対して、シンプルな手法を試した、という段階だと認識しています。 そのため、今回の発表をベースに手法の改善のサイクルを早く進めていければ、と考えています。 研究を進める中で、まだ至らぬ点も多いですが、少しづつ、日々自分自身の課題や研究の課題に向き合っていっているところだと思います。 これらの課題については、今後一つ一つ解決に向けて、地道に取り組んでいきます。 今後は、今回の結果を踏まえ、実際のサービス適用に向けた取り組みを進めて参ります。
【PR】パートナー積極採用中!
ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。