情報処理学会の第250回自然言語処理研究会で、「ハンドメイド作品を扱うECサイトにおける言語モデル構築に向けた取り組み」を発表しました

2021-09-29

ペパボ研究所研究員の酒井(@tshk_sakai)です。 2021年9月28日に開催された、情報処理学会第250回自然言語処理研究会で、発表を行いましたので論文と発表資料を共に紹介します。

ハンドメイド作品を扱うECサイトに特化した言語モデル構築

GMOペパボでは、ハンドメイド作品を扱うECサイトであるminneを運営しています。 minneでは、作家がハンドメイド作品を販売し、購入者が作品を購入します。各作品には、タイトルや説明文などのテキスト情報が付与されており、この情報を利用し、作品の分類やタイトル・説明文の自動生成などの自然言語処理のタスクに活用していきたいと考えています。ハンドメイド作品を扱うECサイトは以下のような特徴を持ちます。

各タスクを人手で解くのは困難
作品が多様であるため、各作品を正しく特徴づけることは困難
サービスの変化に応じた構造的な変化に追従することは困難

これらの特徴を踏まえて、課題を解決できる手法が必要になってきます。一方、自然言語処理では、BERTを使うことが主流になってきており、タスクに応じた少ない教師有りデータでfine-tuningすることで高い性能が得られることが既存の研究からわかっています。そこで、本研究では、ハンドメイド作品を扱うECサイトでの自然言語処理でのタスクを解く際に、BERT+fine-tuningを利用することで、各課題を解決できるのではないか、と考えました。今回は、作品のカテゴリ分類のタスクにおいて、ベースライン手法とBERT+fine-tuningのモデルを比較・評価しました。

minneの実データで比較・評価した結果として、Accuracy, Recall, F1-scoreでは、BERT+fine-tuningのモデルが性能が高く、Precisionではベースライン手法が高い性能となりました。本研究では、総合的な分類性能を評価するため、調和平均であるF1-scoreを重視しています。このことから、BERT+fine-tuningのモデルは作品の多様性を一定程度捉えることができたと考えています。また、BERT+fine-tuningのモデルが誤分類したテキストの中身を目視で確認すると、実際にはモデルが正しく分類しているケースもありました。このことから、現状のデータに基づくカテゴリ構造の変化を検出できる可能性があることが言えます。

今後は、本研究では取り組んでいない再事前学習（追加学習）を行いたいと考えています。理由としては、大規模なコーパスで追加学習を行うことでコーパスに特化した知識獲得が期待できるためです。また、今回の考察で得られた改善点を踏まえ、ハンドメイド作品を扱うECサイトに特化した言語モデル構築に向けた取り組みを進めていきます。

論文

酒井敏彦, 三宅悠介, 栗林健太郎, ハンドメイド作品を扱うECサイトに特化したBERTを用いた言語モデル構築に向けた取り組み, 研究報告自然言語処理（NL）,Vol.2021-NL-250, No.5, pp.1-5, Sep 2021.

発表資料

発表を終えて

オンラインの研究会で発表するのが初めてで緊張しましたが、発表後の質疑応答も色々と頂き、非常に充実した時間となりました。また、研究会に投稿する中での論文を書く作業や発表資料作成を行うことで、目指すべき将来像を改めて考えることができました。このことから、進めてきた研究を都度コミットしていくことが大事だと感じました。コミットすることで副次的に自身の研究テーマを深堀することにも繋がっていくと思います。今後も研究を前進させ、研究会や国際会議で発表できればと思います。最後になりましたが、入社後約4ヶ月で研究会へ投稿し、発表できたのも、共著者である研究所の所長(@kentaro)、三宅さん(@monochromegane)、ならびに研究所の皆さんのおかげだと思います。心より感謝します。

【PR】パートナー積極採用中！

ペパボ研究所では、新しいパートナーを求めています。詳細については、当研究所のトップページをご覧ください。

書いた人

酒井敏彦

ペパボ研究所研究員