[2023/11/08]Machine Learning 輪講
Opened this issue · 3 comments
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #217
What
話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!
LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation
- 推薦タスクに合わせてエンコーダ・デコーダのFeed Forward層を軽量化
- グラフ畳み込みを利用したユーザ・アイテムのembeddingを学習
- プレフィックス木を構築してその上でビームサーチを使って推薦アイテムの生成を行うことで存在しないアイテムIDを生成しないようにした
How to Index Item IDs for Recommendation Foundation Models
論文URL
https://arxiv.org/abs/2305.06569
著者
Wenyue Hua, Shuyuan Xu, Yingqiang Ge, Yongfeng Zhang
会議
SIGIR-AP 2023
背景
生成タスクである以上生成するIDに何らかの意味を持たせないと、全く見当違いのIDを生成してしまう恐れがある。しかし、LLMで扱えるような意味を持ったIDをアイテムに一意に割り当てるのは簡単ではない。アイテム数は膨大に存在しそれらに対して一意のIDを割り当てる必要があり、自然言語と互換性がありLLMの学習やプロンプトで扱えなければいけない。
さらに、生成されたテキストが実際のアイテムと一致することを保証しなければいけない(ハルシネーションの回避)が、制約付き複合法を用いると長文生成能力を持つLLMの柔軟性を損なってしまう。
目的
生成的推薦で使用しやすいIDの生成方法の検討
アプローチ
- 生成的推薦で有効そうな4種類のインデックス作成手法を考案
- Sequential Indexing
- Collaborative Indexing
- Semantic (Content-based) Indexing
- Hybrid Indexing
Sequential Indexing
下記のように、ログに登場した順にIDを降っていく。
このとき同様のアイテムに対するインタラクションが発生した時にはそのIDを使用する。
Collaborative Indexing
協調フィルタリングの成分を反映させたインデックス法。
アイテム(ノード)とその共起度(エッジ)をグラフ構造で表現し、ノードクラスタリングによってインデックスとなるラベルを決めていく
Semantic (Content-based) Indexing
コンテンツベースのインデックス。カテゴリ情報の組み合わせをIDとする。
Hybrid Indexing
複数の手法の組み合わせ。
memo
Unbiased Offline Evaluation for Learning to Rank with Business Rules
- RecSys2023のAmazonの論文
- ビジネスルールが適応されたランキングにおいて、オフポリシー評価におけるバイアスを是正する新しい手法を提案している
- BvN分解を使用して、ランキングに適用されたビジネスルールを考慮に入れた正確な傾向スコア(アイテムが特定の位置に表示される確率)を生成する
- アルゴリズムは、全ての可能なアイテムの置換を通じてランキングのバリエーションを探索し、修正された傾向行列を通じてバイアスを修正する