[2024/03/21]推薦・機械学習勉強会

Question

Opened this issue 6 months ago · 3 comments

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。
この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！
会の間に話した内容もここにメモしましょう！

prev: #237

Answer 1 · 2024-03-20T23:31:18.000Z

LINEでのオープンチャットのレコメンドモデルを改善するプロセスの話。

オープンチャットレコメンドの難しさ
- 同じユーザーが短期間のうちに複数のチャットに参加するといったことが発生しにくい
- 同じチャットに対して再参加するといった動きは起きづらい (ECでのレコメンドとの違い)
使っているモデル: Field-aware Factorization Machines
開発の流れ
- オフラインテスト
  - ポジションバイアス等を減らすために、レコメンド経由以外で発生したチャットへの参加を正解ラベルとして利用
- オンラインテスト
  - ABテスト
オンラインテスト・オフラインテストの辛み
- サービスが軌道に乗ってきた段階で改善幅が小さくなり、オフラインテストとオンラインテストが相関しなくなってきた
- オンラインの結果を受けてオフラインをやり直し、再度オンラインという流れを繰り返していると、変更点が多岐にわたることで問題箇所が見えづらくなった
解決策：Adhoc ABテスト
- treatment群の比率を小さくしてABを行う
- 変更点を段階的にtreatment群に積み上げていって、変更箇所の効果を検証していく
- 最後に1:1分割でABテストを行う

Answer 2 · 2024-03-21T00:28:27.000Z

NetflixにおけるSequential A/B testの取り組みを紹介した記事。複数回のパートで連載されている。

Part1: Continuous Data（2024/2/13）
- Play-Delay（再生ボタン押してから再生されるまでの時間）のようなContinuousなデータの分布に対するtest
Part2: Counting Process（2024/3/19）
- Successfulな再生の開始回数のようなCountのデータに対するtest

ソフトウェアの変更によりバグやパフォーマンスのデグレが生まれてユーザ体験に悪影響を与えないか？を確認したい。

要求は以下

一般的なfixed-nやfixed-timeなA/Bテストでは以下のような問題がある

十分なデータを集めてから検定、だと問題がある場合ユーザ体験への悪影響が長くなる
かといって少量のデータで検定、だと大きな変化しか検出できない
また、何回も繰り返し検定を行うと第一種過誤が増幅する（Peekingと呼ばれる問題）
- 参考：Peeking at A/B Tests: Why it matters, and what to do about it

Q. 記事内のグラフのデータってシミュレーションデータ？by林さん
A. Netflixの実データとのこと

Answer 3 · 2024-03-21T08:37:21.000Z

1コミットごとに発生するBillable timeが1 Workflow単体で見ても26分も節約することができました！当然ですが、アジリティにも影響する重要な要素ですので、課金の節約以上に開発速度や開発体験の向上が期待できます！

パッケージインストールがめっちゃ速くなるらしい、すごい。

この辺の知識がなさすぎて全くわかってないけど、基盤モデルを組み合わせて新しい基盤モデルを作る手法らしい。画像と日本語LLM、みたいな組み合わせで学習させることができるらしい。