[2024/3/6]推薦・機械学習勉強会

Question

Opened this issue 7 months ago · 4 comments

Why

推薦・機械学習勉強会は、推薦や機械学習、その周辺技術を通じてサービスを改善することにモチベーションのある人達の集まりです。ニュースやブログから論文まで、気になったものについてお互い共有しましょう！

発信のため、ここは public にしてあります。外部からの参加をご希望の方は合田/hakubishin3、角川/nogawanogawa、林/python_walker まで DM を送るか、Wantedly Visit の募集（https://www.wantedly.com/projects/391912）よりご連絡ください！

Wantedly では隔週水曜日に

といった話をする「推薦・機械学習勉強会」を開催しています。
この ISSUE はその会で話すネタを共有するための場所です。

話したいことがある人はここにコメントしましょう！
会の間に話した内容もここにメモしましょう！

prev: #235

Answer 1 · 2024-03-05T23:34:14.000Z

Netflixのデータ基盤におけるAuto Remediation（自動復旧）の取り組みについての記事。ジョブが失敗したときに、ルールベースと機械学習モデルを組み合わせて自動的に復旧する仕組みを本番環境に導入しており、この仕組みにより運用の効率化を実現している。

Netflixのデータ基盤では1日あたりに数十万のワークフローと百万のジョブが実行されている
ジョブが失敗した時の調査、復旧を人手で行うのは運用の負荷が大きい
従来NetflixはPensiveというルールベースでジョブ失敗時の診断と再実行を行う仕組みを作っていたが、システムが大きくなるにつれ、以下のような課題が生じた
- 非一時的なエラー（例：メモリ設定に由来するエラー）に対処できない
- ルールは人手で追加しなければならず、それをしないと分類できないエラーが増えていく

従来のルールベースによる診断とMLモデルによるアクションの提案を組み合わせた仕組み
ルールベース（Pensive）
- ジョブ失敗の通知をスケジューラから受け取り、関連するログを収集
- ログの情報から正規表現でエラーを特定し、取るべきアクションを判断する
MLモデル（Nightingale）
- Prediction Model
  - ジョブが再実行で成功する確率の予測
  - retry実行時のコスト（＄）の予測
- Optimizer
  - 上記２つの予測に基づき、最適（＝再実行の失敗確率✖️コストが最も小さい）なSparkの設定の提案

Answer 2 · 2024-03-06T05:06:18.000Z

オフラインテストとオンラインテストの結果が一致しない問題についてZOZOで行っている対処法を紹介している。

評価指標の多様化
- nDCGだけではなく、購入数カバー率や新旧のロジックでの推薦アイテムの類似度を評価指標に組み込むことで、大幅なユーザー体験の悪化を生むロジックをオンラインテストに出すのを防いでいる
評価指標の工夫
- 選択バイアスをIPSを使って軽減したnDCGを評価指標として利用→ABテストとオフラインテストの相関の改善

Answer 3 · 2024-03-06T07:23:27.000Z

Anthropic社が「Claude 3」をリリース
コストと性能が異なる3種類のモデル(Haiku, Sonnet, Opus)を用意

ベンチマークによる比較だと、テキスト・画像認識のパフォーマンスはGPT-4を超えているとのこと

感想：X でも定性的に良さそうな雰囲気のポストが投稿されている、試しにChatGPTからClaudeに移行してみる

Answer 4 · 2024-03-06T07:44:49.000Z

完全にオンライン推論ではなく、30分毎に更新する処理を行うことでニアリアルタイムに推薦を更新する模様。
直近の記事を推薦に載せることも結構たいへんなので、リアルタイム性への折り合いの付け方の一つの方法な気がした。