このgit repositoryでは、Hugging Face上のモデルを日本語タスクJGLEUに対して精度評価するためのscriptを管理しています。 LLMの進展が激しいですが、様々なLLMに対して日本語のタスクに対する精度がはどうなっているのかを検証するといったプロジェクトをWeights&Biases(以下W&B)が進めました。 下記がそのプロジェクトのレポートです。
W&B REPORT: LLMのJGLUEによる日本語タスクベンチマーク
そしてW&BのLaucnhを用いて、この評価が誰でも自身の環境で、上記のレポート内で行った評価を行うことができるようにプロジェクトも公開しました
W&B Launchは、ML開発者がモダンなMLワークフローを支える高スケールで専門的なハードウェアをシームレスに使用することを可能にし、学習のスケールアップやモデル評価フローの構築、推論のためのモデル読み込みなどの煩わしさを解消してくれます。
詳しくは、W&BのDocを参考にしてください。
実行のプロセスは、W&BのReport "W&B Launchを使ってHuggingFace上のLLMを日本語タスクJGLEUで評価"にて解説をしているので、そちらを参照して下さい。
Hugging Face上のすべてのモデルの実行を検証しているわけではありませんので、ご容赦ください。 また、まだまだプロンプトも工夫の余地があり、ジョブやコードをupdateする予定がある旨、ご容赦ください。