mesolitica/llm-benchmarks

Benchmarking LLM for Malay tasks.

Jupyter Notebook

llm-benchmarks

Benchmarking LLM for Malay tasks, HuggingFace space at https://huggingface.co/spaces/mesolitica/malay-llm-leaderboard

📈 We evaluate models based on 3 datasets,

BM-PT3 Paper 1, contains 54 questions, https://github.com/mesolitica/malaysian-dataset/tree/master/llm-benchmark/BM-pt3
Tatabahasa, contains 349 questions, https://github.com/mesolitica/malaysian-dataset/tree/master/llm-benchmark/tatabahasabm.tripod.com

Contributions

Claude Tatabahasa contributed by https://www.linkedin.com/in/fahim-surani