IndoMMLU

Fajri Koto, Nurul Aisyah, Haonan Li, Timothy Baldwin

Bahasa Indonesia | English

📄 Paper • 🏆 Leaderboard • 🤗 Dataset

Pengantar

IndoMMLU merupakan sebuah dataset berbahasa Indonesia pertama untuk multi-task language understanding. Dataset ini berisikan kumpulan soal berbagai mata pelajaran dari jenjang Sekolah Dasar, Sekolah Menengah Pertama, Sekolah Menengah Atas, dan Ujian Seleksi Masuk Perguruan Tinggi di Indonesia. IndoMMLU berbasiskan kurikulum pendidikan Indonesia dan memiliki 14.906 pertanyaan, dan 63 tasks (kombinasi mata pelajaran dan jenjang sekolah). 46% pertanyaan IndoMMLU berfokus pada soal bahasa Indonesia dan muatan lokal bahasa daerah yang ada di Indonesia. Ini mencakup mata pelajaran Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), dan Bahasa Dayak Ngaju.

Data

Setiap pertanyaan dalam dataset ini merupakan soal pilihan ganda dengan 3-5 pilihan, dengan hanya satu jawaban benar. Dataset (mentah) yang digunakan untuk eksperimen pada paper tersedia di folder data. Untuk versi data yang lebih rapi, Anda disarankan untuk mengakses data di tautan Hugging Face.

import datasets
data = datasets.load_dataset('indolem/IndoMMLU')

Mata Pelajaran

Jenjang	Mata Pelajaran
SD (Sekolah Dasar)	IPA, IPS, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), Bahasa Dayak Ngaju, Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
SMP (Sekolah Menengah Pertama)	IPA, IPS, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Budaya Alam Minangkabau (BAM), Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
SMA (Sekolah Menengah Atas)	PPKN, Fisika, Kimia, Biologi, Geografi, Sosiologi, Ekonomi, Sejarah, PPKN, Bahasa Indonesia, Bahasa Sunda, Bahasa Jawa, Bahasa Bali, Bahasa Makassar, Bahasa Banjar, Bahasa Lampung, Bahasa Madura, Pendidikan Seni, Olah Raga, Agama Islam, Agama Kristen, Agama Hindu
Ujian Seleksi Masuk Perguruan Tinggi	Kimia, Biologi, Geografi, Sosiologi, Ekonomi, Sejarah, Bahasa Indonesia

Kami mengelompokkan pertanyaan-pertanyaan IndoMMLU kedalam 5 kelompok besar, yaitu: (1) STEM (Ilmu Alama, Teknologi, Teknik, and Matematika); (2) Ilmu Sosial; (3) Humaniora; (4) Bahasa Indonesia; and (5) Bahasa dan Budaya Lokal.

Contoh Pertanyaan

Pertanyaan-pertanyaan IndoMMLU tertulis dalam bahasa Indonesia. Untuk mata pelajaran bahasa dan budaya daerah, beberapa tertulis dalam bahasa daerah tersebut. Bahasa Inggris yang ada pada contoh di bawah ini hanya sebagai pelengkap untuk penulisan paper.

Evaluasi

Kami mengevaluasi 24 LLM multibahasa dalam ukuran berbeda dengan pengaturan zero-shot dan few-shot. In termasuk GPT-3.5 (ChatGPT), XGLM, Falcon, BLOOMZ, mT0, LLaMA, and Bactrian-X. Sebelum pertanyaan dan pilihan ganda, kami menambahkan sebuah prompt dalam bahasa Indonesia:

Ini adalah soal [subject] untuk [level]. Pilihlah salah satu jawaban yang dianggap benar!

Untuk menjalankan kode evaluasi, silakan melihat script run.sh

Evaluasi Zero-shot

Model (#param)	STEM	Social Science	Humanities	Indonesian Lang.	Local L. Culture	Average
Random	21.9	23.4	23.5	24.4	26.6	24.4
GPT-3.5 (175B)	54.3	62.5	64.0	62.2	39.3	53.2
XGLM (564M)	22.1	23.0	25.6	25.6	27.5	25.2
XGLM (1.7B)	20.9	23.0	24.6	24.8	26.6	24.4
XGLM (2.9B)	22.9	23.2	25.4	26.3	27.2	25.2
XGLM (4.5B)	21.8	23.1	25.6	25.8	27.1	25.0
XGLM (7.5B)	22.7	21.7	23.6	24.5	27.5	24.5
Falcon (7B)	22.1	22.9	25.5	25.7	27.5	25.1
Falcon (40B)	30.2	34.8	34.8	34.9	29.2	32.1
BLOOMZ (560M)	22.9	23.6	23.2	24.2	25.1	24.0
BLOOMZ (1.1B)	20.4	21.4	21.1	23.5	24.7	22.4
BLOOMZ (1.7B)	31.5	39.3	38.3	42.8	29.4	34.4
BLOOMZ (3B)	33.5	44.5	39.7	46.7	29.8	36.4
BLOOMZ (7.1B)	37.1	46.7	44.0	49.1	28.2	38.0
mT0_small (300M)	21.8	21.4	25.7	25.1	27.6	24.9
mT0_base (580M)	22.6	22.6	25.7	25.6	26.9	25.0
mT0_large (1.2B)	22.0	23.4	25.1	27.3	27.6	25.2
mT0_xl (3.7B)	31.4	42.9	41.0	47.8	35.7	38.2
mT0_xxl (13B)	33.5	46.2	47.9	52.6	39.6	42.5
LLaMA (7B)	22.8	23.1	25.1	26.7	27.6	25.3
LLaMA (13B)	24.1	23.0	24.4	29.5	26.7	25.3
LLaMA (30B)	25.4	23.5	25.9	28.4	28.7	26.5
LLaMA (65B)	33.0	37.7	40.8	41.4	32.1	35.8
Bactrian-X-LLaMA (7B)	23.3	24.0	26.0	26.1	27.5	25.7
Bactrian-X-LLaMA (13B)	28.3	29.9	32.8	35.2	29.2	30.3

Performa GPT-3.5 (ChatGPT) dalam berbagai level pendidikan

Warna merah mengindikasikan bahwa nilai GPT-3.5 tidak tuntas (di bawah Kriteria Kelulusan Minimal / KKM 65.0), sementara warna hijau menyatakan bahwa nilai GPT-3.5 di atas KKM. Secara keseluruhan, bisa dilihat bahwa ChatGPT umumnya hanya lulus ujian tingkat Sekolah Dasar.

Few-shot Evaluation

Pengutipan

Jangan lupa untuk membaca dan mengutip paper kami yang dipublikasikan di main conference EMNLP 2023.

@inproceedings{koto-etal-2023-indommlu,
    title = "Large Language Models Only Pass Primary School Exams in {I}ndonesia: A Comprehensive Test on {I}ndo{MMLU}",
    author = "Fajri Koto and Nurul Aisyah and Haonan Li and Timothy Baldwin",
    booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = December,
    year = "2023",
    address = "Singapore",
    publisher = "Association for Computational Linguistics",
}

License

The IndoMMLU dataset is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

SulthanAbiyyu/IndoMMLU