Agriculture Dataset in Burmese Language
Contributors - Min Si Thu, Khin Myat Noe
Myanmar is an agricultural country, that mainly grows rice all over the country. But there is no single open source dataset about Agriculture Question-Answering in the Burmese Language as far as my knowledge reaches.
The "Myanmar Agriculture 1K" Dataset is curated to build a knowledge bank for further studies in Natural Language Processing in the Burmese Language and to train instruction fine-tuned language model for the Burmese Language.
Moreover, this dataset is a motivation to move the Burmese language from a low-resource language to a high-resource language.
The dataset is curated in 2024, August by two contributors - Min Si Thu and Khin Myat Noe. The dataset contains two columns - Instruction and Output. The dataset rows are stored in \textbf{Agriculture.csv} file.
The dataset contains information about major crops and trees in Myanmar, methods of agriculture, and horticulture, chemicals and pesticides, phytopathology, climate change, and organic manure. 1053 rows of instruction, output pairs are included in the dataset.
The process of curation of the dataset has two phases. The first phase is annotating the information from the Wikipedia website "https://www.doa.gov.mm/fes/index.php?route=common/home". The second phase is reviewing the spelling and vocabulary mistakes in the dataset.
-
စပါးကြဲပက်စိုက်ပျိုးနည်းကို ဘယ်အခါတွေမှာ အသုံးပြုသင့်သလဲ?,မိုးဦးကာလနှင့် မိုးလယ်ကာလ၊ မိုးခေါင်သောအခါ၊ ရေကြီးနစ်မြုပ်ဖြစ်တတ်သော ရေနက်ကွင်းများ၊ ဒီရေအတက်အကျရှိသော နေရာများ၊ သွင်းရေရရှိရန် မလွယ်ကူသော မိုးရေသောက် ကုန်းမြင့်ပိုင်းလယ်များ၊ အချိန်လု၍ စိုက်ပျိုးရန်လိုအပ်သည့် ကာလများ
-
Paris Climate Agreement ကို ဘယ်အချိန်က စတင်ချုပ်ဆိုခဲ့တာလဲ?,၂၀၁၅ ခုနှစ် ဒီဇင်ဘာလမှာ ပြင်သစ်နိုင်ငံ ပါရီမြို့တွင် ကျင်းပတဲ့ COP21 ညီလာခံမှာ စတင်ချုပ်ဆိုခဲ့ပါတယ်။
-
စပါးဂုတ်ကျိုးရောဂါ၏ လက္ခဏာရပ်များကို ဖော်ပြပါ,ပျိုးခင်းကတည်းက ရောဂါစတင်ဖြစ်ပေါ်နိုင်သည်။ စပါးရွက်ပေါ်တွင် လွန်းပုံသဏ္ဍာန်ရှိသော အကွက်များတွေ့ရသည်။ အကွက်များကြီးခဲ့လျှင် အလယ်တွင် မီးခိုးရောင်ပေါ်တတ်သည်။ ရောဂါကွက်တစ်ခုနှင့်တစ်ခုဆက်သွားပြီး စပါးရွက်များ သေသွားတတ်သည်။
-
ရွက်ဖြန်းအားဆေးများ၏ ဖြစ်နိုင်ချေရှိသော ဘေးထွက်ဆိုးကျိုးများကို ဖော်ပြပါ။,ရွက်ဖြန်းအားဆေးများကို မှားယွင်းစွာ အသုံးပြုပါက အပင်များ အရွက်လောင်ကျွမ်းခြင်း (leaf burn)၊ အဆိပ်သင့်ခြင်း (toxicity)၊ ပတ်ဝန်းကျင်ညစ်ညမ်းမှု (environmental pollution) နှင့် ရေအရင်းအမြစ်များ ညစ်ညမ်းခြင်း (water contamination) တို့ ဖြစ်ပွားနိုင်ပါသည်။
Github - https://github.com/MinSiThu/Myanmar-Agriculture-1K
Zenodo - https://zenodo.org/records/13318601
Hugginface - https://huggingface.co/datasets/jojo-ai-mst/Myanmar-Agricutlure-1K
Kaggle - https://www.kaggle.com/datasets/minsithu/myanmar-agriculture-1k
Myanmar Agriculture 1K Dataset can be used to build various agriculture-related NLP applications.
- The dataset can be used for pretraining or finetuning the dataset on Burmese Large Langauge Models.
- The dataset is ready to use in building RAG-based Applications.
Special thanks to magickospace.org for supporting the curation process of the Myanmar Agriculture 1K Dataset.
References for this dataset
- https://my.wikipedia.org/wiki/ - For Agricultural facts
- https://www.doa.gov.mm/fes/index.php?route=common/home - For Agricultural facts
If you find this project useful, please cite the following
@misc{Myanmar-Agriculture-1K,
author = {{MinSiThu,Khin Myat Noe}},
title = {Myanmar-Agriculture-1K},
version={1}
url = {https://github.com/MinSiThu/Myanmar-Agriculture-1K},
urldate = {2024-08-14}
date = {2024-08-14},
}