open-korean-instructions

Open Korean Instructions는 언어모델을 학습하기 위한 공개 한국어 instruction dataset들을 모아둔 저장소입니다.
이 외에도 번역하거나 GPT를 이용해서 생성한 다양한 데이터들이 존재합니다. 혹시 새로운 데이터가 있다면 PR로 알려주세요.

공개된 데이터 정리

이름	#	타입	내용
KoAlpaca v1.0	52K	싱글턴	Alpaca instruction 번역 후 output을 ChatGPT로 생성
KoAlpaca v1.1	21K	싱글턴	지식인 질문 수집 후 ChatGPT로 대답 생성
ShareGPT DeepL 번역	620K(싱글턴) 84K(멀티턴)	멀티턴, 싱글턴	ShareGPT 데이터를 DeepL로 번역
ShareGPT-74k-ko	74k, 55k(코드제거)	멀티턴	ShareGPT 90k의 cleaned 버전을 구글 번역기를 이용하여 번역
KoChatGPT 실습	13K	싱글턴, 멀티턴, RM	한국어 질문 데이터셋에서 질문 수집 후 ChatGPT로 대답 생성
OIG-small-chip2-ko	210K	싱글턴	LAION AI의 OIG-smallchip-2 영어 데이터 Google Translate으로 번역
Korquad-Chat	9.6K	멀티턴, 지식기반	KorQuAD v1 데이터의 context(뉴스, 위키백과의 문단)을 주고, 관련 내용의 대화를 ChatGPT로 생성
AIRC-KETI/kowow	?	멀티턴, 지식기반	WoW(Wizard Of Wikipedia) - 지식기반 대화 데이터를 번역한 데이터
CounselGPT	싱글턴(13k) 멀티턴(8.7k)	멀티턴, 싱글턴	GPT로 생성한 상담 데이터
Evolve-instruct	37k	싱글턴	WizardLM에서 사용된 evol-instruct를 이용하여 instruction을 증강한 후 GP로 답변 생성한 데이터
KULLM v2	153k	싱글턴	GPT4ALL, Dolly, Vicuna(ShareGPT) 데이터를 DeepL로 번역
nlpai-lab/openassistant-guanaco-ko	9.85k	멀티턴	Korean translation of Guanaco via the DeepL API
psymon/namuwiki_alpaca_dataset	79K	싱글턴	나무위키 덤프 파일을 Stanford Alpaca 학습에 맞게 수정한 데이터셋
changpt/ko-lima-vicuna	1k	싱글턴, 멀티턴(극히 일부)	GPT4 API를 사용하여 lima_vicuna_format 데이터를 한국어로 재생성한 데이터셋
taeshahn/ko-lima	1k	싱글턴, 멀티턴(극히 일부)	LIMA: Less Is More for Alignment (Zhou et al., 2023)의 학습 데이터를 한국어로 번역한 데이터셋
Ko-StrategyQA	2.2k(질문), 9k (문서)	Multi-hop QA, 예/아니오 단답형	이 데이터셋은 StrategyQA의 한국어 버전입니다. 기존 데이터셋의 모든 질문과 단락들을 DeepL을 사용하여 번역.
HAERAE-HUB/KoInstruct-Base	52k	싱글턴	Alpaca 데이터 번역인 듯 함.
HAERAE-HUB/KoInstruct-QA	50.3k	싱글턴	원본 데이터가 뭔지 모르겠음. 위 데이터중에 중복이 있을 수도 있음.
kyujinpy/KOpen-platypus	24.9k	싱글턴	garage-bAInd/Open-Platypus 데이터 번역
ziozzang/EverythingLM-data-V2-Ko	1k	싱글턴	EverythingLM-data-V2를 DeepL로 번역
human-rights-corpus/HRC/	1.5k	싱글턴	대화형 생성 모델을 위한 인권코퍼스 구축 - 대한민국 국가인권위원회의 결정례와 상담사례 참조, 문체 변경과 질의 응답으로 변경하기 위해서 전후 맥락을 고려한 예시문을 만들고 GPT-3.5-turbo 을 이용하여 원샷 학습후 문답 생성
kyujinpy/OpenOrca-KO	21.6k	싱글턴	OpenOrca dataset 중 약 2만개를 sampling하여 번역한 데이터셋
kyujinpy/KoCoT_2000	2.16k	싱글턴	Using DeepL dataset, translation about kaist-CoT.
RLHF-Korean-Friendly-LLM	2.4K(SFT), 3.8K(RM), 3.6K(RLHF)	싱글턴	다양한 데이터를 수집하여 RLHF를 위한 천개 단위의 데이터셋 구축
jojo0217/korean_rlhf_dataset	107k	싱글턴	성균관대학교 산학협력프로젝트 과정에서 한국어 llm 모델 SFT 학습을 위해 구축한 데이터셋 입니다.
maywell/ko_hh-rlhf-20k_filtered	20k	멀티턴, RM	hh-rlhf 데이터셋 중 20k를 synatra-translation 모델로 번역
squarelike/OpenOrca-gugugo-ko	640k + (번역중)	싱글턴	Gugugo-koen-7B-V1.1을 이용하여 OpenOrca데이터셋을 번역 중
maywell/ko_Ultrafeedback_binarized	62k (RM)	싱글턴	Synatra-7B-Translation 모델을 통해 Ultrafeedback_binarized를 번역하고 정제한 데이터셋입니다.
MrBananaHuman/kor_ethical_question_answer	29.1k	싱글턴	RLHF 학습을 위한 AI 윤리적/비윤리적 질의-답변 데이터셋
HumanF-MarkrAI/WIKI_QA_Near_dedup	138k	싱글턴	maywell(Jeonghwan Park)께서 만드신 maywell/wikidata_QA 에서 deduplication한 QA 데이터
kaist-ai/Multilingual-CoT-Collection	77.2k	싱글턴	KAIST에서 공개한 다국어 CoT collection, 한국어 77.2k 포함
heegyu/PKU-SafeRLHF-ko	164k(RM)	싱글턴	PKU-Alignment/PKU-SafeRLHF 데이터 번역 중
heegyu/hh-rlhf-ko	113k(RM)	멀티턴	Anthropic/hh-rlhf 데이터 번역 중
heegyu/webgpt_comparisons_ko	19.6k(RM)	싱글턴	openai/webgpt_comparisons를 모델로 번역
heegyu/glaive-function-calling-v2-ko	15.2k (Function Calling)	멀티턴	glaiveai/glaive-function-calling-v2 중에서 15.2k 개를 ChatGPT로 번역
squarelike/ko_medical_chat	3.04k	멀티턴	jwj7140/ko-medical-chat MedText와 ChatDoctor 데이터셋을 GPT3.5를 통해 한국어 대화로 변환
MarkrAI/KoCommercial-Dataset	1.44M	싱글턴	상업적으로 이용 가능한 데이터셋들을 수집 및 가공하여 하나로 병합
maywell/koVast	685K	멀티턴	685K의 대규모 멀티턴 한국어 대화
SJ-Donald/orca-dpo-pairs-ko	36K	싱글턴	mncai/orca_dpo_pairs_ko, Ja-ck/Orca-DPO-Pairs-KO, We-Want-GPU/Yi-Ko-DPO-Orca-DPO-Pairs 3개의 DPO 데이터셋 병합 후 중복 제거
lcw99/wikipedia-korean-20240501-1million-qna	1M	싱글턴QA	한글 위키피디아를 백만개의 섹션으로 나누고 백만개의 q&a를 생성
nlp-with-deeplearning/Ko.WizardLM_evol_instruct_V2_196k	196k	싱글턴	자체 구축한 번역기로 WizardLM/WizardLM_evol_instruct_V2_196k을 번역한 데이터셋
HAERAE-HUB/qarv-instruct-100k	100k	싱글턴	한국에 대한 지식이 필요한 지시문-답변 쌍 (영어 포함)
kuotient/orca-math-word-problems-193k-korean	193k	싱글턴	microsoft/orca-math-word-problems-200k 번역
kuotient/orca-math-korean-preference	193k	싱글턴(DPO)	번역된 microsoft/orca-math-word-problems-200k를 이용해 만든 DPO 데이터셋
jojo0217/korean_safe_conversation	26k	싱글턴	성균관대 - VAIV COMPANY 산학협력을 위해 구축한 일상대화 데이터로, 자연스럽고 윤리적인 챗봇 구축을 위한 데이터셋
HAERAE-HUB/K2-Feedback	100k	싱글턴	K^2-피드백은 한국어 모델에서 세분화된 평가 능력을 향상시키기 위해 만들어진 데이셋, Feedback Collection을 기반으로 한국 문화와 언어학에 특화된 지시문을 통합합니다. (NOTE: 원래 Prometheus 모델 학습 용 데이터지만 5점 output만을 가져와서 학습에 활용할 수 있다)
maywell/kiqu_samples	24.9k	싱글턴	kiqu-70b 모델의 출력 샘플입니다.
CarrotAI/ko-instruction-dataset	7k	싱글턴	WizardLM-2-8x22B 모델을 사용하여 생성한 한국어로 이루어진 고품질 한국어 데이터셋, WizardLM: Empowering Large Language Models to Follow Complex Instructions에서 소개된 방법으로 생성
HAERAE-HUB/HR-Instruct-Math-v0.1	30k	싱글턴	한국어 수학 instruction 데이터 (PoC 버전)
iknow-lab/qarv-instruct-ko-mt	10K	멀티턴	HAERAE-HUB/qarv-instruct-ko 데이터 1만여개에 GPT-3.5-turbo를 이용해서 2턴 대화를 더 추가한 멀티턴 데이터
iknow-lab/ko-evol-writing-wiki	30K	싱글턴	GPT-3.5-turbo를 이용해서 생성한 글쓰기 / 창의적 글쓰기 데이터
AIHub RLHF dataset	SFT(13K), RM(33K), PPO(33K)	싱글턴	RM 데이터는 지시문과 5개 답변에 대해 순위가 매겨져있음. PPO 데이터의 경우 지시문만 있으며 답변 없음.

평가용 데이터셋

이름	#	타입	내용
HAERAE-HUB/KMMLU	243k	MCQA	45개 주제의 전문가 수준 한국어 성능 평가 벤치마크
HAETAE-project/HAE-RAE-BENCH	1.5k	MCQA	HAE-RAE Bench는 언어 모델의 한국어 능력(어휘, 역사, 상식, 독해)을 평가하기 위해 제작된 벤치마크 데이터셋입니다.
HAERAE-HUB/CSAT-QA	0.9k	MCQA	국어 수능문제
HAERAE-HUB/K2-Eval	90	생성	정확한 답변을 위해서는 한국어 문화에 대한 깊이 있는 지식이 필요한 90개의 사람이 작성한 지시문, 사람 혹은 GPT-4가 평가
sean0042/KorMedMCQA	< 1k	MCQA	한국어 의료 QA 벤치마크
HAERAE-HUB/Korean-Human-Judgements	< 1k	Human Preference	각각 질문, 답변 A, 답변 B와 사람의 선호 표시

평가 플랫폼

Ko Chatbot Arena Leaderboard: 사람이 여러 챗봇의 결과를 비교해보고 그 승률과 ELO 점수를 보여주는 리더보드
instructkr/LogicKor-leaderboard: 한국어 언어모델 다분야 사고력 벤치마크
호랑이 LLM 리더보드: wandb에서 공개한 Q&A, 멀티턴 형식의 한국어 LLM 평가 리더보드
ko-RM-judge: 보상 모델(Reward Model)을 이용하여 챗봇의 대답을 평가하고, 그 점수를 비교

HeegyuKim/open-korean-instructions

open-korean-instructions

공개된 데이터 정리

평가용 데이터셋

평가 플랫폼

한국어 합성 데이터 구축에 참고할 저장소