1. Machine Translation

Type	Name	Langauges	Volume
Multi-lingual	JW300	en ko ja	?
Multi-lingual	Open Subtitles	en ko ja zh enko-organized	?
Multi-lingual	QED	en ko ja zh	?
Multi-lingual	Tatoeba	en ko ja	?
Multi-lingual	GNOME	en ko ja zh	?
Multi-lingual	Tanzil	en ko ja zh	?
Multi-lingual	bible-uedin	en ko zh	?
Multi-lingual	KDE	en ko ja zh	?
Multi-lingual	Ubuntu	en ko ja zh	?
Multi-lingual	PHP	en ko ja zh	?
Multi-lingual	Global Voice	en ko	?
Multi-lingual	ELRC_2922	en ko zh	?
Multi-lingual	Ted Multilingual Corpus	ko ja zh	0.4M
Multi-lingual	Multilingual TED Takls	10 langauges	?
Multi-lingual	Twitter corpora (small)	en ko ja	?
Multi-lingual	Asian Langauge Treebank	en ko zh ja	20k
Multi-lingual	1000 parallel sentences	en ko ja	1k
Multi-lingual	TUFS Asian Language Parallel Corpus	en ko ja	1k
Multi-lingual	NICT QE/APE Dataset	en ko ja zh	10k
Multi-lingual	Basic Expressions	en ja zh	5k
Multi-lingual	Kaist Parallel Dataset	en ko zh	60k
Bi-lingual	Korean Parallel corpora	en ↔ ko	10k
Bi-lingual	AIHub translation dataset	en ↔ ko	1.6M
Bi-lingual	AIHub Parallel corpus of specialized fields	en ↔ ko	1.5M
Bi-lingual	Ulsan University parallel dataset	en ↔ ko	1.25M
Bi-lingual	UMCorpus	en ↔ zh	?
Bi-lingual	JParaCrawl	en ↔ ja	10M
Bi-lingual	Stanford	en ↔ ja	2.8M
Bi-lingual	small_parallel_enja	en ↔ ja	50K
Bi-lingual	Kyoto Free Translation Task	en ↔ ja	1k
Bi-lingual	Japanese-English Legal Parallel Corpus	en ↔ ja	0.26M
Bi-lingual	UNCorpus	en ↔ zh	15M
Bi-lingual	MultiUN	en ↔ zh	?
Bi-lingual	Sina Weibo	ko ↔ zh	41k
Bi-lingual	JParaCrawl	ja ↔ zh	83k
Other Materials	CS224N Subtitles	en ↔ ko	5k
Other Materials	CS231N Subtitles	en ↔ ko	?
Other Materials	KaiserreichKoreanTranslation	en ↔ ko	?
Other Materials	TheNewOrderKoreanTranslation	en ↔ ko	?
Other Materials	EYWOR-Korean-translation	en ↔ ko	?
Other Materials	Red-Flood-Korean-Translation	en ↔ ko	?

2. Question Answering

주요 데이터셋

	ref	Name	Description
1	0	KorQuAD 1.0	대표적인 한국어 QA 데이터셋. SQuAD와 동일한 형식을 따름. 6만개 수준의 데이터셋.
2	0	KorQuAD 2.0	대표적인 한국어 QA 데이터셋. HTML 태그, Table 등이 포함된 복잡한 입력이 있기도 하며 지문이 여러개인 Multi-hop 등 다양한 문제를 해결하기 위한 데이터셋.
3	0	AIHub-MRC	45만개 수준의 한국어 QA 데이터셋
4	0	AIHub-Commonsense	10만개 수준의 한국어 QA 데이터셋
5	+	ARC	다지선다 문제풀이 데이터셋
6	+	Story Cloze Text	지문과 두 개의 결말을 주고 어떤게 맞는지 결정
7	+	SearchQA	카테고리, 검색결과, 질문과 정답 데이터셋
8	+	SQuAD2	문단이 주어졌을 때 질문과 정답 데이터셋
9	1	SQuAD	위키피디아에서 생성된 질문과 정답들 정답은 주어진 지문 안에서 span으로 찾음
10	2	GLUE	NLU 벤치마크 데이터셋 모음
11	3	MS MARCO	Bing 질문과 사람이 작성한 정답 데이터셋
12	4	TriviaQA	위키피디아에서 수집한 텍스트 기반 질의응답 데이터셋
13	6	NewsQA	CNN 뉴스 관련 MRC 데이터셋 정답이 없는 경우도 있음
14	7	RACE	영어 독해 데이터셋 지문과 질문이 주어지는 사지선다 데이터셋
15	8	HotpotQA	영문 위키피디아에서 수집한 데이터셋 지문의 여기 저기에서 정보를 수집
16	9	bAbI	질문, 정답, 사실들이 주어진 데이터셋
17	10	Natural Questions	구글 및 위키 페이지에 관련된 질문과 이에 대한 long, short 대답 데이터셋
18	11	MCTest	이야기 데이터가 주어졌을 때(한 문단보다 길 수 있음) 사지선다 형식으로 질문과 답 쌍 데이터셋
19	12	WikiQA	위키피디아 기반 질문과 해당 위키 페이지 링크, 해당 페이지의 summary, 그리고 정답 span 데이터
20	13	CoQA	주어진 passage에 대한 질문, 대답, 그리고 그에 대한 근거 데이터셋
21	14	SuperGLUE	GLUE와 유사하지만 GLUE보다 조금 더 어렵고 더 다양한 task를 커버하는 데이터셋
22	17	NarrativeQA	위키 summary, 원문 link, 질문, 대답으로 이루어진 데이터셋
23	20	CommonsenseQA	AMT로 생성한 상식 문제 데이터셋
24	21	DROP	위키피디아에서 수집한 passage와 질문, 그에 대한 답 데이터셋
25	22	SimpleQuestions	knowledge base이지만 factoid 질의응답 데이터셋이라 일단 추가함
26	23	CBT	구텐베르크 book corpus 사용, 여러 문장을 문맥정보로 제공하고 질문과 정답 후보, 정답 데이터셋
27	27	ROCStories	짧은 이야기와 옳은 결말, 틀린 결말 데이터셋
28	28	COPA	open domain에서 인과 관계 추론 task를 위한 전제와 두 후보 정답 데이터셋
29	29	QUASAR	QUASAR-S와 QUASAR-T로 구성된 데이터셋으로 S의 경우 빈칸을 채우는 task, T의 경우 문맥 데이터에서 질문에 대한 답을 찾는 task에 대한 데이터셋
30	30	WinoGrande	대명사가 어떤 것을 가리키는지 찾는 task에 대한 데이터셋 특정 단어(trigger word)가 다른 두개의 문장이 주어지고 동일한 대명사가 무엇을 가리키는지에 대한 선택지 및 정답 데이터셋
31	33	MultiRC	passage가 여러 문장으로 주어지고 이에 대한 질문과 선지, 정답, 그리고 정답에 대한 이유 데이터셋
32	34	WikiReading	비정형 위키 데이터에서 텍스트 값 예측 document, property, 정답 데이터셋
33	36	BoolQ	질문과 지문이 주어지면 이에 대한 예 아니오 답 데이터셋
34	37	CosmosQA	상식 기반 독해 데이터셋 지문, 질문, 사지선다 정답 주어짐
35	39	SPIDER	cross-domain text-to-sql 데이터셋
36	40	MRQA 2019	독해 데이터셋 SQuAD, NewsQA, TriviaQA, SearchQA, HotpotQA, NauralQuestions 데이터를 pooling한 데이터셋
37	41	TrecQA	Text retrieval conference Question Answering 상식 질의응답 데이터셋
38	43	QUASAR-T	29번 QUASAR에 포함되는 데이터셋
39	45	Social IQA	Social Interaction QA 사회적 상식을 테스팅하는 데이터셋으로 문장과 질문, 대답으로 구성
40	51	ELI5	long-form 질의응답 데이터 질문, 정답, 지문이 주어지는데 정답이 여러 문장으로 나올 수 있음
41	52	decaNLP	Natural Language Decathlon이라고 질의응답, 기계번역, 요약, 자연어 이해, 감성 분석 등 열가지 태스크에 대한 benchmark 데이터셋)
42	55	DREAM	dialog가 지문으로 주어지고, 그에 대한 질문과 정답 데이터셋
43	56	BookTest	23번 CBT와 유사하지만 더 큰 데이터셋
44	57	Who-did-what	news corpus에서 데이터 수집 같은 사건에 대한 두 개의 기사에서 한 기사는 맥락으로 사용하고 다른 한 기사는 질문 생성으로 사용한다 지문, 질문, 선택지 데이터셋
45	58	ShARC	시나리오(맥락), 질문, 정답 데이터셋
46	64	CODAH	SWAG 형식의 상식 질의응답 데이터셋 description을 주고 문장을 주면 이어서 나올 선지를 선택하는 task
47	71	SelQA	영문 위키 데이터 기반으로 문장 단위 대답을 얻을 수 있는 질문 및 대답 데이터셋
48	73	TACRED	RE 데이터셋, 크라우드 소싱 relation과 pos등의 정보가 태깅되어있음
49	75	QUASAR-S	19번 QUASAR에 포함된 데이터셋
50	76	ReClor	문맥, 질문, 선지, 정답이 주어지는 graduate admission exam 데이터셋
51	77	ReQA	Retrieval QA 질문과 지문 주어지고 정답은 지문에 포함됨
52	82	AmazonQA	Amazon dataset을 기반으로 review를 보고 질문에 대한 대답이 가능한지 가능하지 않은지 태깅해줌 정답, 질문, 카테고리, 리뷰 등으로 구성
53	85	ANTIQUE	yahoo 등에서 사용자들이 실제로 한 non-factoid(where who why 이런 것들) 질의응답 데이터셋
54	91	TweetQA	기자들이 기사 작성을 위해 사용한 트윗들 수집, 사람들이 직접 질문과 답을 작성 짧은 트윗과 질문, 그리고 절 단위 정답 데이터셋
55	94	[Quizbowl	질문이 포함된 지문이 여러 문장과, 이에 대한 정답 데이터셋
56	104	ReviewQA	호텔리뷰 질의응답 데이터셋
57	105	subjQA	주관적인? subjective 질문과 리뷰, 정답 스팬이 하이라이트 되어있는 데이터셋 책, 영화, 장보기, 전자기기, 여행 등 6개의 도메인 데이터로 구성
58	107	MultiReQA	retrieval 모델에 대한 데이터셋 SQuAD데이터같은 데이터셋에서 answer sentence를 retrieve하는 task
59	108	OPIEC	영문 위키에서 가져온 ie 데이터셋, pos, ner등 각종 태깅이 되어있다
60	109	ProtoQA	FAMILY-FEUD라는 쇼를 기반으로 하는 상식 질의응답 데이터셋
61	110	QReCC	질의응답 데이터셋인데, 문맥에 구애받지 않도록 쿼리를 재작성한 데이터셋
62	113	WikiSuggest	구글 suggest api를 사용해서 질문 수집, 질문, 정답, 위키 지문 데이터셋
63	114	Dialog-based Language Learning dataset	모델이 학생처럼 학습할 수 있게, 질문하면 대답을 주고, 대답이 맞으면 보상을 주는 형식으로 (기본 정보나 질의응답에는 0, 정답이면 1을 태깅)
64	124	WikiHowQA	answer selection 및 summarization task를 한 번에 학습할 수 있는 질의응답 데이터셋

Cross-lingual / multilingual dataset

	ref	Name	Description
1	+	DuReader	중국어 MRC 데이터셋
2	+	C3	중국어 다지선다 데이터셋
3	32	MLQA	영어, 아라비아어, 독일어, 스페인어, 힌디어, 베트남어, 중국어 간체에 대해서 동일한 qa dataset이 평균적으로 4가지 다른 언어로 존재
4	44	TyDi QA	11가지 언어 데이터셋
5	49	DRCD	오픈도메인 독해 데이터셋, 중국어와 영어가 parallel하게 주어짐
6	50	XQuAD	스페인어, 독일어, 그리스어, 러시아어, 터키어, 아라비아어, 베트남어, 태국어, 중국어, 힌디어에 대한 질의응답 데이터셋으로 문맥 지문과 정답 span, 그리고 질문 데이터로 구성됨
7	62	XQA	영어, 중국어, 프랑스어, 독일어, 폴란드어, 포르투갈어, 러시아어, 타밀어, 우크라니아어 총 9개 언어로 구성된 질의응답 데이터셋
8	74	Wikiconv	Wiki contributor 간의 대화 말뭉치 영어, 독일어, 러시아어, 중국어, 그리스어 지원
9	79	FQuAD	프랑스어 독해 데이터셋
10	89	MKQA	영어, 아라비아어, 덴마크어, 독일어, 스페인어, 핀란드어, 프랑스어, 히브리어, 헝가리어, 이탈리아어, 일본어, 앙코르어, 한국어, 말레이시아어, 네덜란드어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스웨덴어, 태국어, 터키어, 베트남어, 중국어, 홍콩중국어, 간체중국어 총 26개 언어 질의응답 데이터셋
11	96	XTREME	12 종류 언어와 9 task로 이루어진 multilingual transfer learning 데이터셋
12	106	KLEJ	폴란드어 자연어 이해 task 데이터셋
13	121	RELX	영어, 프랑스어, 독일어, 스페인어, 터키어로 구성된 관계 분류 데이터셋
14	125	XOR-TYDI QA	TyDi QA 질문을 기반으로 생성한 데이터셋, TyDi QA보다 다루는 언어는 더 적음

모든 데이터셋

	Name	Description
0	KorQuAD 1.0	대표적인 한국어 QA 데이터셋. SQuAD와 동일한 형식을 따름. 6만개 수준의 데이터셋.
0	KorQuAD 2.0	대표적인 한국어 QA 데이터셋. HTML 태그, Table 등이 포함된 복잡한 입력이 있기도 하며 지문이 여러개인 Multi-hop 등 다양한 문제를 해결하기 위한 데이터셋.
0	AIHub-MRC	45만개 수준의 한국어 QA 데이터셋
0	AIHub-Commonsense	10만개 수준의 한국어 QA 데이터셋
+	ARC	AI2Reasoning Challenge grade-school level, multiple-choice science questions Challenge Set & Easy Set: Challenge Set: questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm
+	QAngaroo	WikiHop과 MedHop 데이터셋
+	Story Cloze Test	dataset for story understanding that provides systems with four sentence stories and two possible endings 네 문장으로 이루어진 지문에 두개의 결말을 주고 어떤게 맞는 결말인지
+	SWAG	Situations With Adversarial Generations grounded commonsense inference video caption 주고 다음에 일어날 일 고르기
+	Recipe QA	multimodal comprehension of cooking recipes
+	DuReader	open-domain Chinese MRC dataset
+	SearchQA	full pipeline of general question-answering question / answer / meta-data
+	AQuA	Algebraic word problem dataset
+	Movie Dialog QA	closed-domain QA dataset asking templated questions about movies based on Wikipedia
+	Movie Dialog Recommendations	questions asking for movie recommendations
+	MTurk WikiMovies	closed-domain QA asking MTurk-derived questions on movies based on Wikipedia
+	SQuAD2	open-domain QA dataset answerable from given paragraph 답을 주어진 문단에서 찾을 수 있는지 없는지 알 수 없음
+	C3	multiple-choice answering dataset in Chinese
1	SQuAD	collection of qa pairs derived from wikipedia articles correct answers of questions can be any sequence of tokens in the given text questions and answers are produced by humans
2	GLUE	collection of 9 nlu tasks single-sentence tasks (CoLA, SST-2) paraphrasing task (MRPC, STS-B, QQP) nli tasks (MNLI, QNLI, RTE, WNLI)
3	MS MARCO	실제 Bing question과 사람이 작성한 answer dataset이었는데, question, nlg, passage ranking, keyphrase extraction, crawling, conversational search dataset이 추가됨
4	TriviaQA	wikipedia에서 수집한 text-based qa dataset 문맥이 길고 정답이 지문 span prediction에서 직접 얻을 수 있지 않은 경우도 있기 때문에 기존의 SQuAD보다 challenging
5	ConceptNet	word와 phrases를 이어주는 knowledge graph designed to represent the general knowledge
6	NewsQA	crowd-sourced mrc dataset of 120,000 qa pairs CNN news articles questions may be unanswerable
7	RACE	english reading comprehension dataset for middle school & high school 지문 / 질문 / 답이 포함되어 있는 4개의 보기 / 답
8	HotpotQA	영문 위키피디아에서 수집한 qa dataset crowd-sourced question multi-hop question: 지문의 여기 저기에서 정보를 수집
9	bAbI	20가지 task로 이루어진 데이터셋 question / answer / set of facts
10	Natural Questions	google.com query와 그에 해당하는 wiki page 그에 해당하는 long, short answer long & short answer 중 둘 다 비어있을 수도 있고, short answer만 비어있을 수도 있음
11	MCTest	stories & associated questions ( multiple-choice reading comprehension ) Open-domain machine comprehension
12	WikiQA	Wikipedia open-domain qa set of question & sentence pairs on open-domain qa Bing query logs / link to wiki page / wiki summary의 각 문장
13	CoQA	주어진 passage에 대한 question & answer + evidence 지문이 주어지고 각각의 input text에 대해 정답의 span 정보 데이터
14	SuperGLUE	GLUE와 유사하게 8개의 language understanding task GLUE보다 더 어렵고, 더 다양한 task 제공
15	QuAC	14K crowdsourced QA dialog, 98K qa pair interactive dialog btw two crowd workers hidden wiki text에 대해 최대한 많이 알기위한 자유로운 질문을 하는 학생 short spans from text로 질문에 대한 답을 제공하는 선생
16	CNN/Daily Mail	Cloze-style reading comprehension dataset CNN & Daily Mail News data Cloze-style : missing word has to be inferred entity 처리가 된 passage / 엔티티 토큰으로 치환된 질문 / 해당되는 엔티티 토큰
17	NarrativeQA	Title / Question / Answer / Summary snippet / Story snippet
18	WebQuestions	google suggest api crawling question + AMTurk answers
19	Quara	quora.com question 기반 400k question pairs binary value indicating whether two questions are paraphrase or not
20	CommonsenseQA	Amazon Mechanical Turk로 생성한 상식 문제 데이터셋
21	DROP	크라우드소스 데이터 wikipedia article에서 수집된 passage와 질문과 그에 대한 답
22	SimpleQuestions	factoid qa dataset(what, which 등등의 질문) Freebase knowledge base (약간 상식 문제 느낌)
23	CBT	Project Gutenberg의 book corpus 사용 여러 문장을 context로 주고 query와 candidate, 그리고 answer 데이터
24	BioASQ	question / human-annotated answers / relevant contexts on biomedical dataset
25	CORD-19	scholarly article about coronavirus
26	ATOMIC	commonsense if-then reasoning
27	ROCStories	commonsense short(5-sent) stories cloze test stories endings collected by Mechanical Turk (right / wrong) context와 그에 대한 옳은 결말과 틀린 결말 데이터셋
28	COPA	open-domain commonsense causal reasoning premise + 2 alternatives, task: select alternative that is more plausible
29	QUASAR	QUASAR-S → fill-in-the-gaps questions collected from Stack Overflow QUASAR-T → open-domain questions collected from various internet sources
30	WinoGrande	crowdsourcing, trigger word가 있음 대명사가 어떤 것을 가리키는지 찾는 task
31	WikiHop	multi-hop qa dataset → document 여러개 거쳐서 답을 찾는 task entities and relations / supporting documents are from WikiReading 여러 candidate들이 주어지고 query와 뒷받침 문장 여러개가 주어지고 답이 주어짐
32	MLQA	cross-lingual question answering dataset ( English, Arabic, German, Spanish, Hindi, Vietnamese, Simplified Chinese) 동일한 qa dataset을 여러 언어로(평균적으로 질의응답별 4가지 다른 언어로 존재)
33	MultiRC	short paragraphs, multi-sentence questions paragraph의 여러 문장을 조합하면 답을 찾을 수 있는 task 정답지의 갯수는 선제시X 정답이 text의 span이라는 보장도 없다. domain은 news, fiction, historical text 등 7 가지
34	WikiReading	task: predict textual values from unstructured knowledge base wiki data Document / Property / Answer
35	e-SNLI	used for various goals, such as obtaining full sentence justifications of a model's decisions, improving universal sentence representations and transferring to out-of-domain NLI datasets 전제, 가정, label이 주어지면 premise에서 중요하다고 생각되는 부분에 하이라이트, explanation 붙임
36	BoolQ	qa dataset for yes/no question question / passage / answer(yes/no)
37	CosmosQA	commonsense-based reading comprehension passage / question / multiple-choice +answer
38	Semantic Scholar	titles & abstract of scientific papers from 1985 to 2017
39	SPIDER	large-scale, cross-domain semantic parsing & text-to-SQL dataset
40	MRQA 2019	dataset for evaluating generalization capability context 주고 question 주고 answer SQuAD, NewsQA, TriviaQA, SearchQA, HotpotQA, NaturalQuestions out-of-domain → BioASQ, DROP, DuoRC, RACE, RelationExtraction, TextbookQA 각각의 데이터를 본인들 형식으로 수정
41	TrecQA	Text Retrieval Conference Question Answering (TREC-8 ~ TREC-13) Q: Who was Lincoln’s Secretary of State? / A: William Seward
42	InsuranceQA	question answering dataset for the insurance domain
43	QUASAR-T	43013 open-domain trivia questions & their answers from various internet sources answer → free-form spans of text, mostly noun phrases
44	TyDi QA	11 typologically diverse languages multilingual dataset
45	Social IQA	social common-sense intelligence motivation, 다음에 일어날 일, emotional reaction 등을 추론하는 task context / question / answer(multiple choice)
46	WikiMovies	question answering for movies content
47	ComplexWebQuestions	qa that require reasoning over multiple web snippets interact with search engine / reading comprehensin task / semantic parsing task
48	DuoRC	pairs of movie plots / each pair reflects two versions of same movie 답이 없는 경우도 있고, 주어진 지문 외의 지식으로 답을 해야하는 경우도 있음
49	DRCD	open domain traditional Chinese machine reading comprehension dataset 중국어와 영어가 parallel로 passage, question, answer가 주어진다
50	XQuAD	benchmark dataset for evaluating cross-lingual question answering performance Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, Hindi Context paragraph with answer spans / Questions
51	ELI5	long-form question answering, part of Dodecadialogue Question / Answer / Documents Answer가 여러 문장
52	decaNLP	Natural Language Decathlon(10종 경기) Benchmark qa, mt, summarization, nli, sentiment analysis, semantic role labeling, zero-shot relation extraction, goal-oriented dialogue, sp, common-sense pronoun resolution
53	emrQA	1M question-logical form / domain specific large-scale qa dataset 데이터 생성을 logical form slot filling으로 한 것으로 보임 passage / question / answer
54	QASC	qa focus on sentence composition 8-way multiple-choice grade(?) school science 과학 문제 / 정답 / annotated facts
55	DREAM	multiple choice dialogue based reading comprehension examination dataset collected from english-as-a-foreign-language examinations dialogue / question / choices + answer
56	BookTest	CBT(Children’s Book Test, 23번 데이터셋)와 유사하지만 60배 큰 데이터셋
57	Who-did-What	news corpus에서 데이터 수집, CBT와 유사한 질문 각각의 질문은 2개의 독립적인 기사(?) → 한 기사로는 맥락을 제공하고 동일한 사건에 대한 다른 기사로 query를 생성한다 Passage / Question / choices
58	ShARC	Conversational qa dataset, text containing rules Category / Questions+Answer / Scenario / %
59	CliCR	domain specific reading comprehension for cloze queries from clinical case reports
60	BREAK	complex question을 이해할 수 있게 하는 데이터셋 Question Decomposition Meaning Representation이 주어진다
61	MathQA	AQuA dataset 개선 질문 / 수식 스택 / argument 추가
62	XQA	90K qa pairs in 9 languages for cross-lingual open-domain qa multilingual dataset → language / question / answer
63	MetaQA	movie ontology based on WikiMovies dataset, 3-hop queries
64	CODAH	Common-sense qa in SWAG style 사람들이 피드백을 기반으로 직접 생성 Description을 주고 문장을 주면 이어서 나올 선지를 선택
65	PubMedQA	yes/no/maybe로 대답할 수 있는 research question answer dataset biomedical question answering dataset
66	MedHop	WikiHop과 유사하게 PubMed에서 수집한 biomedical qa dataset
67	CSQA	Complex Sequential QA 1.6M turn으로 구성된 dialog dataset 단일 튜플로 대답할 수 있는 질문들과는 달리 더 큰 subgraph가 필요한 질문들로 구성 Knowledge graph 사용
68	CLOTH	Cloze test by teacher → 빈칸에 들어갈 단어 찾기, 4지선다 middle, high school level english language exam
69	ComQA	Complex Factoid QA with Paraphrase Clusters compositionality(합성성, 의미이론), temporal reasoning, comparison등의 task WikiAnswers community QA platform에서 가져온 데이터 -> 보통 search engine에서 답을 얻기 어려운 질문들도 포함되어있음
70	QuaRel	crowdsource 데이터, multiple-choice story questions
71	SelQA	crowdsource 데이터, sentence length answer drawn from 10 most prevalent topics in english wiki
72	CovidQA	kaggle covid-19 dataset
73	TACRED	dataset RE dataset, annotated by crowd workers 각각의 type과 span이 tag로 달려있음
74	WikiConv	history of conversations between contributors to Wikipedia Eng, German, Russian, Chinese, Greek 지원
75	QUASAR-S	QA by Search and Reading, Stack overflow cloze-style queries on definitions of software entity tags on Stack overflow 답은 정해진 4874 entity에서만 있음 Question / Answer / Context excerpt
76	ReClor	logical reasoning questions of standardized graduate admission exam Context / Question / Option / Answer
77	ReQA	Retrieval Question Answering, large set of document에서 답을 찾아오는 task Question / Answer in context
78	WIQA	What-If QA perturbation(섭동, 천체의 궤도에 영향을 미치는 인력)을 설명하는 dataset
79	FQuAD	French Native Reading Comprehension dataset on Wikipedia articles
80	QuaRTz	Crowdsourced dataset of multiple-choice on open domain qualitative relationship (더 많고 더 적고 증가하고 줄어들고 등의 관계를 알아내는 것) 각 질문은 405개의 background sentences와 paired
81	Qulac	question for lack of clarity in open-domain information-seeking conversations 모호한 질문이 들어왔을 때 좀 더 구체적으로 되묻는 데이터셋으로 추정
82	AmazonQA	923k questions, Amazon dataset을 기반으로 review를 보았을 때 각각의 질문이 대답 가능한지 가능하지 않은지 태깅해줌 answers / Question text / Category / review-snippets
83	ODSQA	open-domain spoken dataset in Chinese
84	SciREX	document level IE dataset
85	ANTIQUE	2626 open-domain non-factoid questions yahoo 등에서 실제 유저들이 한 질문들로 구성
86	GenericsKB	generic sentences dataset → generic은 ai 시스템에서 knowledge source로 쓰임
87	TechQA	domain-adaptation qa dataset for technical support domain technical forum에서 사용자들이 한 질문들로 구성되어있음 IBM Developer, IBM Developer Works에서 가져옴
88	CCPE-M	user와 assistant 간의 영어 발화 데이터 two paid crowd workers using wizard-of-oz methodology
89	MKQA	Multilingual Knowledge QA open-domain qa dataset, 26개 언어 지원 ( 한국어 포함 )
90	Mathematics dataset	수학 질문 & 답 데이터셋, 문제에 수식이 포함되어 있는 경우도 있고 없는 경우도 있음
91	TweetQA	journalist들이 뉴스 기사 작성을 위해 사용한 트윗들 수집 인간 annotator들이 질문과 답을 작성, abstractive한 answer들 있음 task: read short tweet and question → output text phrase as answer
92	CQASUMM	Community QA Summarization 4.4 mil Yahoo!로 생성한 dataset
93	FreebaseQA	open-domain QA over Freebase knowledge graph, open-domain trivia(Quiz) data를 Freebase에 맞게 고치고, human annotator가 verify
94	Quizbowl	multiple sentences, clues arranged by difficulty, identify entity 지문이 여러 문장으로 주어지고, 질문이 포함되어 있음, 다 읽고 정답 맞추는 형식
95	X-WikiRE	multi-lingual relation extraction dataset 독일어, 영어, 스페인어, 프랑스어, 이탈리아어 지원 ex. 아마존은 어디에 위치하는가 → context 보고 정답 맞추는 것
96	XTREME	Cross-lingual TRansfer Evaluation of Multilingual Encoder multilingual transfer learning 40 typologically diverse language spanning 12 language families
97	HeadQA	multi-choice qa, Spanish healthcare system 입사(?) 시험 data
98	PEYMA	NER dataset, document from 10 news websites
99	Almawave-SLU	Italian dataset for Spoken Language Understanding
100	COVID-Q	CoVID-19 questions
101	ClarQ	Stackexchange에서 가져온 데이터
102	JEC-QA	Legal Question Answering dataset from 중국 국가 법 시험
103	MATINF	Maternal and Infant dataset → 중국의 임신 육아 도메인 qa 데이터셋
104	ReviewQA	호텔 리뷰 qa dataset
105	SubjQA	subjective에 집중하는 qa dataset books, movies, grocery, electronics, TripAdvisor 등 6개 도메인 데이터 question & review, span is highlighted as answer
106	KLEJ	9 eval task for Polish language understanding task
107	MultiReQA	cross-domain eval for retrieval qa model SearchQA, TriviaQA, TextbookQA 등의 데이터셋 포함, 몇몇은 테스트 데이터만 있음
108	OPIEC	Open Information Extraction Corpus English Wikipedia로 만든 Open Information Extraction corpus Pos tag, NER tag 등의 태그가 달려있음
109	ProtoQA	common sense reasoning, FAMILY-FEUD라는 쇼에서 가져온 데이터, eval set은 크라우드 소싱
110	QReCC	14k conversation w
111	ScienceExamCER	초중등 수준 과학 시험 데이터
112	Shmoop Corpus	231 stories paired with detailed summary for each chapter cloze task, abstractive summarization task등이 있음
113	WikiSuggest	구글 suggest api를 사용해서 question 수집 google search가 위키에서 찾은 짧은 답을 가져오면 question / answer / wiki doc 생성 정확한 답 없으면 prune
114	Dialog-based Language Learning dataset	모델이 학생처럼 학습할 수 있게, 질문하면 대답을 주고, 대답이 맞으면 보상을 주는 형식으로 (기본 정보나 질의응답에는 0, 정답이면 1을 태깅)
115	MEDIQA-AnS	consumer health question 관련 question-driven summaries of answers
116	MeQSum	dataset for medical question summarization
117	MilkQA	dairy domain qa dataset, Portuguese
118	NQuAD	Nuclear Question Answering Dataset
119	NText	8 mil word dataset in nuclear paper domain
120	OTT-QA	Open Table-and-text QA dataset table이나 text를 웹에서 가져다가 대답을 해야되는 형식 HybridQA dataset에서 re-annotate한 것
121	RELX	cross-lingual relation classification dataset in 영어, 프랑스어, 독일어, 스페인어, 터키어
122	SCDE	중국 학교 영어시험에서 가져온 human-created sentence cloze dataset
123	TupleInf Open IE Dataset	Open IE tuples extracted from “Answering Complex Questions Using Open Information Extraction”
124	WikiHowQA	Community based qa dataset Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering이라는 논문에서 제안
125	XOR-TYDI QA	TyDi QA의 질문을 기반으로 생성한 cross-lingual dataset

3. Dialogue

Name	Descriptions
Persona Chat	두 명의 크라우드 소서에게 페르소나가 제공되고 서로에 대해 알아가는 대화를 진행하는 데이터셋
ConvAI2	Persona Chat 데이터셋을 기반으로 하는 컴피티션 (NIPS2018)
Empathetic Dataset (ED)	어떠한 상황 등이 주어지면 그에 대해 대화하는 데이터셋. 봇의 감정적인 이해 능력을 향상시키기 위해 만듦.
Wizard of Wikipedia	주어진 주제에 대해 잘 알고있는 마법사와 호기심 많은 견습생 간의 대화를 수행하는 데이터셋. 봇이 어떤 사실에 대해서 잘 대답하게 할 수 있음.
Blended Skill Talk	위 세가지 데이터셋 (페르소나, 감정이해, 지식이해)를 통합한 데이터셋. 블렌더봇 학습에 사용됨
Cornell Movie	영화 자막으로 이루어진 데이터. 내용은 픽션임.
Dialogue NLI	대화 중 컨시스턴시를 유지시키기 위한 데이터셋이. 이 데이터셋으로 NLI를 같이 학습하면 그런 약점들이 좀 완화되지 않을까 싶음.
Reddit	레딧 쓰레드를 이어붙여서 만든 대화 데이터
Twitter	트위터에서 크롤링한 대화 데이터
Open Subtitles	영화 자막을 모아놓은 데이터
Daily Dialog	Topic, Emotion, Utterance Action 등이 잘 정리된 대화 데이터
Holl-E	영화에 관련된 Background knowledge를 포함하는 대화 데이터
ReDial	한 유저가 다른 유저에게 영화를 추천하는 대화를 수행하는 데이터
Image Chat	215개의 개인의 성격 특징을 활용해서 대화를 나눈 데이터셋
Style-Controlled Generation	Image chat를 참고하였음. 레이블이 지정된 대화 데이터셋
DECODE	마지막 발화가 이전 대화 기록들과 모순되는지 여부를 디텍션 하는 데이터셋
TaskMaster-1 2019	Google에서 공개한 고품질 대화 데이터.

oneonlee/nlp-datasets

1. Machine Translation

2. Question Answering

주요 데이터셋

Cross-lingual / multilingual dataset

모든 데이터셋

3. Dialogue