/nlp-datasets

Curation note of NLP datasets

1. Machine Translation

Type Name Langauges Volume
Multi-lingual JW300 en ko ja ?
Multi-lingual Open Subtitles en ko ja zh
enko-organized
?
Multi-lingual QED en ko ja zh ?
Multi-lingual Tatoeba en ko ja ?
Multi-lingual GNOME en ko ja zh ?
Multi-lingual Tanzil en ko ja zh ?
Multi-lingual bible-uedin en ko zh ?
Multi-lingual KDE en ko ja zh ?
Multi-lingual Ubuntu en ko ja zh ?
Multi-lingual PHP en ko ja zh ?
Multi-lingual Global Voice en ko ?
Multi-lingual ELRC_2922 en ko zh ?
Multi-lingual Ted Multilingual Corpus ko ja zh 0.4M
Multi-lingual Multilingual TED Takls 10 langauges ?
Multi-lingual Twitter corpora (small) en ko ja ?
Multi-lingual Asian Langauge Treebank en ko zh ja 20k
Multi-lingual 1000 parallel sentences en ko ja 1k
Multi-lingual TUFS Asian Language Parallel Corpus en ko ja 1k
Multi-lingual NICT QE/APE Dataset en ko ja zh 10k
Multi-lingual Basic Expressions en ja zh 5k
Multi-lingual Kaist Parallel Dataset en ko zh 60k
Bi-lingual Korean Parallel corpora en ↔ ko 10k
Bi-lingual AIHub translation dataset en ↔ ko 1.6M
Bi-lingual AIHub Parallel corpus of specialized fields en ↔ ko 1.5M
Bi-lingual Ulsan University parallel dataset en ↔ ko 1.25M
Bi-lingual UMCorpus en ↔ zh ?
Bi-lingual JParaCrawl en ↔ ja 10M
Bi-lingual Stanford en ↔ ja 2.8M
Bi-lingual small_parallel_enja en ↔ ja 50K
Bi-lingual Kyoto Free Translation Task en ↔ ja 1k
Bi-lingual Japanese-English Legal Parallel Corpus en ↔ ja 0.26M
Bi-lingual UNCorpus en ↔ zh 15M
Bi-lingual MultiUN en ↔ zh ?
Bi-lingual Sina Weibo ko ↔ zh 41k
Bi-lingual JParaCrawl ja ↔ zh 83k
Other Materials CS224N Subtitles en ↔ ko 5k
Other Materials CS231N Subtitles en ↔ ko ?
Other Materials KaiserreichKoreanTranslation en ↔ ko ?
Other Materials TheNewOrderKoreanTranslation en ↔ ko ?
Other Materials EYWOR-Korean-translation en ↔ ko ?
Other Materials Red-Flood-Korean-Translation en ↔ ko ?

2. Question Answering

주요 데이터셋

ref Name Description
1 0 KorQuAD 1.0 대표적인 한국어 QA 데이터셋. SQuAD와 동일한 형식을 따름. 6만개 수준의 데이터셋.
2 0 KorQuAD 2.0 대표적인 한국어 QA 데이터셋. HTML 태그, Table 등이 포함된 복잡한 입력이 있기도 하며 지문이 여러개인 Multi-hop 등 다양한 문제를 해결하기 위한 데이터셋.
3 0 AIHub-MRC 45만개 수준의 한국어 QA 데이터셋
4 0 AIHub-Commonsense 10만개 수준의 한국어 QA 데이터셋
5 + ARC 다지선다 문제풀이 데이터셋
6 + Story Cloze Text 지문과 두 개의 결말을 주고 어떤게 맞는지 결정
7 + SearchQA 카테고리, 검색결과, 질문과 정답 데이터셋
8 + SQuAD2 문단이 주어졌을 때 질문과 정답 데이터셋
9 1 SQuAD 위키피디아에서 생성된 질문과 정답들
정답은 주어진 지문 안에서 span으로 찾음
10 2 GLUE NLU 벤치마크 데이터셋 모음
11 3 MS MARCO Bing 질문과 사람이 작성한 정답 데이터셋
12 4 TriviaQA 위키피디아에서 수집한 텍스트 기반 질의응답 데이터셋
13 6 NewsQA CNN 뉴스 관련 MRC 데이터셋
정답이 없는 경우도 있음
14 7 RACE 영어 독해 데이터셋
지문과 질문이 주어지는 사지선다 데이터셋
15 8 HotpotQA 영문 위키피디아에서 수집한 데이터셋
지문의 여기 저기에서 정보를 수집
16 9 bAbI 질문, 정답, 사실들이 주어진 데이터셋
17 10 Natural Questions 구글 및 위키 페이지에 관련된 질문과 이에 대한 long, short 대답 데이터셋
18 11 MCTest 이야기 데이터가 주어졌을 때(한 문단보다 길 수 있음) 사지선다 형식으로 질문과 답 쌍 데이터셋
19 12 WikiQA 위키피디아 기반 질문과 해당 위키 페이지 링크, 해당 페이지의 summary, 그리고 정답 span 데이터
20 13 CoQA 주어진 passage에 대한 질문, 대답, 그리고 그에 대한 근거 데이터셋
21 14 SuperGLUE GLUE와 유사하지만 GLUE보다 조금 더 어렵고 더 다양한 task를 커버하는 데이터셋
22 17 NarrativeQA 위키 summary, 원문 link, 질문, 대답으로 이루어진 데이터셋
23 20 CommonsenseQA AMT로 생성한 상식 문제 데이터셋
24 21 DROP 위키피디아에서 수집한 passage와 질문, 그에 대한 답 데이터셋
25 22 SimpleQuestions knowledge base이지만 factoid 질의응답 데이터셋이라 일단 추가함
26 23 CBT 구텐베르크 book corpus 사용, 여러 문장을 문맥정보로 제공하고 질문과 정답 후보, 정답 데이터셋
27 27 ROCStories 짧은 이야기와 옳은 결말, 틀린 결말 데이터셋
28 28 COPA open domain에서 인과 관계 추론 task를 위한 전제와 두 후보 정답 데이터셋
29 29 QUASAR QUASAR-S와 QUASAR-T로 구성된 데이터셋으로 S의 경우 빈칸을 채우는 task, T의 경우 문맥 데이터에서 질문에 대한 답을 찾는 task에 대한 데이터셋
30 30 WinoGrande 대명사가 어떤 것을 가리키는지 찾는 task에 대한 데이터셋
특정 단어(trigger word)가 다른 두개의 문장이 주어지고 동일한 대명사가 무엇을 가리키는지에 대한 선택지 및 정답 데이터셋
31 33 MultiRC passage가 여러 문장으로 주어지고 이에 대한 질문과 선지, 정답, 그리고 정답에 대한 이유 데이터셋
32 34 WikiReading 비정형 위키 데이터에서 텍스트 값 예측
document, property, 정답 데이터셋
33 36 BoolQ 질문과 지문이 주어지면 이에 대한 예 아니오 답 데이터셋
34 37 CosmosQA 상식 기반 독해 데이터셋
지문, 질문, 사지선다 정답 주어짐
35 39 SPIDER cross-domain text-to-sql 데이터셋
36 40 MRQA 2019 독해 데이터셋
SQuAD, NewsQA, TriviaQA, SearchQA, HotpotQA, NauralQuestions 데이터를 pooling한 데이터셋
37 41 TrecQA Text retrieval conference Question Answering
상식 질의응답 데이터셋
38 43 QUASAR-T 29번 QUASAR에 포함되는 데이터셋
39 45 Social IQA Social Interaction QA
사회적 상식을 테스팅하는 데이터셋으로 문장과 질문, 대답으로 구성
40 51 ELI5 long-form 질의응답 데이터
질문, 정답, 지문이 주어지는데 정답이 여러 문장으로 나올 수 있음
41 52 decaNLP Natural Language Decathlon이라고 질의응답, 기계번역, 요약, 자연어 이해, 감성 분석 등 열가지 태스크에 대한 benchmark 데이터셋)
42 55 DREAM dialog가 지문으로 주어지고, 그에 대한 질문과 정답 데이터셋
43 56 BookTest 23번 CBT와 유사하지만 더 큰 데이터셋
44 57 Who-did-what news corpus에서 데이터 수집
같은 사건에 대한 두 개의 기사에서 한 기사는 맥락으로 사용하고 다른 한 기사는 질문 생성으로 사용한다
지문, 질문, 선택지 데이터셋
45 58 ShARC 시나리오(맥락), 질문, 정답 데이터셋
46 64 CODAH SWAG 형식의 상식 질의응답 데이터셋
description을 주고 문장을 주면 이어서 나올 선지를 선택하는 task
47 71 SelQA 영문 위키 데이터 기반으로 문장 단위 대답을 얻을 수 있는 질문 및 대답 데이터셋
48 73 TACRED RE 데이터셋, 크라우드 소싱
relation과 pos등의 정보가 태깅되어있음
49 75 QUASAR-S 19번 QUASAR에 포함된 데이터셋
50 76 ReClor 문맥, 질문, 선지, 정답이 주어지는 graduate admission exam 데이터셋
51 77 ReQA Retrieval QA
질문과 지문 주어지고 정답은 지문에 포함됨
52 82 AmazonQA Amazon dataset을 기반으로 review를 보고 질문에 대한 대답이 가능한지 가능하지 않은지 태깅해줌
정답, 질문, 카테고리, 리뷰 등으로 구성
53 85 ANTIQUE yahoo 등에서 사용자들이 실제로 한 non-factoid(where who why 이런 것들) 질의응답 데이터셋
54 91 TweetQA 기자들이 기사 작성을 위해 사용한 트윗들 수집, 사람들이 직접 질문과 답을 작성
짧은 트윗과 질문, 그리고 절 단위 정답 데이터셋
55 94 [Quizbowl 질문이 포함된 지문이 여러 문장과, 이에 대한 정답 데이터셋
56 104 ReviewQA 호텔리뷰 질의응답 데이터셋
57 105 subjQA 주관적인? subjective 질문과 리뷰, 정답 스팬이 하이라이트 되어있는 데이터셋
책, 영화, 장보기, 전자기기, 여행 등 6개의 도메인 데이터로 구성
58 107 MultiReQA retrieval 모델에 대한 데이터셋
SQuAD데이터같은 데이터셋에서 answer sentence를 retrieve하는 task
59 108 OPIEC 영문 위키에서 가져온 ie 데이터셋, pos, ner등 각종 태깅이 되어있다
60 109 ProtoQA FAMILY-FEUD라는 쇼를 기반으로 하는 상식 질의응답 데이터셋
61 110 QReCC 질의응답 데이터셋인데, 문맥에 구애받지 않도록 쿼리를 재작성한 데이터셋
62 113 WikiSuggest 구글 suggest api를 사용해서 질문 수집, 질문, 정답, 위키 지문 데이터셋
63 114 Dialog-based Language Learning dataset 모델이 학생처럼 학습할 수 있게, 질문하면 대답을 주고, 대답이 맞으면 보상을 주는 형식으로 (기본 정보나 질의응답에는 0, 정답이면 1을 태깅)
64 124 WikiHowQA answer selection 및 summarization task를 한 번에 학습할 수 있는 질의응답 데이터셋

Cross-lingual / multilingual dataset

ref Name Description
1 + DuReader 중국어 MRC 데이터셋
2 + C3 중국어 다지선다 데이터셋
3 32 MLQA 영어, 아라비아어, 독일어, 스페인어, 힌디어, 베트남어, 중국어 간체에 대해서 동일한 qa dataset이 평균적으로 4가지 다른 언어로 존재
4 44 TyDi QA 11가지 언어 데이터셋
5 49 DRCD 오픈도메인 독해 데이터셋, 중국어와 영어가 parallel하게 주어짐
6 50 XQuAD 스페인어, 독일어, 그리스어, 러시아어, 터키어, 아라비아어, 베트남어, 태국어, 중국어, 힌디어에 대한 질의응답 데이터셋으로 문맥 지문과 정답 span, 그리고 질문 데이터로 구성됨
7 62 XQA 영어, 중국어, 프랑스어, 독일어, 폴란드어, 포르투갈어, 러시아어, 타밀어, 우크라니아어 총 9개 언어로 구성된 질의응답 데이터셋
8 74 Wikiconv Wiki contributor 간의 대화 말뭉치
영어, 독일어, 러시아어, 중국어, 그리스어 지원
9 79 FQuAD 프랑스어 독해 데이터셋
10 89 MKQA 영어, 아라비아어, 덴마크어, 독일어, 스페인어, 핀란드어, 프랑스어, 히브리어, 헝가리어, 이탈리아어, 일본어, 앙코르어, 한국어, 말레이시아어, 네덜란드어, 노르웨이어, 폴란드어, 포르투갈어, 러시아어, 스웨덴어, 태국어, 터키어, 베트남어, 중국어, 홍콩중국어, 간체중국어 총 26개 언어 질의응답 데이터셋
11 96 XTREME 12 종류 언어와 9 task로 이루어진 multilingual transfer learning 데이터셋
12 106 KLEJ 폴란드어 자연어 이해 task 데이터셋
13 121 RELX 영어, 프랑스어, 독일어, 스페인어, 터키어로 구성된 관계 분류 데이터셋
14 125 XOR-TYDI QA TyDi QA 질문을 기반으로 생성한 데이터셋, TyDi QA보다 다루는 언어는 더 적음

모든 데이터셋

Name Description
0 KorQuAD 1.0 대표적인 한국어 QA 데이터셋. SQuAD와 동일한 형식을 따름. 6만개 수준의 데이터셋.
0 KorQuAD 2.0 대표적인 한국어 QA 데이터셋. HTML 태그, Table 등이 포함된 복잡한 입력이 있기도 하며 지문이 여러개인 Multi-hop 등 다양한 문제를 해결하기 위한 데이터셋.
0 AIHub-MRC 45만개 수준의 한국어 QA 데이터셋
0 AIHub-Commonsense 10만개 수준의 한국어 QA 데이터셋
+ ARC AI2Reasoning Challenge
grade-school level, multiple-choice science questions
Challenge Set & Easy Set: Challenge Set: questions answered incorrectly by both a retrieval-based algorithm and a word co-occurrence algorithm
+ QAngaroo WikiHop과 MedHop 데이터셋
+ Story Cloze Test dataset for story understanding that provides systems with four sentence stories and two possible endings
네 문장으로 이루어진 지문에 두개의 결말을 주고 어떤게 맞는 결말인지
+ SWAG Situations With Adversarial Generations
grounded commonsense inference
video caption 주고 다음에 일어날 일 고르기
+ Recipe QA multimodal comprehension of cooking recipes
+ DuReader open-domain Chinese MRC dataset
+ SearchQA full pipeline of general question-answering
question / answer / meta-data
+ AQuA Algebraic word problem dataset
+ Movie Dialog QA closed-domain QA dataset asking templated questions about movies based on Wikipedia
+ Movie Dialog Recommendations questions asking for movie recommendations
+ MTurk WikiMovies closed-domain QA asking MTurk-derived questions on movies based on Wikipedia
+ SQuAD2 open-domain QA dataset answerable from given paragraph
답을 주어진 문단에서 찾을 수 있는지 없는지 알 수 없음
+ C3 multiple-choice answering dataset in Chinese
1 SQuAD collection of qa pairs derived from wikipedia articles
correct answers of questions can be any sequence of tokens in the given text
questions and answers are produced by humans
2 GLUE collection of 9 nlu tasks
single-sentence tasks (CoLA, SST-2)
paraphrasing task (MRPC, STS-B, QQP)
nli tasks (MNLI, QNLI, RTE, WNLI)
3 MS MARCO 실제 Bing question과 사람이 작성한 answer dataset이었는데, question, nlg, passage ranking, keyphrase extraction, crawling, conversational search dataset이 추가됨
4 TriviaQA wikipedia에서 수집한 text-based qa dataset
문맥이 길고 정답이 지문 span prediction에서 직접 얻을 수 있지 않은 경우도 있기 때문에 기존의 SQuAD보다 challenging
5 ConceptNet word와 phrases를 이어주는 knowledge graph
designed to represent the general knowledge
6 NewsQA crowd-sourced mrc dataset of 120,000 qa pairs
CNN news articles
questions may be unanswerable
7 RACE english reading comprehension dataset for middle school & high school
지문 / 질문 / 답이 포함되어 있는 4개의 보기 / 답
8 HotpotQA 영문 위키피디아에서 수집한 qa dataset
crowd-sourced question
multi-hop question: 지문의 여기 저기에서 정보를 수집
9 bAbI 20가지 task로 이루어진 데이터셋
question / answer / set of facts
10 Natural Questions google.com query와 그에 해당하는 wiki page 그에 해당하는 long, short answer
long & short answer 중 둘 다 비어있을 수도 있고, short answer만 비어있을 수도 있음
11 MCTest stories & associated questions ( multiple-choice reading comprehension )
Open-domain machine comprehension
12 WikiQA Wikipedia open-domain qa
set of question & sentence pairs on open-domain qa
Bing query logs / link to wiki page / wiki summary의 각 문장
13 CoQA 주어진 passage에 대한 question & answer + evidence
지문이 주어지고 각각의 input text에 대해 정답의 span 정보 데이터
14 SuperGLUE GLUE와 유사하게 8개의 language understanding task
GLUE보다 더 어렵고, 더 다양한 task 제공
15 QuAC 14K crowdsourced QA dialog, 98K qa pair
interactive dialog btw two crowd workers
hidden wiki text에 대해 최대한 많이 알기위한 자유로운 질문을 하는 학생
short spans from text로 질문에 대한 답을 제공하는 선생
16 CNN/Daily Mail Cloze-style reading comprehension dataset
CNN & Daily Mail News data
Cloze-style : missing word has to be inferred
entity 처리가 된 passage / 엔티티 토큰으로 치환된 질문 / 해당되는 엔티티 토큰
17 NarrativeQA Title / Question / Answer / Summary snippet / Story snippet
18 WebQuestions google suggest api crawling question + AMTurk answers
19 Quara quora.com question 기반 400k question pairs
binary value indicating whether two questions are paraphrase or not
20 CommonsenseQA Amazon Mechanical Turk로 생성한 상식 문제 데이터셋
21 DROP 크라우드소스 데이터
wikipedia article에서 수집된 passage와 질문과 그에 대한 답
22 SimpleQuestions factoid qa dataset(what, which 등등의 질문)
Freebase knowledge base (약간 상식 문제 느낌)
23 CBT Project Gutenberg의 book corpus 사용
여러 문장을 context로 주고 query와 candidate, 그리고 answer 데이터
24 BioASQ question / human-annotated answers / relevant contexts on biomedical dataset
25 CORD-19 scholarly article about coronavirus
26 ATOMIC commonsense if-then reasoning
27 ROCStories commonsense short(5-sent) stories
cloze test stories
endings collected by Mechanical Turk (right / wrong)
context와 그에 대한 옳은 결말과 틀린 결말 데이터셋
28 COPA open-domain commonsense causal reasoning
premise + 2 alternatives, task: select alternative that is more plausible
29 QUASAR QUASAR-S → fill-in-the-gaps questions collected from Stack Overflow
QUASAR-T → open-domain questions collected from various internet sources
30 WinoGrande crowdsourcing, trigger word가 있음
대명사가 어떤 것을 가리키는지 찾는 task
31 WikiHop multi-hop qa dataset → document 여러개 거쳐서 답을 찾는 task
entities and relations / supporting documents are from WikiReading
여러 candidate들이 주어지고 query와 뒷받침 문장 여러개가 주어지고 답이 주어짐
32 MLQA cross-lingual question answering dataset ( English, Arabic, German, Spanish, Hindi, Vietnamese, Simplified Chinese)
동일한 qa dataset을 여러 언어로(평균적으로 질의응답별 4가지 다른 언어로 존재)
33 MultiRC short paragraphs, multi-sentence questions
paragraph의 여러 문장을 조합하면 답을 찾을 수 있는 task
정답지의 갯수는 선제시X
정답이 text의 span이라는 보장도 없다.
domain은 news, fiction, historical text 등 7 가지
34 WikiReading task: predict textual values from unstructured knowledge base wiki data
Document / Property / Answer
35 e-SNLI used for various goals, such as obtaining full sentence justifications of a model's decisions, improving universal sentence representations and transferring to out-of-domain NLI datasets
전제, 가정, label이 주어지면 premise에서 중요하다고 생각되는 부분에 하이라이트, explanation 붙임
36 BoolQ qa dataset for yes/no question
question / passage / answer(yes/no)
37 CosmosQA commonsense-based reading comprehension
passage / question / multiple-choice +answer
38 Semantic Scholar titles & abstract of scientific papers from 1985 to 2017
39 SPIDER large-scale, cross-domain semantic parsing & text-to-SQL dataset
40 MRQA 2019 dataset for evaluating generalization capability
context 주고 question 주고 answer
SQuAD, NewsQA, TriviaQA, SearchQA, HotpotQA, NaturalQuestions
out-of-domain → BioASQ, DROP, DuoRC, RACE, RelationExtraction, TextbookQA
각각의 데이터를 본인들 형식으로 수정
41 TrecQA Text Retrieval Conference Question Answering (TREC-8 ~ TREC-13)
Q: Who was Lincoln’s Secretary of State? / A: William Seward
42 InsuranceQA question answering dataset for the insurance domain
43 QUASAR-T 43013 open-domain trivia questions & their answers from various internet sources
answer → free-form spans of text, mostly noun phrases
44 TyDi QA 11 typologically diverse languages
multilingual dataset
45 Social IQA social common-sense intelligence
motivation, 다음에 일어날 일, emotional reaction 등을 추론하는 task
context / question / answer(multiple choice)
46 WikiMovies question answering for movies content
47 ComplexWebQuestions qa that require reasoning over multiple web snippets
interact with search engine / reading comprehensin task / semantic parsing task
48 DuoRC pairs of movie plots / each pair reflects two versions of same movie
답이 없는 경우도 있고, 주어진 지문 외의 지식으로 답을 해야하는 경우도 있음
49 DRCD open domain traditional Chinese machine reading comprehension dataset
중국어와 영어가 parallel로 passage, question, answer가 주어진다
50 XQuAD benchmark dataset for evaluating cross-lingual question answering performance
Spanish, German, Greek, Russian, Turkish, Arabic, Vietnamese, Thai, Chinese, Hindi
Context paragraph with answer spans / Questions
51 ELI5 long-form question answering, part of Dodecadialogue
Question / Answer / Documents
Answer가 여러 문장
52 decaNLP Natural Language Decathlon(10종 경기) Benchmark
qa, mt, summarization, nli, sentiment analysis, semantic role labeling, zero-shot relation extraction, goal-oriented dialogue, sp, common-sense pronoun resolution
53 emrQA 1M question-logical form / domain specific large-scale qa dataset
데이터 생성을 logical form slot filling으로 한 것으로 보임
passage / question / answer
54 QASC qa focus on sentence composition
8-way multiple-choice grade(?) school science
과학 문제 / 정답 / annotated facts
55 DREAM multiple choice dialogue based reading comprehension examination dataset
collected from english-as-a-foreign-language examinations
dialogue / question / choices + answer
56 BookTest CBT(Children’s Book Test, 23번 데이터셋)와 유사하지만 60배 큰 데이터셋
57 Who-did-What news corpus에서 데이터 수집, CBT와 유사한 질문
각각의 질문은 2개의 독립적인 기사(?) → 한 기사로는 맥락을 제공하고 동일한 사건에 대한 다른 기사로 query를 생성한다
Passage / Question / choices
58 ShARC Conversational qa dataset, text containing rules
Category / Questions+Answer / Scenario / %
59 CliCR domain specific reading comprehension for cloze queries from clinical case reports
60 BREAK complex question을 이해할 수 있게 하는 데이터셋
Question Decomposition Meaning Representation이 주어진다
61 MathQA AQuA dataset 개선
질문 / 수식 스택 / argument 추가
62 XQA 90K qa pairs in 9 languages for cross-lingual open-domain qa
multilingual dataset → language / question / answer
63 MetaQA movie ontology based on WikiMovies dataset, 3-hop queries
64 CODAH Common-sense qa in SWAG style
사람들이 피드백을 기반으로 직접 생성
Description을 주고 문장을 주면 이어서 나올 선지를 선택
65 PubMedQA yes/no/maybe로 대답할 수 있는 research question answer dataset
biomedical question answering dataset
66 MedHop WikiHop과 유사하게 PubMed에서 수집한 biomedical qa dataset
67 CSQA Complex Sequential QA
1.6M turn으로 구성된 dialog dataset
단일 튜플로 대답할 수 있는 질문들과는 달리 더 큰 subgraph가 필요한 질문들로 구성
Knowledge graph 사용
68 CLOTH Cloze test by teacher → 빈칸에 들어갈 단어 찾기, 4지선다
middle, high school level english language exam
69 ComQA Complex Factoid QA with Paraphrase Clusters
compositionality(합성성, 의미이론), temporal reasoning, comparison등의 task
WikiAnswers community QA platform에서 가져온 데이터
-> 보통 search engine에서 답을 얻기 어려운 질문들도 포함되어있음
70 QuaRel crowdsource 데이터, multiple-choice story questions
71 SelQA crowdsource 데이터, sentence length answer drawn from 10 most prevalent topics in english wiki
72 CovidQA kaggle covid-19 dataset
73 TACRED dataset
RE dataset, annotated by crowd workers
각각의 type과 span이 tag로 달려있음
74 WikiConv history of conversations between contributors to Wikipedia
Eng, German, Russian, Chinese, Greek 지원
75 QUASAR-S QA by Search and Reading, Stack overflow
cloze-style queries on definitions of software entity tags on Stack overflow
답은 정해진 4874 entity에서만 있음
Question / Answer / Context excerpt
76 ReClor logical reasoning questions of standardized graduate admission exam
Context / Question / Option / Answer
77 ReQA Retrieval Question Answering, large set of document에서 답을 찾아오는 task
Question / Answer in context
78 WIQA What-If QA
perturbation(섭동, 천체의 궤도에 영향을 미치는 인력)을 설명하는 dataset
79 FQuAD French Native Reading Comprehension dataset on Wikipedia articles
80 QuaRTz Crowdsourced dataset of multiple-choice on open domain qualitative relationship (더 많고 더 적고 증가하고 줄어들고 등의 관계를 알아내는 것)
각 질문은 405개의 background sentences와 paired
81 Qulac question for lack of clarity in open-domain information-seeking conversations
모호한 질문이 들어왔을 때 좀 더 구체적으로 되묻는 데이터셋으로 추정
82 AmazonQA 923k questions, Amazon dataset을 기반으로 review를 보았을 때 각각의 질문이 대답 가능한지 가능하지 않은지 태깅해줌
answers / Question text / Category / review-snippets
83 ODSQA open-domain spoken dataset in Chinese
84 SciREX document level IE dataset
85 ANTIQUE 2626 open-domain non-factoid questions
yahoo 등에서 실제 유저들이 한 질문들로 구성
86 GenericsKB generic sentences dataset → generic은 ai 시스템에서 knowledge source로 쓰임
87 TechQA domain-adaptation qa dataset for technical support domain
technical forum에서 사용자들이 한 질문들로 구성되어있음
IBM Developer, IBM Developer Works에서 가져옴
88 CCPE-M user와 assistant 간의 영어 발화 데이터
two paid crowd workers using wizard-of-oz methodology
89 MKQA Multilingual Knowledge QA
open-domain qa dataset, 26개 언어 지원 ( 한국어 포함 )
90 Mathematics dataset 수학 질문 & 답 데이터셋, 문제에 수식이 포함되어 있는 경우도 있고 없는 경우도 있음
91 TweetQA journalist들이 뉴스 기사 작성을 위해 사용한 트윗들 수집
인간 annotator들이 질문과 답을 작성, abstractive한 answer들 있음
task: read short tweet and question → output text phrase as answer
92 CQASUMM Community QA Summarization
4.4 mil Yahoo!로 생성한 dataset
93 FreebaseQA open-domain QA over Freebase knowledge graph, open-domain
trivia(Quiz) data를 Freebase에 맞게 고치고, human annotator가 verify
94 Quizbowl multiple sentences, clues arranged by difficulty, identify entity
지문이 여러 문장으로 주어지고, 질문이 포함되어 있음, 다 읽고 정답 맞추는 형식
95 X-WikiRE multi-lingual relation extraction dataset
독일어, 영어, 스페인어, 프랑스어, 이탈리아어 지원
ex. 아마존은 어디에 위치하는가 → context 보고 정답 맞추는 것
96 XTREME Cross-lingual TRansfer Evaluation of Multilingual Encoder
multilingual transfer learning
40 typologically diverse language spanning 12 language families
97 HeadQA multi-choice qa, Spanish healthcare system 입사(?) 시험 data
98 PEYMA NER dataset, document from 10 news websites
99 Almawave-SLU Italian dataset for Spoken Language Understanding
100 COVID-Q CoVID-19 questions
101 ClarQ Stackexchange에서 가져온 데이터
102 JEC-QA Legal Question Answering dataset from 중국 국가 법 시험
103 MATINF Maternal and Infant dataset → 중국의 임신 육아 도메인 qa 데이터셋
104 ReviewQA 호텔 리뷰 qa dataset
105 SubjQA subjective에 집중하는 qa dataset
books, movies, grocery, electronics, TripAdvisor 등 6개 도메인 데이터
question & review, span is highlighted as answer
106 KLEJ 9 eval task for Polish language understanding task
107 MultiReQA cross-domain eval for retrieval qa model
SearchQA, TriviaQA, TextbookQA 등의 데이터셋 포함, 몇몇은 테스트 데이터만 있음
108 OPIEC Open Information Extraction Corpus
English Wikipedia로 만든 Open Information Extraction corpus
Pos tag, NER tag 등의 태그가 달려있음
109 ProtoQA common sense reasoning, FAMILY-FEUD라는 쇼에서 가져온 데이터, eval set은 크라우드 소싱
110 QReCC 14k conversation w
111 ScienceExamCER 초중등 수준 과학 시험 데이터
112 Shmoop Corpus 231 stories paired with detailed summary for each chapter
cloze task, abstractive summarization task등이 있음
113 WikiSuggest 구글 suggest api를 사용해서 question 수집
google search가 위키에서 찾은 짧은 답을 가져오면 question / answer / wiki doc 생성
정확한 답 없으면 prune
114 Dialog-based Language Learning dataset 모델이 학생처럼 학습할 수 있게, 질문하면 대답을 주고, 대답이 맞으면 보상을 주는 형식으로 (기본 정보나 질의응답에는 0, 정답이면 1을 태깅)
115 MEDIQA-AnS consumer health question 관련 question-driven summaries of answers
116 MeQSum dataset for medical question summarization
117 MilkQA dairy domain qa dataset, Portuguese
118 NQuAD Nuclear Question Answering Dataset
119 NText 8 mil word dataset in nuclear paper domain
120 OTT-QA Open Table-and-text QA dataset
table이나 text를 웹에서 가져다가 대답을 해야되는 형식
HybridQA dataset에서 re-annotate한 것
121 RELX cross-lingual relation classification dataset in 영어, 프랑스어, 독일어, 스페인어, 터키어
122 SCDE 중국 학교 영어시험에서 가져온 human-created sentence cloze dataset
123 TupleInf Open IE Dataset Open IE tuples extracted from “Answering Complex Questions Using Open Information Extraction”
124 WikiHowQA Community based qa dataset
Joint Learning of Answer Selection and Answer Summary Generation in Community Question Answering이라는 논문에서 제안
125 XOR-TYDI QA TyDi QA의 질문을 기반으로 생성한 cross-lingual dataset

3. Dialogue

Name Descriptions
Persona Chat 두 명의 크라우드 소서에게 페르소나가 제공되고 서로에 대해 알아가는 대화를 진행하는 데이터셋
ConvAI2 Persona Chat 데이터셋을 기반으로 하는 컴피티션 (NIPS2018)
Empathetic Dataset (ED) 어떠한 상황 등이 주어지면 그에 대해 대화하는 데이터셋. 봇의 감정적인 이해 능력을 향상시키기 위해 만듦.
Wizard of Wikipedia 주어진 주제에 대해 잘 알고있는 마법사와 호기심 많은 견습생 간의 대화를 수행하는 데이터셋. 봇이 어떤 사실에 대해서 잘 대답하게 할 수 있음.
Blended Skill Talk 위 세가지 데이터셋 (페르소나, 감정이해, 지식이해)를 통합한 데이터셋. 블렌더봇 학습에 사용됨
Cornell Movie 영화 자막으로 이루어진 데이터. 내용은 픽션임.
Dialogue NLI 대화 중 컨시스턴시를 유지시키기 위한 데이터셋이. 이 데이터셋으로 NLI를 같이 학습하면 그런 약점들이 좀 완화되지 않을까 싶음.
Reddit 레딧 쓰레드를 이어붙여서 만든 대화 데이터
Twitter 트위터에서 크롤링한 대화 데이터
Open Subtitles 영화 자막을 모아놓은 데이터
Daily Dialog Topic, Emotion, Utterance Action 등이 잘 정리된 대화 데이터
Holl-E 영화에 관련된 Background knowledge를 포함하는 대화 데이터
ReDial 한 유저가 다른 유저에게 영화를 추천하는 대화를 수행하는 데이터
Image Chat 215개의 개인의 성격 특징을 활용해서 대화를 나눈 데이터셋
Style-Controlled Generation Image chat를 참고하였음. 레이블이 지정된 대화 데이터셋
DECODE 마지막 발화가 이전 대화 기록들과 모순되는지 여부를 디텍션 하는 데이터셋
TaskMaster-1 2019 Google에서 공개한 고품질 대화 데이터.