ChineseSquad: A repository from junzeng-pluto

ChineseSquad

中文机器阅读理解数据集，本数据集通过机器翻译加人工校正的方式从原始Squad转换而来，其中包括V1.1 和V2.0。由于部分翻译无法找到原文中的答案（短答案翻译和文档翻译有出入），故数据量对比原始英文版SQuAD 有所减少。

2020.01.13 将V 1.1 和V2.0 两个中文版本进行合并，详情请参考正式版的 squad-zen V 1.0。能通过huggingface 的transfomers 加载，便于研究人员利用本数据集和大量预训练模型测试和验证自己的中文机器阅读理解模型。

现有中文抽取式机器阅读理解数据集存在数据量较小，或者领域专一的特点

model	data	dev-EM	dev-F1
BERT-base	v1.1	56.74	56.79
BERT-base	V2.0	61.14	61.17
BERT-base	zen 1.0	70.84	70.86
RoBERTa-large	zen 1.0	72.94	72.97

感谢百度云提供计算服务

该数据集只能用于学术研究，请勿商用。