/cged_datasets

历届中文句法错误诊断技术评测数据集

CGED 数据集

本数据为中文句法错误诊断技术评测(Chinese Grammatical Error Diagnosis, CGED)自2014年第一届举行以来至今所发布的数据。

2014、2015与2016年繁体中文数据来自**师范大学。2016、2017与2018年简体中文数据来自北京语言大学。2020年及之后数据主要来源于北京语言大学语言资源高精尖创新中心、北京语言大学语言监测与智能学习(BLCU-ICALL)研究组。各年度的错词类型错误(S)在词边界的划定上可能有些许出入,这是由于不同年度的规则和标注差异所致,总体仍在可控范围内。

本数据仅供技术评测、学术研究和公益目标的免费服务使用,任何商业使用请联系北京语言大学饶高琦老师(raogaoqi@blcu.edu.cn)购买。

此外,本数据使用、分发适用Creative Commons (CC BY-NC-ND 4.0) 开源许可证书的条款。

使用本数据开展的科研工作,请务必引用:

Gaoqi Rao, Erhong Yang, and Baolin Zhang. Overview of NLPTEA-2020 Shared Task for Chinese Grammatical Error Diagnosis. Proceedings of the 6th Workshop on Natural Language Processing Techniques for Educational Applications (NLPTEA-2020).

Gaoqi Rao, Qi Gong, Baolin Zhang, and Endong Xun. 2018 Overview of NLPTEA-2018 Share Task Chinese Grammatical Error Diagnosis. Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications (NLPTEA-2018).

在研究过程中,欢迎参考各年度评测workshop论文集中参赛队伍所述之方法、流程,欢迎引用论文集中各队技术报告。