向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,本文研究面向古诗词可读性自动化分析的数据集构建。我们对外开放包含1915篇古诗词的标注阅读理解难度的数据集①。我们首先将数据集划分成易中难三级,构建数据集APRD;然后进一步细化标注构建六级分类数据集APRD+。我们抽取教材中的诗词组成标准集,以年级为标准难度级别,计算标准集与APRD、APRD+之间的Spearman相关性分别为0.786与0.804,表明该数据集标记结果与标准集具有较高一致性。本文提取了字频、注释数等古诗词特征,采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试。本文提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准。
该文件包含未经任何预处理的诗词源文本及其原文链接。
- idx:诗词唯一标志符
- poem_text:诗词源文本内容
- url:获取诗词原文的古诗文网站链接
该文件与 raw_poem_text.csv
类似,仅对文本进行分字预处理。
该文件中提供了人工标记的诗词难度级别,共划分成易中难
三级,用数据1/2/3
表示。
- idx:诗词唯一标志符
- difficulty_level:难度级别
- url:古诗文网链接
类似于APRD.csv文件,但难度划分级别为六级。
该文件提供了部分出现在教材中诗词的所属年级,我们将其作为该首诗词的实际难度系数,用于与我们提供的诗词难度标记结果做一致性比较。
-
No:诗词序号
-
grade:诗词所在的年级
-
idx:诗词在
raw_poem_text.csv
文件中的标志符 -
title:诗词标题
-
url:古诗文网连接
ARPD数据集与专家标注的教材的一致性对比结果:
类似的:APRD+与专家标注结果的一致性比较: