/CHScope

中文模糊限制语及其限制范围检测语料

中文模糊限制语及其限制范围语料库

中文模糊限制语语料资源十分缺乏,影响了中文模糊限制语和模糊限制信息检测的研究。我们研究了中文模糊限制语的分类, 并在生物医学和维基百科两个领域,设计构建了中文模糊限制语及其限制范围语料库(Chinese Hedges and their Scope Corpus,CHScope)。语料库分别标注了模糊限制语及每个模糊限制语的限制范围。这些资源对于中文模糊限制信息检测研究,以及中文事实信息的抽取具有重要意义。同时,为语言学家从语义和语用等方面进行模糊限制语的研究提供了强大的知识库支持
##语料库统计数据与分析 中文模糊限制语语料库包含生物医学和维基百科两个领域共标注语料 24414 句,约 100 万词。
其中模糊限制性句子 8160 句,模糊限制语 11904 个。
维基百科文章中,33.78% 的句子包含模糊限制信息;生物医学文献中,摘要中25.28% 的句子,全文中 35.09% 的句子包含模糊限制信息。
生物医学领域分为5个部分来进行标注,包括Abstract.xml、Conclusion.xml、Discuss.xml、Fullpaper.xml、Result.xml 五个部分。
维基百科领域为一个部分来标注,名字为Wiki.xml
标注格式采用xml格式进行标注,详细的标注原理请参考论文(中文模糊限制语语料库的研究与构建)
##参考文献 如果你使用了我们的语料,请引用下面这篇参考文献。
周惠巍, 杨欢, 张静,等. 中文模糊限制语语料库的研究与构建[J]. 中文信息学报, 2015, 29(6):83-89. ##联系方式
如果在使用过程中发现了语料的问题,请及时联系我们。
邮箱地址:zhou_huiwei@163.com