/ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2000-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。

ChineseDiachronicCorpus

ChineseDiachronicCorpus,中文历时语料库,横跨六十余年,包括腾讯历时新闻2009-2016,人民日报历时语料1946-2003,参考消息历时语料1957-2002。基于历时流通语料库,可用于历时语言变化计算、语言监测、社会文化变迁研究提供基础性的语料支持。该项目由公开渠道收集而成,不可商用,若有侵权,可联系删除。

项目的由来

语言是人类重要的交际工具,同时也是社会的镜子,语言记录并反映了社会,对语言记录进行挖掘、计算,可以从各个层面对社会进行解读。例如,基于语料库进行词语考察,以反映单个词语在不同时间周期中的使用及变动情况。 以语料为载体,挖掘出属于某个特定时间周期的社会特点,例如年度关键词、年度人物、年度流行语;对词语进行文化计算,如颜色计算、性别计算、观点计算等,以考察整个社会对某一事物、看法的演变。
当前,开源可用的中文历时语料库较少。代表性的有北京语言大学国家语言资源监测与研究平面媒体中心DCC动态流通语料库,其对国内数十家报纸媒体进行监测,也有**传媒大学网络媒体中心的历时语料库可以使用。
当前,随着网络技术的发展以及采集技术的相对成熟,构建起历时语料库变得越来越容易,这就使得向外界共享历时语料库变得更为便利且必要。

本项目,旨在通过公开收集的方式,从网络媒体和平面媒体两个角度出发,形成腾讯新闻、人民日报、参考消息三大历时语料库,以供社会开放使用。

项目的用途

那么,基于这个语料库,能够做什么呢?总结了下,至少可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。

用途名称 技术手段 应用场景
词语考察 分词、词频统计 通用词表等编写
语义计算 共现词、MI搭配、依存搭配 搭配等语义词典编写
热度计算 流通度计算、术语提取 流行语等发布
文化计算 颜色计算、性别计算 文化变迁
媒体对比 媒体差异计算 传播学研究
语法研究 语法模式检索 语法教材与词典编写

项目的获取

对于如何获取数据,项目已经将数据发布至百度网盘,下表是对数据集的介绍,需要使用的可以开放下载使用。

数据名称 时间跨度 数据大小 链接
腾讯新闻 2009-2016 5GB 链接:https://pan.baidu.com/s/16VMV1JioSrKGUQ0T7YfIGw 密码:57ux
人民日报 1946-2003 3.44GB 链接:https://pan.baidu.com/s/1vUwt7hpoQLx-vgzsZjaBlw 密码:jyvo
参考消息 1957-2002 1.1GB 链接:https://pan.baidu.com/s/1Ux_WCpkLqtfE60jXfGD3ow 密码:6ekf

关于作者

刘焕勇,**科学院软件研究所,兼任数据地平线科技算法总监,专注金融、情报两大领域,从事事件抽取、事件演化、情感分析、事理(知识)图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,可联系我:
1、我的github项目介绍:https://liuhuanyong.github.io
2、我的csdn技术博客:https://blog.csdn.net/lhy2014
3、我的联系方式: 刘焕勇,**科学院软件研究所,lhy_in_blcu@126.com.
4、我的共享知识库项目:刘焕勇,数据地平线,http://www.openkg.cn/organization/datahorizon.
5、我的工业项目:刘焕勇,数据地平线,大规模实时事理学习系统:https://xueji.datahorizon.cn.
6、我的工业项目:刘焕勇,数据地平线,面向事件和语义的自然语言处理工具箱:https://nlp.datahorizon.cn