百度百科中文语料,包括 9147759 条词条 下载地址:
链接:https://pan.baidu.com/s/1trpfFEbw094jJkQ2GxiHfA
提取码:conf
下载好的文件需要解压后成为一个独立的txt
本库包括处理程序,可以将原始数据处理成json 形式。 修改程序中的路径配置为实际路径即可。
DBFILE 可以指向一个不存在的文件,但是目录要存在。
DATAFILE 要指向解压出来的百科数据原始数据。
数据可以使用dbeaver 查看浏览编辑
**注意**
本程序仅供研究使用。学术研究使用这些语料 不侵犯商业版权。