构建**百科词库,作为jieba分词的自定义词库。爬取百度输入法词库,将.bdict文件解析为txt文件.
- get_baiduciku.py 爬虫代码
- 爬虫结果集 .bdict文件 包含城市区划、理工行业、人文社会、电子游戏、生活百科、娱乐休闲、人名专区、文化艺术、体育运动9个大分类下的所有细分类词库
- BdictParser.py 将.bdict后缀的文件解析成txt文件
- txt解析结果集
- baidu_nouns.txt 词库汇总集合
length 4,236,599
构建**百科词库,作为jieba分词的自定义词库。爬取百度输入法词库,将.bdict文件解析为txt文件.
length 4,236,599