lancopku/pkuseg-python

分词结果严重错误

wencan opened this issue · 5 comments

wencan commented

cython-3.0.2 pkuseg-0.0.25

pkuseg.pkuseg().cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。')

输出是:
['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO王', '海峰', '博士', '作', '序', ',', '张', '钹', '院士', '、', '李', '未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

放弃吧,这库已经不维护了

seg = pkuseg.pkuseg(model_name='web') # 程序会自动下载所对应的细领域模型
text = seg.cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') # 进行分词
print(text)
输出:
['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO', '王海峰', '博士', '作序', ',', '张钹', '院士', '、', '李未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

我试了一下结果还蛮正常哎

seg = pkuseg.pkuseg(model_name='web') # 程序会自动下载所对应的细领域模型 text = seg.cut('本书由百度官方出品,百度公司CTO王海峰博士作序,张钹院士、李未院士、百度集团副总裁吴甜联袂推荐。') # 进行分词 print(text) 输出: ['本书', '由', '百度', '官方', '出品', ',', '百度', '公司', 'CTO', '王海峰', '博士', '作序', ',', '张钹', '院士', '、', '李未', '院士', '、', '百度', '集团', '副总裁', '吴甜', '联袂', '推荐', '。']

我试了一下结果还蛮正常哎

因为你用的是web模型,用default模型结果就和楼主一样了