thunlp/THULAC-Python

关于分词粒度问题

woyijkl1 opened this issue · 1 comments

就我的问题而言,分词后通常会包含一些组合型词汇,比如“计划生育” “恐怖袭击”,但是现有的中文词向量很可能没有“计划生育” “恐怖袭击”等词汇,有没有考虑,做一些分词粒度上的工作?例如可以设置分词粒度,把“恐怖袭击”分词为“恐怖” “袭击”

分词粒度主要是受到训练语料的影响,我们使用的是以人民日报为主的语料,有一些词汇在标注的时候就是链接在一起的,所以在切词的时候粒度较大