关于分词粒度问题

Question

woyijkl1 opened this issue 7 years ago · 1 comments

就我的问题而言，分词后通常会包含一些组合型词汇，比如“计划生育” “恐怖袭击”，但是现有的中文词向量很可能没有“计划生育” “恐怖袭击”等词汇，有没有考虑，做一些分词粒度上的工作？例如可以设置分词粒度，把“恐怖袭击”分词为“恐怖” “袭击”

Answer 1 · 2018-06-22T02:54:19.000Z

分词粒度主要是受到训练语料的影响，我们使用的是以人民日报为主的语料，有一些词汇在标注的时候就是链接在一起的，所以在切词的时候粒度较大