tensorlayer/text-antispam

短文本的识别问题

gglinux opened this issue · 1 comments

问题描述

使用CNN模型长文本识别效果挺好的。但是针对短文本的话,识别效果就比较差了。本身短文本的特征较少是一个原因。但是将短文本加入训练后,实际训练后的效果也不是特别好。请教下有没有其他的办法来处理?

实际结果

酒店援交:{"data": {"text": "\u9152\u5e97\u63f4\u4ea4", "predict": 0}}

淫乱少妇:{"data": {"text": "\u6deb\u4e71\u5c11\u5987", "predict": 0}}

代f开发f票联系QQ3486693982:{"data": {"text": "\u4ee3f\u5f00\u53d1f\u7968\u8054\u7cfbQQ3486693982", "predict": 1}}

有对比过全连接的模型吗?文本太短的话,CNN的几个卷积核可能没有充分发挥它的优势。另外词向量也会影响分类器的效果,加入新样本的时候是否有重新训练词向量?