/SABT

基于主题的文本情感分析

Primary LanguagePython

结果

第10名

问题

分词效果

现在使用jieba分词。

解决方案:

  • 使用thulac分词。
  • 用CRF进行序列标注

存在句子中含错别字问题。

解决方案:

  • 用API纠错。暂时不考虑,过度纠错

词典问题

主要问题:训练数据2w,测试数据2w --> 词典数量过低

解决方案:

  • 加入外部词典:现在效果是加入外部词典后,效果更差

<情感、主题>查找、前缀词查找

现在不限步长查找。

解决方案:

  • 可限定步长。

前缀词词典不完善。

解决方案:

  • 重新处理前缀词词典。