云移杯 2018

2018年云移杯---景区情感词分类（评分1-5）

题目描述

本赛题通过获取网友反馈的评论文本跟评论分值做训练数据，期望通过机器学习得出评论文本与评论分值之间的关系。本赛题任务要求必须使用本赛题提供的数据作为训练集，不得额外扩展训练集。允许使用第三方提供的数据字典文件，但字典内容不能与比赛文本一致。

题目数据属于基本的中文文本，含部分英文字符；题目数据初赛+复赛约三万数据，且数据多为旅游评论数据（一部分数据源于驴妈妈，携程等第三方平台爬虫获取）

由于题目label区间为1-5，且评分之间存在一个潜在的等级关联。（其实是评分方案是mse，所以采用了回归方案，分类效果不太好，没有采用（我认为这个地方不合理，故意优化mse，可能导致其他指标效果变差））

好的评论千篇一律，坏的评论大多雷同

代码整理后尽快上传

基本结构图