NLP Data Set of Emotion Analysing

说明

Emotion analyse data sets for natural language processing.

这是套用于自然语言处理文本情感分析的数据集。

上传了EmotionNLP(Simplified-Chinese).zip，里面压缩了一个简体中文的通用文本情感分析数据集(CSV格式)。

数据集结构说明：该数据集有两个字段，第一列为文本数据，第二列为标签，其中0表示消极情绪(或贬义语义)，1表示积极情绪(或褒义语义)。

数据量：该数据集的数据量为287936行。

数据来源与内容：文本主要来自于某些大型数据集的合并：1.微博网友对各类博文与帖子的评论。2.旅客在某些酒店的官方网站上，对这些酒店的评价。3.消费者在国内各大电商网购各类商品后，对商品的售后评价。4.某些视频网站上，网友对多部电影的评价。5.一些比较经典的，能够反映人积极或消极情绪的书面语。

数据集效果：随机挑选积极与消极文本各6000条，投喂到百度的EasyDL里进行高精度模式下的训练，测得模型的综合准确度为94.01%。若使用完整的数据集，预计准确度可达到98%~99%左右。

数据处理情况：进行了简单的数据清洗工作 (对原始数据进行了合并和去除空项，删除了一些明显不合适的项，最后对剩下的数据随机排序)，如需用于商业，建议对数据作进一步处理。

Number of Total Visits: