zhusleep/comments_miner

Jupyter Notebook

本数据集为化妆品品类的评论数据。为保护品牌隐私，数据已做脱敏，相关品牌名等用**代替；
id字段作为唯一标识对应Train_reviews.csv中的评论原文和Train_labels.csv中的四元组标签。一条评论可能对应多个四元组标签；
Train_labels.csv中的A_start和A_end表示AspectTerm在评论原文中的起始位置；O_start和O_end表示OpinionTerm在评论原文中的起始位置。若AspectTerm为"_",则A_start和A_end为空，OpinionTerm同理；（注：预测结果不需要位置信息，仅考察四元组的预测情况）
AspectTerm和OpinionTerm字段抽取自评论原文，与原文表述保持一致。若AspectTerm或OpinionTerm为空，则用“_”表示；
Category字段的结果属于以下集合（具体以训练集为准）：

{ 包装，成分，尺寸，服务，功效，价格，气味，使用体验，物流，新鲜度，真伪，整体，其他 }

Polarity字段的结果属于以下集合（具体以训练集为准）：

{ 正面、中性、负面 }

目前使用方法pipeline

ner_predict.py 实体识别
ner_link_predict.py 两两实体匹配形成关系
ner_cate_predict.py 关系极性判断
** 后缀为train.py的是实验代码，predict.py的是正规训练预测代码