/--ERNIE

本篇基于paddle高级api的千言情感分析比赛。

Primary LanguageJupyter NotebookMIT LicenseMIT

ERNIE

本篇基于paddle高级api的千言情感分析比赛。

千言情感分析比赛

该比赛分为三种级别情感分析:句子级情感分类、评价对象级情感分类、观点抽取。下面就三种情况进行建模。 本次使用aistudio进行实验环境,使用 skep_ernie_1.0_large_ch 作为预训练模型 相关介绍以及比赛可以参考:

1. 句子级情感分类

数据集名称 训练集大小 开发集大小 测试集大小
ChnSentiCorp 9,600 1,200 1,200
NLPCC14-SC 10,000 / 2,500
ChnSentiCorp
train:
label	text_a
1	选择珠江花园的原因就是方便,有电动扶梯直接到达海边,周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般,但还算整洁。

test:
qid	text_a
0	这个宾馆比较陈旧了,特价的房间也很一般。总体来说一般

dev:
qid	label	text_a
0	1	這間酒店環境和服務態度亦算不錯,但房間空間太小~~不宣容納太大件行李~~且房間格調還可以~~ 
NLPCC14-SC
train:
label	text_a
1	请问这机不是有个遥控器的吗?

test:
qid	text_a
0	我终于找到同道中人啦~~~~从初中开始,我就已经喜欢上了michaeljackson.但同学们都用鄙夷的眼光看我。。。。

2 评价对象级情感分类

数据集名称 训练集大小 开发集大小 测试集大小
SE-ABSA16_PHNS 1,336 / 529
SE-ABSA16_CAME 1,317 / 505
SE-ABSA16_PHNS
train:
label	text_a	text_b
1	phone#design_features	今天有幸拿到了港版白色iPhone 5真机,试玩了一下,说说感受吧:1. 真机尺寸宽度与4/4s保持一致没有变化,长度多了大概一厘米,也就是之前所说的多了一排的图标。2. 真机重量比上一代轻了很多,个人感觉跟i9100的重量差不多。(用惯上一代的朋友可能需要一段时间适应了)3. 由于目前还没有版的SIM卡,无法插卡使用,有购买的朋友要注意了,并非简单的剪卡就可以用,而是需要去运营商更换新一代的SIM卡。4. 屏幕显示效果确实比上一代有进步,不论是从清晰度还是不同角度的视角,iPhone 5绝对要更上一层,我想这也许是相对上一代最有意义的升级了。5. 新的数据接口更小,比上一代更好用更方便,使用的过程会有这样的体会。6. 从简单的几个操作来讲速度比4s要快,这个不用测试软件也能感受出来,比如程序的调用以及照片的拍摄和浏览。不过,目前水货市场上坑爹的价格,最好大家可以再观望一下,不要急着出手。

test:
qid	text_a	text_b
0	software#usability	刚刚入手8600,体会。刚刚从淘宝购买,1635元(包邮)。1、全新,应该是欧版机,配件也是正品全新。2、在三星官网下载了KIES,可用免费软件非常多,绝对够用。3、不到2000元能买到此种手机,知足了。
SE-ABSA16_CAME
train:
label	text_a	text_b
0	camera#design_features	千呼万唤始出来,尼康的APSC小相机终于发布了,COOLPIX A. 你怎么看呢?我看,尼康是挤牙膏挤惯了啊,1,外观既没有V1时尚,也没P7100专业,反而类似P系列。2,CMOS炒冷饭。3,OVF没有任何提示和显示。(除了框框)4,28MM镜头是不错,可是F2.8定焦也太小气了。5,电池坑爹,用D800和V1的电池很难吗?6,考虑到1100美元的定价,富士X100S表示很欢乐。***好处是,可以确定,尼康会继续大力发展1系列了***另外体积比X100S小也算是A的优势吧***。等2014年年中跌倒1900左右的时候就可以入手了。

test:
qid	text_a	text_b
0	camera#quality	一直潜水,昨天入d300s +35 1.8g,谈谈感受,dx说,标题一定要长!在我们这尼康一个代理商开的大型体验中心提的货,老板和销售mm都很热情,不欺诈,也没有店大欺客,mm很热情,从d300s到d800,d7000,到d3x配各种镜头,全部把玩了一番,感叹啊,真他妈好东西!尤其d3x,有钱了,一定要他妈买一个,还有,就是d800,一摸心中的神机,顿时凉了半截,可能摸她之前,摸了她们的头牌,d3x的缘故,这手感 真是差了点,样子嘛,之所以喜欢尼康,就是喜欢棱角分明的感觉,d3x方方正正 ,甚是讨喜,d800这丫头,变得圆滑了不少,不喜欢。都说电子产品,买新不买旧,我倒不认为这么看,中低端产品的确如此,但顶级的高端产品,真不是这么回事啊,d3x也是51点对焦,我的d300s也是51点,但明显感觉,对焦就是比d300s 快,准,暗部反差较小时,也很少拉风箱,我的d300s就不行,光线不好反差较小,拉回来拉过去,半天合不上焦,说真的,一分价钱一分货啊,d800电子性能 肯定是先进的,但机械性能 跟d3x还是没可比性,传感器固然先进,但三千多万 像素 和两千多万像素 对我们来说,真的差别这么大吗?d800e3万多,有这钱真的不如加点买 d3x啊,真要是d3x烂,为什么尼康不停产了?人说高像素 是给商业摄影师用,我们的音乐老师,是业余的音乐制作人,也拍摄一些商业广告,平时他玩的时候 都是数码什么的,nc 加起来十几个,大三元全都配齐,但干活的时候,还是120的机器,照他那话说,数码 像素太低,不够用啊!废话说太多了,谈谈感受吧,当初一直在纠结d7000和d300s,都说什么d7000画质超越d300s,我也信,但昨天拿到实机后,我瞬间就决定 d300s了,我的手算小的,握住d300s,我感觉,刚刚好,而且手柄凹槽 ,我觉得还不够深,握感不是十分的充盈,这点要像宾得k5学习,而且d7000小了一点,背部操作空间局促,大拇指没地放,果断d300s,而且试机的时候,我给d300s 换上了24-70,可能我练健身比较久了,没感觉有啥重量,蛮趁手的,现在配35 1.8 感觉轻飘飘的,哈哈,

3 观点抽取

观点抽取的情感分析参考

Jordan的项目:基于Skep模型的情感分析比赛

『NLP打卡营』实践课5:情感分析预训练模型SKEP

『NLP打卡营』实践课3:使用预训练模型实现快递单信息抽取

数据集名称 训练集大小 开发集大小 测试集大小
COTE-BD 8,533 / 3658
COTE-MFW 41,253 / 17,681
COTE-DP 25,258 / 10,825
COTE-BD 
train:
label	text_a
芝罘岛	芝罘岛骑车去过几次,它挺壮观的,毕竟是我国典型的也是最大的陆连岛咯!我喜欢去那儿,反正全岛免费咯啊哈哈哈!风景的确不错而且海水也很干净,有些地方还是军事管理,禁地来着,但是我认识军官。

test:
qid	text_a
0	毕棚沟的风景早有所闻,尤其以秋季的风景最美,但是这次去晚了,红叶全掉完了,黄叶也看不到了,下了雪只能看看雪山了,还好雪山的雄伟确实值得一看。
COTE-MFW
train:
label	text_a
恩施大峡谷	秀美恩施大峡谷,因其奇、险让人流连忘返。

test:
qid	text_a
0	神女溪据说在山峡蓄水前就是条很清澈的小溪,蓄水后很多遗迹都淹没在水底了,这里的水确实和外面黄黄的水不一样。
COTE-DP
train:
label	text_a
重庆老灶火锅	重庆老灶火锅还是很赞的,有机会可以尝试一下!

test:
qid	text_a
0	还是第一次进星巴克店里吃东西 那会儿第一次喝咖啡还是外带的

以上实现基于PaddleNLP,开源不易,希望大家多多支持~

记得给PaddleNLP点个小小的Star⭐,及时跟踪最新消息和功能哦

GitHub地址:https://github.com/PaddlePaddle/PaddleNLP