CLUEbenchmark/CLUE

请问tnews 1.1版本测试集有各个baseline的分数吗?

yangapku opened this issue · 7 comments

如题,请问几个tnews 1.1版本测试集相关的问题:

  1. 有没有BERT-base, BERT-wwm-ext, ERNIE-base, RoBERTa-large, XLNet-mid, ALBERT-base, ALBERT-large, ALBERT-xlarge, ALBERT-xxlarge, ALBERT-tiny, RoBERTa-wwm-ext, RoBERTa-wwm-large这些对应baseline的测试集分数呢?
  2. 为什么测试集需要从1.0更新到1.1呢?我观察到1.0测试集分数普遍高于1.1,这个主要是因为什么呢
  3. 1.1版本测试集sample没有了keyword,这个是什么考虑呢

@brightmart 希望主办方能够麻烦解答,十分感谢!

你好,感谢反馈问题。
#1、目前没有tnews1.1上的各个baseline详细的分数。在BERT类模型上与1.0分数是总体是一致的;
#2、测试集上1.0由于已经使用2年左右,存在过拟合的情况;
#3、1.1版本测试集没有提供keyword,是由于CLUE的测试中即使是1.0版本的也没有使用keyword,即这个字段其实本身是没有用到的。如还有问题,也可以邮件联系:CLUEbenchmark@163.com

@brightmart 谢谢您回复!还有个细节想确认下,我看到clue榜单上面写"TNEWS默认使用RoBERTa-wwm-large模型分数作为初始化",而榜单上面初始化的分数我看到是57.42,这个指的就是说RoBERTa-wwm-large baseline在test 1.1测试集上面分数为57.42吧

57.42是Tnews,使用RoBERTa-wwm-large,在test 1.1测试集上的分数。

@brightmart 您好,想再问一个今天tnews1.1提交分数异常的问题。我今天提交了1版tnews1.1的模型预测结果,与我的上一版模型在tnews1.1的结果对比,我统计了下有2339个sample预测标签不同。我的上一版模型于8.20日提交tnews1.1,得到了57.81分,但是这版提交只有28.95分,这个超出了此次提交最低可能的分数下界(1w测试样例,最低只可能是57.81-23.39=34.42分)。请问是不是tnews1.1的分数计算存在异常?麻烦您帮忙check下。我的两个提交文件分别是:
旧的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.old.json
新的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.json

收到反馈。稍后进行一次反馈。

@brightmart 请问老师,分数异常的问题有进展吗?麻烦了

@brightmart 请问老师,分数异常的问题有进展吗?麻烦了

没下文了哈哈