请问tnews 1.1版本测试集有各个baseline的分数吗？

Question

请问tnews 1.1版本测试集有各个baseline的分数吗？

yangapku opened this issue 3 years ago · 7 comments

如题，请问几个tnews 1.1版本测试集相关的问题：

有没有BERT-base, BERT-wwm-ext, ERNIE-base, RoBERTa-large, XLNet-mid, ALBERT-base, ALBERT-large, ALBERT-xlarge, ALBERT-xxlarge, ALBERT-tiny, RoBERTa-wwm-ext, RoBERTa-wwm-large这些对应baseline的测试集分数呢？
为什么测试集需要从1.0更新到1.1呢？我观察到1.0测试集分数普遍高于1.1，这个主要是因为什么呢
1.1版本测试集sample没有了keyword，这个是什么考虑呢

@brightmart 希望主办方能够麻烦解答，十分感谢！

Answer 1 · 2021-08-20T02:27:10.000Z

你好，感谢反馈问题。
#1、目前没有tnews1.1上的各个baseline详细的分数。在BERT类模型上与1.0分数是总体是一致的；
#2、测试集上1.0由于已经使用2年左右，存在过拟合的情况；
#3、1.1版本测试集没有提供keyword，是由于CLUE的测试中即使是1.0版本的也没有使用keyword，即这个字段其实本身是没有用到的。如还有问题，也可以邮件联系：CLUEbenchmark@163.com

Answer 2 · 2021-08-20T02:53:22.000Z

@brightmart 谢谢您回复！还有个细节想确认下，我看到clue榜单上面写"TNEWS默认使用RoBERTa-wwm-large模型分数作为初始化"，而榜单上面初始化的分数我看到是57.42，这个指的就是说RoBERTa-wwm-large baseline在test 1.1测试集上面分数为57.42吧

Answer 3 · 2021-08-20T03:01:24.000Z

57.42是Tnews，使用RoBERTa-wwm-large，在test 1.1测试集上的分数。

Answer 4 · 2021-09-06T03:59:59.000Z

@brightmart 您好，想再问一个今天tnews1.1提交分数异常的问题。我今天提交了1版tnews1.1的模型预测结果，与我的上一版模型在tnews1.1的结果对比，我统计了下有2339个sample预测标签不同。我的上一版模型于8.20日提交tnews1.1，得到了57.81分，但是这版提交只有28.95分，这个超出了此次提交最低可能的分数下界（1w测试样例，最低只可能是57.81-23.39=34.42分）。请问是不是tnews1.1的分数计算存在异常？麻烦您帮忙check下。我的两个提交文件分别是：
旧的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.old.json
新的提交结果 https://yangan2.oss-cn-beijing.aliyuncs.com/tnews11_predict.json

Answer 5 · 2021-09-07T08:35:25.000Z

收到反馈。稍后进行一次反馈。

Answer 6 · 2021-09-13T03:31:57.000Z

@brightmart 请问老师，分数异常的问题有进展吗？麻烦了

Answer 7 · 2022-09-02T11:37:17.000Z

@brightmart 请问老师，分数异常的问题有进展吗？麻烦了

没下文了哈哈