请教,是否观察到 electra 较 bert/roberta 收敛更快?
nbcc opened this issue · 7 comments
比较 pretraining 不同 steps 的 checkpoint。同 step 对应的 checkpoint,electra 100% label 学习的优势,在 finetuning 效果上,论文里是显著快于 bert 的。
不知道复现是否有这个结论呢?我们在做一个类似的策略,收敛速度上并没有论文显著。
如果你说的是论文中的FIgure 4,与BERT在不同checkpoint下的性能比较,这个暂时没有。
如果你说的是论文中的FIgure 4,与BERT在不同checkpoint下的性能比较,这个暂时没有。
感觉是策略核心验证了~
electra 还是很有意思的
与1M checkpoint下的RoBERTa-base的结果来看,ELECTRA的效果是要好一些的。比如在CMRC 2018开发集上,
ELECTRA-small: 63.4 / 80.8
RoBERTa-small: 58.5 / 80.0
与1M checkpoint下的RoBERTa-base的结果来看,ELECTRA的效果是要好一些的。比如在CMRC 2018开发集上,
ELECTRA-small: 63.4 / 80.8 RoBERTa-small: 58.5 / 80.0
👍。这个 roberta small 总步数是多少?两者最终效果估计差不多吧。
总步数就定在1M步。
(重新写了一下内容)
分类任务测了LCQMC、BQ Corpus,LCQMC是ELECTRA-small好一些,BQ是RoBERTa-small效果好一些。可见结果上并不一定总是ELECTRA效果更好,综合这几个任务看ELECTRA还是有一定优势的。
LCQMC
ELECTRA-small: dev86.7 test85.9
RoBERTa-small: dev85.3 test84.9
BQ Corpus
ELECTRA-small: dev83.5,test82.0
RoBERTa-small: dev84.3,test83.2
总步数就定在1M步。
(重新写了一下内容)
分类任务测了LCQMC、BQ Corpus,LCQMC是ELECTRA-small好一些,BQ是RoBERTa-small效果好一些。可见结果上并不一定总是ELECTRA效果更好,综合这几个任务看ELECTRA还是有一定优势的。LCQMC ELECTRA-small: dev86.7 test85.9 RoBERTa-small: dev85.3 test84.9 BQ Corpus ELECTRA-small: dev83.5,test82.0 RoBERTa-small: dev84.3,test83.2
感谢分享!