请教，是否观察到 electra 较 bert/roberta 收敛更快？

Question

请教，是否观察到 electra 较 bert/roberta 收敛更快？

nbcc opened this issue 5 years ago · 7 comments

nbcc commented 5 years ago

比较 pretraining 不同 steps 的 checkpoint。同 step 对应的 checkpoint，electra 100% label 学习的优势，在 finetuning 效果上，论文里是显著快于 bert 的。

不知道复现是否有这个结论呢？我们在做一个类似的策略，收敛速度上并没有论文显著。

Answer 1 · 2020-03-25T05:31:39.000Z

如果你说的是论文中的FIgure 4，与BERT在不同checkpoint下的性能比较，这个暂时没有。

Answer 2 · 2020-03-25T06:40:45.000Z

如果你说的是论文中的FIgure 4，与BERT在不同checkpoint下的性能比较，这个暂时没有。

感觉是策略核心验证了~

Answer 3 · 2020-03-25T06:41:08.000Z

electra 还是很有意思的

Answer 4 · 2020-03-25T10:39:40.000Z

与1M checkpoint下的RoBERTa-base的结果来看，ELECTRA的效果是要好一些的。比如在CMRC 2018开发集上，

ELECTRA-small: 63.4 / 80.8
RoBERTa-small: 58.5 / 80.0

Answer 5 · 2020-03-25T11:41:55.000Z

与1M checkpoint下的RoBERTa-base的结果来看，ELECTRA的效果是要好一些的。比如在CMRC 2018开发集上，
ELECTRA-small: 63.4 / 80.8
RoBERTa-small: 58.5 / 80.0

👍。这个 roberta small 总步数是多少？两者最终效果估计差不多吧。

Answer 6 · 2020-03-25T11:50:26.000Z

总步数就定在1M步。
（重新写了一下内容）
分类任务测了LCQMC、BQ Corpus，LCQMC是ELECTRA-small好一些，BQ是RoBERTa-small效果好一些。可见结果上并不一定总是ELECTRA效果更好，综合这几个任务看ELECTRA还是有一定优势的。

LCQMC
ELECTRA-small: dev86.7 test85.9
RoBERTa-small: dev85.3 test84.9

BQ Corpus
ELECTRA-small: dev83.5，test82.0
RoBERTa-small:  dev84.3，test83.2

Answer 7 · 2020-03-26T05:49:27.000Z

总步数就定在1M步。
（重新写了一下内容）
分类任务测了LCQMC、BQ Corpus，LCQMC是ELECTRA-small好一些，BQ是RoBERTa-small效果好一些。可见结果上并不一定总是ELECTRA效果更好，综合这几个任务看ELECTRA还是有一定优势的。
LCQMC
ELECTRA-small: dev86.7 test85.9
RoBERTa-small: dev85.3 test84.9

BQ Corpus
ELECTRA-small: dev83.5，test82.0
RoBERTa-small:  dev84.3，test83.2

感谢分享！