lsvih/MWA

很有意思的工作,和我们的一个 idea 有点像

nbcc opened this issue · 3 comments

nbcc commented

请教一个实验细节
图片

新增参数在 Finetuning 训练中是完全随机初始化的吗?

lsvih commented

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

nbcc commented

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

用 paddle 复现了一下 MWA 策略(基于开源的 ERNIE,在 lcqmc 数据集验证)。和 ERNIE 1.0 论文评估方式一致,采用 max(dev acc) 选取 checkpoint,得到 test acc;多次取平均后,test acc 指标 0.874,结果和 ERNIE 1.0 论文基线接近。。。

@nbcc 用 pytorch 的 nn.Linear 定义的参数,看源码使用 kaiming_uniform_ 做的参数初始化

另外感谢您的认可,期待你们的工作。。现在这个工作缺陷有点多,尤其是速度方面太慢了,整理代码后的实验现在都没跑完

请问速度有多慢, 对比bert base