你好，我最近也遇到了必须用自己的语料库训练bert的情况，然后我想问的是，在你的代码中，我可以指定使用的bert的版本吗？因为最近bert更新挺多的，我不清楚您的代码中使用的bert是什么版本的。谢谢~

Question

你好，我最近也遇到了必须用自己的语料库训练bert的情况，然后我想问的是，在你的代码中，我可以指定使用的bert的版本吗？因为最近bert更新挺多的，我不清楚您的代码中使用的bert是什么版本的。谢谢~

Closed this issue 5 years ago · 4 comments

如题

Answer 1 · 2019-08-23T08:41:14.000Z

感谢提问。我这里用的是最新版本的，稍后我会把BERT部分代码上传过来，方便大家使用。据我使用，各版本差别不大，仅BertPretrainedModel这个类的名称有所改变。

Answer 2 · 2019-08-23T10:39:04.000Z

@circlePi 谢谢解答~嘿嘿，我之前比较疑惑的是在mask过程中，之前的bert是wordpiece mask的，然后最近bert更新了whole word mask，然后想问问您的bert是不是用了这个trick。然后我看了您的代码，您好像在generate example的时候是直接把字mask了，比如384 857 2934 883 ---> 384 mask 2934 883，感觉就是whole word mask，我这么理解对吗？

Answer 3 · 2019-08-24T02:47:33.000Z

我们拿中文来说把。Google的版本可以看做是基于字节对编码(BPE)来分词的，中文的模型从vocab可以看出来，其实是对字做masking; 而WWM是先使用分词工具对文本进行分词，注意这里是词而不是字，mask的时候是整个词masking。我这里沿用的google的版本。当然你上面的例子里，如果每个数字代表的是一个词的话，那其实就是WWM了，你的理解是对的。
另外，BERT的代码我已上传。

Answer 4 · 2020-11-16T11:12:15.000Z

请问，这个版本是对中文的 ’字‘ 做mask 么，
训练语料中，每个字是分开的对吧
需要去掉标点符号之类的吗