xu-song/bert-as-language-model

原理是什么?

aaronliu7 opened this issue · 2 comments

看代码没看懂

就是按顺序依次mask掉每一个词,然后预测该词的概率。
整个句子的概率就按照下面这个公式简单近似的:
image

就是按顺序依次mask掉每一个词,然后预测该词的概率。
整个句子的概率就按照下面这个公式简单近似的:
image

明白了,感谢解答