caojiangxia/caojiangxia.github.io

transformer模型详解 | caojiangxia

Opened this issue · 0 comments

https://caojiangxia.github.io/Attention/#more

背景目前深度学习中用于做NLP的方法,大多都是首先将句子进行分句,之后将每个单词使用与训练好的词向量进行表示(其实这就是一种迁移学习?),通过这一步我们把一个句子转化为向量的序列。这样的好处是我们可以把一个句子使用一个向量模型来表示,即每个句子我们都对应一个矩阵$x=(x_1,x_2,…x_n)$其中$x_i$表示第$i$个词的词向量,通常我们记为行向量,假如预训练好的向量维度为$d$,也就是说一