说明:

一个BiLSTM-CRF词性标注器。

模型结构

输入

  • 随机初始化的词向量。可选:随机初始化的词向量加上预训练的词向量。
  • char-lstm得到的字符级表示,避免了首字母、前后缀等特征工程,并且有助于解决OOV词。
  • 然后拼接两个向量输入。

特征提取

两层的BiLSTM。

解码

  • MLP得到每个词对应的标签得分,即发射矩阵。
  • 一个转移矩阵记录标签转移的得分。

有了上方两类得分,可以使用vitebi算法解码出得分最大的结果。

训练

损失函数

  • 可以基于发射矩阵用交叉熵直接得到局部的损失。
  • 也可以用crf让句子的概率最大化。

其它注意项

词汇表

  • 额外添加<PAD>, <UNK>, <BOS>, <EOS>四个标签。
  • 训练集中只出现一次的词被认为是OOV词,打上<UNK>标签。

标签集