ironsword666/POSTagger

Python

说明：

一个BiLSTM-CRF词性标注器。

模型结构

输入

随机初始化的词向量。可选：随机初始化的词向量加上预训练的词向量。
char-lstm得到的字符级表示，避免了首字母、前后缀等特征工程，并且有助于解决OOV词。
然后拼接两个向量输入。

特征提取

两层的BiLSTM。

解码

MLP得到每个词对应的标签得分，即发射矩阵。
一个转移矩阵记录标签转移的得分。

有了上方两类得分，可以使用vitebi算法解码出得分最大的结果。

训练

损失函数

可以基于发射矩阵用交叉熵直接得到局部的损失。
也可以用crf让句子的概率最大化。

其它注意项

词汇表

额外添加<PAD>, <UNK>, <BOS>, <EOS>四个标签。
训练集中只出现一次的词被认为是OOV词，打上<UNK>标签。

标签集