该项目主要用于非嵌套命名实体识别(NER),模型包括LSTM,BERT,BERT+LSTM。样例数据集有中文和英文两种。代码会继续完善,不接受监督。
- pytorch
- numpy
- renmin(中文)
- conll2003(英文)
数据集放于dataset文件夹下,按数据集名称区分。
- BERT-base-uncased
- BERT-base-chinese
目前只测试了BERT处理,同理可替换成roberta或者其他语言模型,在数据处理部分可能需要修改。用不同的语言模型可以通过bert_path参数修改。
python train.py --bert_path bert-base-uncased --dataset conll2003 --model Bert
python test.py --bert_path ...
训练测试的具体参数可以在主文件或者argument.py中设置添加。