/Medical-named-entity-recognition

本项目是针对医疗数据,进行命名实体识别。项目中有600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。该领域的命名实体识别问题是自然语言处理中经典的序列标注问题。

Primary LanguagePython

Medical-named-entity-recognition

该项目用双向长短时记忆神经网络和条件随机场(Bi-LSTM-CRF)的命名实体识别

Introduce

data:已标注的医疗数据,O非实体部分,TREATMENT治疗方式, BODY身体部位, SIGN疾病症状, CHECK医学检查, DISEASE疾病实体.
data_origin:项目提供的医疗数据,需要转化为目标序列标记集合
transfer_data:目标序列化脚本
model:训练模型需要的字向量

训练集1 测试集 训练集准确率 测试集准确率
6268 1571 0.965 0.845
lstm_predict.py:对训练好的实体识别模型进行测试