yuhuang-cst/meddict

Python

meddict

以现有的中文医学词表以及基于机器翻译的UMLS为基础，基于规则进行处理后生成用于分词的中文医学词典。

文件说明

来自人工翻译的词表

result/segment/thesaurus文件夹下：

hpo.txt：来自HPO（官方）
icd10_gov.txt：来自ICD10（官方）
mesh.txt：来自自MeSH（非官方）
snomed.txt：来自SNOMED（官方）
snomedct.txt：来自SNOMED（非官方）

来自UMLS翻译（主要为机器翻译）的词表

result/segment/umls文件夹下（根据质量从高到低进行排序）：

umls_iciba.txt：来自金山词霸的带[医]等标签的翻译
umls_bgequal_baike.txt：来自百度翻译与谷歌翻译无序相等且包含中文的词条，且被百度百科或维基百科所收录
umls_bgequal.txt：来自百度翻译与谷歌翻译无序相等且包含中文的词条
umls_baike.txt：来自UMLS的翻译词条，且被百度百科或维基百科所收录
umls.txt：来自UMLS的翻译词条，有待进一步挖掘

整合词表

result/segment/combine文件夹下：

meddict_human.txt：整合上述所有来自人工翻译的词表
meddict_human_machine.txt：整合以下词表
- 上述所有来自人工翻译的词表
- umls_iciba.txt
- umls_bgequal.txt
- umls_baike.txt

词条数目统计

词表	词条数
hpo.txt	11216
icd10_gov.txt	29080
mesh.txt	20638
snomed.txt	10519
snomedct.txt	116086
umls_iciba.txt	112755
umls_bgequal_baike.txt	43763
umls_bgequal.txt	269181
umls_baike.txt	163680
umls.txt	3560886
meddict_human.txt	166613
meddict_human_machine.txt	554867

词表来源

现有中文医学词表

UMLS机器翻译

运行示例

运行生成hpo.txt的代码：

cd code
export PYTHONPATH=`pwd`:$PYTHONPATH
python segment/hpo.py

可能需要安装的python包

pip install tqdm
pip install seaborn
pip install xlrd
pip install opencc-python-reimplemented
pip install zhon