以现有的中文医学词表以及基于机器翻译的UMLS为基础,基于规则进行处理后生成用于分词的中文医学词典。
result/segment/thesaurus
文件夹下:
hpo.txt
:来自HPO(官方)icd10_gov.txt
:来自ICD10(官方)mesh.txt
:来自自MeSH(非官方)snomed.txt
:来自SNOMED(官方)snomedct.txt
:来自SNOMED(非官方)
result/segment/umls
文件夹下(根据质量从高到低进行排序):
umls_iciba.txt
:来自金山词霸的带[医]
等标签的翻译umls_bgequal_baike.txt
:来自百度翻译与谷歌翻译无序相等且包含中文的词条,且被百度百科或维基百科所收录umls_bgequal.txt
:来自百度翻译与谷歌翻译无序相等且包含中文的词条umls_baike.txt
:来自UMLS的翻译词条,且被百度百科或维基百科所收录umls.txt
:来自UMLS的翻译词条,有待进一步挖掘
result/segment/combine
文件夹下:
meddict_human.txt
:整合上述所有来自人工翻译的词表meddict_human_machine.txt
:整合以下词表- 上述所有来自人工翻译的词表
umls_iciba.txt
umls_bgequal.txt
umls_baike.txt
词表 | 词条数 |
---|---|
hpo.txt | 11216 |
icd10_gov.txt | 29080 |
mesh.txt | 20638 |
snomed.txt | 10519 |
snomedct.txt | 116086 |
umls_iciba.txt | 112755 |
umls_bgequal_baike.txt | 43763 |
umls_bgequal.txt | 269181 |
umls_baike.txt | 163680 |
umls.txt | 3560886 |
meddict_human.txt | 166613 |
meddict_human_machine.txt | 554867 |
运行生成hpo.txt
的代码:
cd code
export PYTHONPATH=`pwd`:$PYTHONPATH
python segment/hpo.py
pip install tqdm
pip install seaborn
pip install xlrd
pip install opencc-python-reimplemented
pip install zhon