/hanzi_chaizi

汉字拆字库,可以将汉字拆解成偏旁部首,在机器学习中作为汉字的字形特征

Primary LanguagePythonApache License 2.0Apache-2.0

汉字拆字

拆字是指將一文字,以筆畫、字形等基本組成單位分解成多個文字。

汉字拆字让字型相似的字具有相似的拆解结果。

这种特性可以被深度学习模型用来作为字的特征之一:字形的特征。

使用

from hanzi_chaizi import HanziChaizi

hc = HanziChaizi()
result = hc.query('名')

print(result)

输出

['夕', '口']

从原始数据生成

数据来源

数据来自于 漢語拆字字典

解析

pytohn ./parse.py

致谢

拆字数据来自于 漢語拆字字典

学术引用 / Citation

@misc{kong2018hanzichaizi,
  title={Hanzi Chaizi},
  author={Xiaoquan Kong},
  howpublished={https://github.com/howl-anderson/hanzi_chaizi},
  year={2018}
}

如果该软件包被书籍、研讨会和学术研究论文引用,或者在公司产品中使用,欢迎写邮件把这一个情况告诉我。我很高兴看到软件包能被使用,对大家有价值。

If the package is cited in books, seminars, and academic research papers, or used in company products, you are welcome (but not required) to email me about this. I'm glad to see the package being used and valuable to everyone.