SimilarCharactor

基于音形码,EditDistance的字符串纠正相似度算法

音形码格式:【韵母,声母,结构,四角编码,笔画数】 共8位

音形码相似度算法 参考博客https://blog.csdn.net/chndata/article/details/41114771
TODO 字符串错误匹配算法 参考

结构、四角编码 抓取http://zidian.miaochaxun.com 数据
韵母、声母 使用pinyin包
笔画数抓取https://bihua.51240.com 数据

入口函数在string_similarity.py

繁简切换 Done ongoing 相似度分值映射调整(sigmoid函数映射) TODO 字符串包含关系 ongoing 相似度算法添加与调整(bm25)
TODO 字符串错位

===============================================================================

本人邮箱: wenyang.chou@foxmail.com

由于现在不做文本处理工作,所以理论不再继续研究

如果有idea可以联系本人邮箱,我会不定期接收算法理论并更新代码