深度实践OCR:基于深度学习的文字识别;
刘树春,贺盼,马建奇,王佳军等著;
机械工业出版社;
2020.5
#《深度实践OCR:基于深度学习的文字识别》 随书代码
- 英文纠错使用BK-tree
- 中文纠错使用语言模型
ngram是非常简单的语言模型
- 模板匹配
使用模板匹配(正则表达式)可基本达到身份证识别结果的结构化
- 文本分类
- RNN可以做时序建模
- CNN在短文本分类任务效果显著
- 预训练模型第一阶段:0-1、word2vec、Glove、fastText
- 预训练模型第二阶段:ELMo、BERT、GPT