/ocrinaction_ch9

《深度实践OCR:基于深度学习的文字识别》 第九章 OCR后处理方法

Primary LanguagePython

深度实践OCR:基于深度学习的文字识别;
刘树春,贺盼,马建奇,王佳军等著;
机械工业出版社;
2020.5

#《深度实践OCR:基于深度学习的文字识别》 随书代码

第九章 OCR后处理方法

文本纠错

  • 英文纠错使用BK-tree
  • 中文纠错使用语言模型

ngram是非常简单的语言模型

文本结构化

  • 模板匹配

使用模板匹配(正则表达式)可基本达到身份证识别结果的结构化

  • 文本分类
    • RNN可以做时序建模
    • CNN在短文本分类任务效果显著
    • 预训练模型第一阶段:0-1、word2vec、Glove、fastText
    • 预训练模型第二阶段:ELMo、BERT、GPT