/odr

Optical Document Recognition. 一种基于视觉词汇的文本分类方法( https://www.jianshu.com/p/f774e273a883 )

Primary LanguagePython

odr

Optical Document Recognition/光学文档识别

《一种基于视觉词汇的文本分类方法》配套代码

尝试的方向

基于视频词汇的文本图片分类 相对于“图片-(ocr)->文本->分类”的方法,省略ocr的步骤,可以降低整体复杂度,同时适应特殊文本的分类,比如数学公式、图表、化学方程式等。

正在尝试的方案

  • 视频词汇提取(同方案1)
  • 聚类多维度词汇
    • 计算多种特征,如使用不同分辨率计算hog、daisy
    • 对每种特征词汇使用MiniBatchKMeans聚类
  • 学习分类模型
    • 计算每类词汇的tf-idf并合并,PCA,训练svc

当前方案存在的问题

  • 需要尝试选取不同的特征
  • 训练和识别效率低下

已经尝试的方案1

  • 视频词汇提取
    • 拟合直线调整图片大小和方向
    • erode/erode 提取文本行
    • 根据列像素值变化曲线切割成文字,选取不同宽度进行多次切割(提取的词汇,在图像上看是有重叠的)
  • 聚类得到词汇
    • 计算hog、daisy特征
    • DBSCAN/MiniBatchKMeans 聚类
  • 学习分类模型
    • 计算tf-idf,PCA,训练svc

方案1存在的问题

  • DBSCAN聚类效果好,但样本数多以后聚类慢,内存消耗大,且无法分批学习
  • MiniBatchKMeans聚类效果差,高频但不相关的词汇容易被聚成一类

计划尝试的方案