Optical Document Recognition/光学文档识别
基于视频词汇的文本图片分类 相对于“图片-(ocr)->文本->分类”的方法,省略ocr的步骤,可以降低整体复杂度,同时适应特殊文本的分类,比如数学公式、图表、化学方程式等。
- 视频词汇提取(同方案1)
- 聚类多维度词汇
- 计算多种特征,如使用不同分辨率计算hog、daisy
- 对每种特征词汇使用MiniBatchKMeans聚类
- 学习分类模型
- 计算每类词汇的tf-idf并合并,PCA,训练svc
- 需要尝试选取不同的特征
- 训练和识别效率低下
- 视频词汇提取
- 拟合直线调整图片大小和方向
- erode/erode 提取文本行
- 根据列像素值变化曲线切割成文字,选取不同宽度进行多次切割(提取的词汇,在图像上看是有重叠的)
- 聚类得到词汇
- 计算hog、daisy特征
- DBSCAN/MiniBatchKMeans 聚类
- 学习分类模型
- 计算tf-idf,PCA,训练svc
- DBSCAN聚类效果好,但样本数多以后聚类慢,内存消耗大,且无法分批学习
- MiniBatchKMeans聚类效果差,高频但不相关的词汇容易被聚成一类