/Document_classify

active learning, layoutlm

Primary LanguagePython

Document_classify

描述:在保险理赔场景中,对不同类型医疗票据(费用清单、医疗发票等)按类别准确分类,使是后续进行理赔认定的关键。通过观察已有医疗票据的特征与打标数据分布,采用active learning增加监督数据,并利用图像特征与文本特征相结合的方式,实现当打标数据量较少时对医疗票据的高准确率分类。模型最终在各类票据上的平均分类准确率为97.2%

难点:

  • 仅有少部分医疗图片具有类别标签,大量图片为无标签样本
  • 不同类别医疗票据样式或文字内容相近,仅通过图像特征或仅通过文字特征难以区分

技术方案:

  • 有监督数据扩增:使用少量标签数据训练一个分类模型,利用主动学习,挑选出熵高、相似度低的困难样本,交由专家标注,反复多次,扩增监督数据
  • ResNet-50 + LayoutLM模型:分别利用ResNet-50预训练网络与LayoutLM预训练模型提取票据图像特征与文字特征,将两部分特征融合后用于分类
  • 模型预测:将一张待分类票据送入模型,取预测概率最高的一类为票据的实际类别