/2019-CCF-BDCI-OCR-MCZJ-fake_data_generator

2019CCF-BDCI大赛 OCR赛题第一名 天晨破晓团队 仿真数据生成方案源码

Primary LanguagePython

整体介绍

赛题背景:https://www.datafountain.cn/competitions/346

我们的队名是:鹏脱单攻略队 后面改为"天晨破晓"

团队成绩:2019CCF-BDCI大赛 最佳创新探索奖 "基于OCR的身份证要素提取"单赛题冠军

文件介绍

chusai_fuyinwuxiao:包含"复印无效"字样水印训练数据的伪造方法介绍和复现说明

rematch_jinzhifuyin:包含"禁止复印"字样水印训练数据的伪造方法介绍和复现说明

word_recognize_train_data:包含文字识别模型大规模数据伪造去水印和小规模(训练集去水印)的数据的制造方法和复现过程说明

Train_DataSet_final:初赛和复赛的处理之后的训练集,主要用作伪造的水印数据的背景

word_recognize_train_data:文字识别所需的训练集制作方法和复现说明

每个文件的功能见该文件里面的readme

考虑到项目体积,源数据只传入了少量样本图片,

生成数据的时间可能会比较漫长 ~~~ 如果条件允许,可以改为多进程实现,在本地我们都是30个核同时跑,但是比赛服务器核比较少实现多进程遇到过问题,所以全部改为了单进程.

比赛过程代码改动次数较多,没有留意保留每一份代码,代码重现有些地方全凭回忆.整理任务较重,没有过多时间一一复现核实,复现过程可能与描述有一定出入,如有问题,还麻烦联系我们,感谢