整体介绍
赛题背景:https://www.datafountain.cn/competitions/346
我们的队名是:鹏脱单攻略队 后面改为"天晨破晓"
团队成绩:2019CCF-BDCI大赛 最佳创新探索奖 "基于OCR的身份证要素提取"单赛题冠军
文件介绍
chusai_fuyinwuxiao:包含"复印无效"字样水印训练数据的伪造方法介绍和复现说明
rematch_jinzhifuyin:包含"禁止复印"字样水印训练数据的伪造方法介绍和复现说明
word_recognize_train_data:包含文字识别模型大规模数据伪造去水印和小规模(训练集去水印)的数据的制造方法和复现过程说明
Train_DataSet_final:初赛和复赛的处理之后的训练集,主要用作伪造的水印数据的背景
word_recognize_train_data:文字识别所需的训练集制作方法和复现说明
注
每个文件的功能见该文件里面的readme
考虑到项目体积,源数据只传入了少量样本图片,
生成数据的时间可能会比较漫长 ~~~ 如果条件允许,可以改为多进程实现,在本地我们都是30个核同时跑,但是比赛服务器核比较少实现多进程遇到过问题,所以全部改为了单进程.
比赛过程代码改动次数较多,没有留意保留每一份代码,代码重现有些地方全凭回忆.整理任务较重,没有过多时间一一复现核实,复现过程可能与描述有一定出入,如有问题,还麻烦联系我们,感谢