Extracting the content of files in the given directory and save it to the csv file.
- environment: python=3.6
- cd ./src
- python ./installPackages.py
- usage: python ./ToCsv.py ../input_files [--save xxx\xxx\a.csv] [--mod 1]
- 注意:src目录下的csv和txts目录是最后生成结果和中间过程转化的txt文档,建议在运行代码之前将这两个目录移动到别处或删除,或者可以选择为csv指定其他保存路径
- 因为最后存放到csv中,所以编码使用GBK
- 放到github上的目的是备份的,所以用法和细节就没必要介绍了,以后会记得来修补修补的
老板要竞标,几个人分下工就开整了,我的任务是做ocr识别(简单理解为识别并提取图片中的内容),但是呢,一切要听老板的,做着做着就加需求了 自己的工作其实就是前处理,毕竟打工仔:),能多做点就多做点,不要给其他同学制造麻烦 所以我的做法是这样的:
-
python优势得天独厚
-
输入一堆不同类型文档,来者不拒;输出存放识别内容的txt文档集合,进一步将这些txt文档存放到csv文件里
-
ocr提供了两种model。1(default):大厂接口,在线,每月有免费条数,效果好;0:google开源的tesserocr,凑合用,对中文识别效果不敢恭维,但是免费
-
调几个库,又可以多识别几种类型了pdf/doc/docx/html,hhh
-
老板说要加上音频的识别。。。初步想法还是想调大厂的接口,至于有没有开源工具没有去找,因为上次组会老板把这项任务甩给师兄了,hhh
-
齐活了,把所有的功能封装一下,想了想就留一个接口给同门用吧,毕竟后期整合的活儿也不简单,能简则简吧
-
提到简单,所以这个接口就一个参数是必填的,存放一堆文件的路径名,其余参数可选
-
输出就是最后的csv文件,存放路径是个可选参数,默认当前路径下 ./csv/a.csv, 可以手动指定
-
ocr模式,默认大厂借口了,每月的免费额度自己用完全够了
-
写地很烂,只是大致做出了输入输出的雏形,有待优化的细节和性能的考虑还很多。
-
多bb一句,说实话我是
信心满满没信心能做到最后的,因为面向社会招标,我们一帮学生是要跟外面的外包公司竞标,嗨,迫于最近一段时间选题的压力,越来越怀疑自己了,嗨 哇55555~ orz -
2021/3/18
大家的科研之路都是怎样的呢?读研真的就是围城吗?AI