/ToCsv

Extracting the content of files in the given directory and save it to the csv file.

Primary LanguagePython

ToCsv

Extracting the content of files in the given directory and save it to the csv file.

用法

  • environment: python=3.6
  • cd ./src
  • python ./installPackages.py
  • usage: python ./ToCsv.py ../input_files [--save xxx\xxx\a.csv] [--mod 1]
  • 注意:src目录下的csv和txts目录是最后生成结果和中间过程转化的txt文档,建议在运行代码之前将这两个目录移动到别处或删除,或者可以选择为csv指定其他保存路径

后续有待改进

  • 因为最后存放到csv中,所以编码使用GBK
  • 放到github上的目的是备份的,所以用法和细节就没必要介绍了,以后会记得来修补修补的

漫谈

老板要竞标,几个人分下工就开整了,我的任务是做ocr识别(简单理解为识别并提取图片中的内容),但是呢,一切要听老板的,做着做着就加需求了 自己的工作其实就是前处理,毕竟打工仔:),能多做点就多做点,不要给其他同学制造麻烦 所以我的做法是这样的:

  • python优势得天独厚

  • 输入一堆不同类型文档,来者不拒;输出存放识别内容的txt文档集合,进一步将这些txt文档存放到csv文件里

  • ocr提供了两种model。1(default):大厂接口,在线,每月有免费条数,效果好;0:google开源的tesserocr,凑合用,对中文识别效果不敢恭维,但是免费

  • 调几个库,又可以多识别几种类型了pdf/doc/docx/html,hhh

  • 老板说要加上音频的识别。。。初步想法还是想调大厂的接口,至于有没有开源工具没有去找,因为上次组会老板把这项任务甩给师兄了,hhh

  • 齐活了,把所有的功能封装一下,想了想就留一个接口给同门用吧,毕竟后期整合的活儿也不简单,能简则简吧

  • 提到简单,所以这个接口就一个参数是必填的,存放一堆文件的路径名,其余参数可选

  • 输出就是最后的csv文件,存放路径是个可选参数,默认当前路径下 ./csv/a.csv, 可以手动指定

  • ocr模式,默认大厂借口了,每月的免费额度自己用完全够了

  • 写地很烂,只是大致做出了输入输出的雏形,有待优化的细节和性能的考虑还很多。

  • 多bb一句,说实话我是信心满满没信心能做到最后的,因为面向社会招标,我们一帮学生是要跟外面的外包公司竞标,嗨,迫于最近一段时间选题的压力,越来越怀疑自己了,嗨 哇55555~ orz

  • 2021/3/18大家的科研之路都是怎样的呢?读研真的就是围城吗?AI