ToCsv

Extracting the content of files in the given directory and save it to the csv file.

用法

environment: python=3.6
cd ./src
python ./installPackages.py
usage: python ./ToCsv.py ../input_files [--save xxx\xxx\a.csv] [--mod 1]
注意：src目录下的csv和txts目录是最后生成结果和中间过程转化的txt文档，建议在运行代码之前将这两个目录移动到别处或删除，或者可以选择为csv指定其他保存路径

后续有待改进

因为最后存放到csv中，所以编码使用GBK
放到github上的目的是备份的，所以用法和细节就没必要介绍了，以后会记得来修补修补的

漫谈

老板要竞标，几个人分下工就开整了，我的任务是做ocr识别（简单理解为识别并提取图片中的内容），但是呢，一切要听老板的，做着做着就加需求了自己的工作其实就是前处理，毕竟打工仔:)，能多做点就多做点，不要给其他同学制造麻烦所以我的做法是这样的：

python优势得天独厚
输入一堆不同类型文档，来者不拒；输出存放识别内容的txt文档集合，进一步将这些txt文档存放到csv文件里
ocr提供了两种model。1（default）:大厂接口，在线，每月有免费条数，效果好；0：google开源的tesserocr,凑合用，对中文识别效果不敢恭维，但是免费
调几个库，又可以多识别几种类型了pdf/doc/docx/html，hhh
老板说要加上音频的识别。。。初步想法还是想调大厂的接口，至于有没有开源工具没有去找，因为上次组会老板把这项任务甩给师兄了，hhh
齐活了，把所有的功能封装一下，想了想就留一个接口给同门用吧，毕竟后期整合的活儿也不简单，能简则简吧
提到简单，所以这个接口就一个参数是必填的，存放一堆文件的路径名，其余参数可选
输出就是最后的csv文件，存放路径是个可选参数，默认当前路径下 ./csv/a.csv, 可以手动指定
ocr模式，默认大厂借口了，每月的免费额度自己用完全够了
写地很烂，只是大致做出了输入输出的雏形，有待优化的细节和性能的考虑还很多。
多bb一句，说实话我是~~信心满满~~没信心能做到最后的，因为面向社会招标，我们一帮学生是要跟外面的外包公司竞标，嗨，迫于最近一段时间选题的压力，越来越怀疑自己了，嗨哇55555~ orz
2021/3/18大家的科研之路都是怎样的呢？读研真的就是围城吗？AI

Rvlis/ToCsv

ToCsv

用法

后续有待改进

漫谈