weixin-spider: A Python repository from sora-mono

Python大作业微信爬虫

程序功能：爬取指定公众号的微信文章标题、作者、链接、图标文件，暂不支持保存成pdf（时间有限，保存完整网页为pdf难度有点高）

接口说明：仅提供一个对外接口spider(self,count=10,offset=-10)，调用接口便会通过交互操作读取所需信息，需要输入fiddler抓取的请求头接口第一个参数是步进，代表每次请求的推送的条数，offset代表偏移量（第一条数据的偏移量）接口返回四个数据，依次为：采集的数据（以包含字典的列表形式），当前offset，当前count，采集是否成功

程序说明：程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码，同时会在./image下保存所有的文章图标，命名为$id.png，ID为程序内部使用的ID，对应CSV表格中第一列的ID 如果被封IP或服务器返回任何异常，则程序会自动保存当前进度，然后记录当前偏移量和步进，过一段时间后可以重新打开程序并选择加载配置，继续抓取程序的输出是输出.csv，_result.csv是用于内部加载的文件（我不会说是因为懒得写ansi到utf-8的转换函数才保留的==),这两个文件前者ansi编码，后者utf-8编码，后者在Excel中打开会乱码程序还会在工作目录生成ext.ini，里面包含保存的配置，与_result.csv配套使用，不建议修改，更不能更改顺序

作者的话：这个程序设计的时候加入了一些可变接口，但是大多数都是直接封装使用，被写成固定值或者功能没完全使用，还是有提升的潜力的第一次用github，好难用……

sora-mono/weixin-spider