/weixin-spider

微信公众号爬虫(python大作业)

Primary LanguagePython

Python大作业微信爬虫

程序功能:爬取指定公众号的微信文章标题、作者、链接、图标文件,暂不支持保存成pdf(时间有限,保存完整网页为pdf难度有点高)

接口说明: 仅提供一个对外接口spider(self,count=10,offset=-10),调用接口便会通过交互操作读取所需信息,需要输入fiddler抓取的请求头 接口第一个参数是步进,代表每次请求的推送的条数,offset代表偏移量(第一条数据的偏移量) 接口返回四个数据,依次为:采集的数据(以包含字典的列表形式),当前offset,当前count,采集是否成功

程序说明: 程序会自动生成CSV文件并转换格式以免中文在Excel中出现乱码,同时会在./image下保存所有的文章图标,命名为$id.png,ID为程序内部使用的ID,对应CSV表格中第一列的ID 如果被封IP或服务器返回任何异常,则程序会自动保存当前进度,然后记录当前偏移量和步进,过一段时间后可以重新打开程序并选择加载配置,继续抓取 程序的输出是 输出.csv,_result.csv是用于内部加载的文件(我不会说是因为懒得写ansi到utf-8的转换函数才保留的==),这两个文件前者ansi编码,后者utf-8编码,后者在Excel中打开会乱码 程序还会在工作目录生成ext.ini,里面包含保存的配置,与_result.csv配套使用,不建议修改,更不能更改顺序

作者的话: 这个程序设计的时候加入了一些可变接口,但是大多数都是直接封装使用,被写成固定值或者功能没完全使用,还是有提升的潜力的 第一次用github,好难用……