基于搜狗微信搜索的微信公众号爬虫

2017-4-27搜狗微信取消了阅读、点攒及评论数据，所以无法通过搜狗获取这些数据了，有需要的可以联系我恰谈代抓业务，按量计费，扣扣：3221449010

项目简介

基于搜狗微信搜索的微信公众号爬虫可以抓取指定公众号的文章信息

赞助作者

俺是自由职业者，好汉们如果可能的话赞助一些让俺将开源事业进行到底，谢谢！！！

兄弟我弄了个淘宝店，有时间的兄弟给捧个场啊，新店需要信誉积分，跪谢！只要一块钱，就能温暖你我他 https://item.taobao.com/item.htm?spm=a230r.1.14.16.PRhaio&id=543333631871&ns=1&abbucket=6#detail

使用教程大家可以去我的微博查看： http://blog.csdn.net/niuxiaojia09/article/details/55260770

如果有问题，请提issue，或者发邮件到：jaryee@163.com联系我

新建QQ群：482588657 有兴趣同学可以进来一起讨论

2017-1-20 增加如何使程序进入搜狗微信登录状态的说明，在Updatemp.py和UpdateWenzhang.py中都有操作说明 2017-3-21 在API.py中增加把文章本地化的函数，可以根据自己的需要把文章下载到本地

项目使用

一、使用说明

1、在mysql数据库中创建数据库，比如Jubang,数据格式为utf8mb4，然后导入jubang.sql文件，创建对应的数据库表

2、修改config.py文件中对应的设置，打码平台配置ruokuai这个一定要设置，否则出现验证码就不能正常工作了

3、python对应的库的安装好，pymysql、request、lxml、PIL、werkzeug等

4、手动或自动在add_mp_list表中增加数据，然后运行auto_add_mp.py文件。比如可以这样用：给auto_add_mp.py设定一个定时任务，5分钟或10分钟，然后前台页面文件让使用者添加待抓取的公众号信息，然后定时任务执行时就可以把这些公众号加入待抓取列表了 add_mp_list中 name字段是模糊抓取，会根据输入的名称模糊加入10个公众号 wx_hao字段是精确抓取，这个是公众号的微信号，只抓取一个这两个字段可以任意填入一个就行

5、执行updatemp.py文件，文件说明看后面。使用中可以给该文件设定定时任务30分钟或其它间隔，每隔一定时间，运行该文件就会抓取已添加的公众号是否有新文章发出来。第一次使用会抓取公众号的最近10条群发数据

6、执行updatewenzhang.py文件，该文件是抓取文章阅读及点攒数的。最新的数据会写入wenzhang_info表中，并且会在表wenzhang_statistics中添加增量记录，可以根据wenzhang_statistics表中的数据生成曲线图使用中可以给该文件添加5分钟或其它时间的定时任务，这样就可以来生成对应的阅读曲线图了

二、文件说明

1、updatemp.py 该文件遍历待抓取列表（数据库表：mp_info），查询表中的公众号是否有新文章发布，如果有，就抓取新的文章信息并放入数据库表wenzhang_info中

2、updatewenzhang.py 该文件遍历文章表，然后抓取24小时之内的文章阅读数据存入表wenzhang_info和表wenzhang_statistics中

3、 auto_add_mp.py 该文件将指定的公众号添加到待抓取列表中该文件读取数据库表（add_mp_list）中的内容，然后将其中指定的公众号填入数据库表（mp_info）中

TODO

使用py2.7
获取指定公众号文章
文章详情页信息
验证码自动识别

aslanTT/wechat_sogou_crawl

基于搜狗微信搜索的微信公众号爬虫

项目简介

赞助作者

项目使用

TODO