/wechat-spider

微信公众号文章爬虫,简单示例。

Primary LanguageJava

Wechat-spider

功能说明:

1,提供关键词,搜索公众号列表

2,循环公众号列表,进入公众号的profile页面

   提取公众号信息,并保存OR更新 

3,循环公众号profile页面的10+篇文章,保存文章的标题,日期,摘要等等

   根据msgID是否存在,如果存在,则继续下一篇文章 

4,进入文章详情页面,提取原作者,和文字内容,然后保存。