微信公众号聚合平台,获取多个公众号的博文进行筛选、过滤,使用户更方便的读取公众号上的所有文章
- 根据标题去重,去除大量转载文章
- 增加白名单:存在标题相同内容不同,例如“今日Github最火的10个Python项目”
- 按句分割,判断重复句子所占比例
- 去除广告等无用博文
- 定期爬取,每天早上8:00爬。爬取当前早上6:00到昨天早上6:00的
- cookie和token过期自动模拟登陆获取
- 爬取次数限制,记录最新爬取时间,若一天内爬取过跳过,反复执行直到爬取完成
- github pages搭建个人博客,将公众号聚合平台部署上去(简易版):https://zejuncao.github.io/