/WeChatOA_Aggregation

微信公众号聚合平台,获取多个公众号的博文进行筛选、过滤,使用户更方便的读取公众号上的所有文章,每日爬取文章并在个人博客上更新 https://zejuncao.github.io/

Primary LanguagePython

WeChatOA_Aggregation

微信公众号聚合平台,获取多个公众号的博文进行筛选、过滤,使用户更方便的读取公众号上的所有文章

TODO

  • 根据标题去重,去除大量转载文章
    • 增加白名单:存在标题相同内容不同,例如“今日Github最火的10个Python项目”
    • 按句分割,判断重复句子所占比例
  • 去除广告等无用博文
  • 定期爬取,每天早上8:00爬。爬取当前早上6:00到昨天早上6:00的
  • cookie和token过期自动模拟登陆获取
  • 爬取次数限制,记录最新爬取时间,若一天内爬取过跳过,反复执行直到爬取完成
  • github pages搭建个人博客,将公众号聚合平台部署上去(简易版):https://zejuncao.github.io/