/blogs_scrapy

通用博客爬虫

Primary LanguagePython

blogs_scrapy

通用博客爬虫

项目起因:

  1. 收集技术大神的博客,扩展技术面;
  2. 搜索某个key下大神们的写过的博客,如“php 多线程”;
  3. 学习下scrapy框架;

如何使用

  1. pip install scrapy pymysql
  2. 修改配置文件settings.py
  3. 添加站点规则至rules表
  4. python run.py

为何不用baidu/google

  • 搜索引擎给出的内容太多,太杂;
  • 无法订阅感兴趣的大神博客;

参考