基于python3,使用简单的request模块 + 函数封装 + 多线程 + redis分布式等方法实现爬取迁木网国内外名牌大学信息的功能
环境及模块:python + lxml.etree + redis
1.qianmu.py 基础版,使用最原始的方法实现爬取
2.qianmu_1.py 函数封装版,将基础版的代码各功能划分封装成多个函数,方便重复调用,减少重复性代码
3.qianmu_thread.py 多线程版,在函数版的基础上,加上线程池和队列,实现多线程爬取,提高效率
4.qianmu_redis.py 分布式版,在多线程的基础上,加上redis数据库,可实现分布式多线程爬取,适合此IO密集型工作要求,更快更高效更安全地爬取