由于拉勾网近期上线了反爬虫策略,该代码有被拉勾网封IP的可能性。请结合代理使用。
利用 scrapy 框架对拉勾网上的职位进行抓取,数据存储至 mongodb 中,后续进行进一步分析导出 json 格式数据,利用 fabric + 定时任务上传更新数据至服务器,完成自动部署。
由于 scrapy 目前对 py3 尚未完全支持,因此该项目仅在 py2.7下运行测试通过。
数据展示网站示例:http://107.170.207.236/job_analysis/
数据展示项目地址:https://github.com/namco1992/job_analysis
- 爬虫模块
- 数据分析,导出为 json 格式数据。
- 自动部署
首先参照settings.py.example
设置 settings.py。
- 爬虫
scrapy crawl lagou
- 数据分析
python analysis/analyze.py
- 自动部署
fab automatic_deploy
- scrapy
- mongodb
- fabric
MIT