Lagou Spider

如果感觉项目还不错，给个 Star 吧 _(:з」∠)_

--	--
Version	1.0.0
WebSite	http://www.jobinfo.cc:8000/
Source	https://github.com/GuozhuHe/webspider
Keywords	`Python3`, `Tornado`, `Celery`, `Spider`, `Lagou`, `Requests`

爬取到的数据分享链接: https://pan.baidu.com/s/1gfIi5gv 密码: gikp

关于本系统

本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫，实现了定时任务，出错重试，日志记录，自动更改Cookies等的功能，并使用ECharts + Bootstrap 来构建前端页面，来展示爬取到的数据。

展示页面

项目依赖

requests
sqlalchemy
python-redis
redis
mysqlclient
lxml
retrying
celery
tornado

安装使用

克隆项目

git clone git@github.com:GuozhuHe/webspider.git

安装 virtualenv (推荐使用方式)

pip install virtualenv
# 创建 python3 虚拟环境
virtualenv -p /usr/bin/python3 webspider
# 激活虚拟环境
source webspider/bin/activate

安装 zc.buildout

pip3 intstall zc.buildout

buildout
# 构建成功后项目的 bin/ 目录下会有可执行脚本

启动 redis 和 mysql

# mac os 环境下
redis-server
mysql.server start

执行单元测试

bin/test

运行 Web Server

bin/web

运行爬虫程序

# 启动定时任务分发器
bin/celery_beat
# 启动爬取 职位数据 的 worker(每个月自动执行一次)
bin/celery_lagou_data_worker
# 启动爬取 职位数量 的 worker(每天晚上自动执行一次)
bin/celery_jobs_count_worker

# 直接爬取职位数量
bin/crawl_jobs_count        
# 直接爬取职位数据
bin/crawl_lagou_data       
# 启动celery监控 
bin/celery_flower

其他常见问题

有问题？联系我解决:

E-mail: heguozhu@zhihu.com
QQ: 188003202

whattwitter/webspider

Lagou Spider

关于本系统

展示页面

项目依赖

安装使用

其他常见问题