##项目说明
- python:2.7
- scrapy:1.0.3
- django:1.8
爬取新闻网站的新闻信息存入数据库mysql中,项目中使用了DjangoItem,所以需要依赖django项目Pyorc
##部署
部署爬虫到服务器,可以远程调控爬虫的运行、暂停等操作
修改爬虫项目下的scrapy.cfg文件
[deploy:pyorcnews]
url = http://localhost:6800/
project = pyorcnews
url 表示爬虫服务器地址
执行命令【scrapyd】 启动服务 scrapyd-deploy -l 查看项目列表 scrapyd-deploy pyorcnews 上传项目
###supervisor
Supervisor --> Python写的进程管理器。
修改配置文件(linux下默认目录/etc/supervisor/supervisord.conf)
如下图,配置后可以在浏览器中查看和管理进程
进程scrapyd的配置
启动
###crontab 编写shell脚本
编辑crontab
crontab -e * */6 * * * /home/zmy/shell-sh/scrapyd.sh #表示每6个小时执行一次
执行cron~~ sudo service cron start
至此部署完成,爬虫可以每六小时执行一此