工程收集了笔者日常工作生活中,用到的一些爬虫案例,技术实现比较简单,并未用到一些复杂的爬虫技术。不积跬步无以至千里,希望自己可以通过不断解决现实问题,积攒爬虫经验。
爬虫列表如下:
- 花骨朵
- IT桔子
- 铅笔道
① git clone
远程仓库至本地:
git clone git@github.com:keepalive555/crawlers.git
② 新建Python
虚拟运行环境
cd crawlers/
virtualenv env && source env/bin/active
③安装Python
依赖库
pip install -r requirements.txt -i http://pypi.doubanio.com/simple --trusted-host pypi.doubanio.com
注意事项:
爬虫引用的
html
解析库lxml
是由c
语言编写的,若python
使用则需要首先安装一些Python
系统库库。常用Linux
发型版本安装指南如下:
- Debian/Ubuntu
sudo apt-get install libxml2-dev libxslt-dev python-dev
- CentOS
sudo yum install libxml2 libxmls-devel libxslt-devel python-devel
根据模板生成配置文件:cp config_sample.py config.py
用编辑器打开config.py
,配置项如下所示:
QQ_MAIL_ACCOUNT = '' # 腾讯企业邮发件账户
QQ_MAIL_PASSWORD = '' # 腾讯企业邮发件密码
RECEIPTS = ['demo@qq.com'] # 收件人列表
ITJUZI_USER = '' # IT桔子用户名
ITJUZI_PASSWORD = '' # ITt桔子用户密码
QIANBIDAO_USER = '' # 铅笔道登录用户
QIANDIDAO_PASSWORD = '' # 铅笔道登录密码
mkdir -p ~/log
cd cralwers && ../env/bin/python export.py # 爬取花骨朵影视剧信息
cd cralwers && ../env/bin/python itjuzi.py # 爬取IT桔子项目信息
cd cralwers && ../env/bin/python qianbidao.py # 爬取铅笔道项目信息
在服务器上运行,可以考虑配置supervisor
守护进程或者手动使用nohup
命令后台运行:
nohup cd cralwers && ../env/bin/python qianbidao.py > log.txt 2>&1 &