crawlers

爬虫集合

工程收集了笔者日常工作生活中，用到的一些爬虫案例，技术实现比较简单，并未用到一些复杂的爬虫技术。不积跬步无以至千里，希望自己可以通过不断解决现实问题，积攒爬虫经验。

爬虫列表如下：

花骨朵
IT桔子
铅笔道

环境配置

① git clone远程仓库至本地：

git clone git@github.com:keepalive555/crawlers.git

② 新建Python虚拟运行环境

cd crawlers/
virtualenv env && source env/bin/active

③安装Python依赖库

pip install -r requirements.txt -i http://pypi.doubanio.com/simple --trusted-host pypi.doubanio.com

注意事项：

爬虫引用的html解析库lxml是由c语言编写的，若python使用则需要首先安装一些Python系统库库。常用Linux发型版本安装指南如下：

Debian/Ubuntu
sudo apt-get install libxml2-dev libxslt-dev python-dev
CentOS
sudo yum install libxml2 libxmls-devel libxslt-devel python-devel

配置爬虫

根据模板生成配置文件：cp config_sample.py config.py

用编辑器打开config.py，配置项如下所示：

QQ_MAIL_ACCOUNT = ''  #  腾讯企业邮发件账户
QQ_MAIL_PASSWORD = ''  # 腾讯企业邮发件密码

RECEIPTS = ['demo@qq.com']  # 收件人列表

ITJUZI_USER = ''  # IT桔子用户名
ITJUZI_PASSWORD = '' # ITt桔子用户密码

QIANBIDAO_USER = ''  # 铅笔道登录用户
QIANDIDAO_PASSWORD = ''  # 铅笔道登录密码

运行爬虫

mkdir -p ~/log
cd cralwers && ../env/bin/python export.py  # 爬取花骨朵影视剧信息
cd cralwers && ../env/bin/python itjuzi.py  # 爬取IT桔子项目信息
cd cralwers && ../env/bin/python qianbidao.py  # 爬取铅笔道项目信息

在服务器上运行，可以考虑配置supervisor守护进程或者手动使用nohup命令后台运行：

nohup cd cralwers && ../env/bin/python qianbidao.py > log.txt 2>&1 &

1524701427/crawlers

crawlers

爬虫集合

环境配置

配置爬虫

运行爬虫