-
所需环境:redis,mysql
-
修改pipelines.py下的redis数据库配置
-
修改model包下__init__.py中mysql的数据库配置
-
进入spider_website目录后执行python run.py即可执行爬虫
-
本项目可以使用python setup.py bdist_egg打包成egg文件
-
使用easy_install **.egg --prefix=/path对egg文件进行安装
derlinchen/spider_website
python爬虫,通过redis进行去重,通过IP动态代理、User-Agent进行反爬虫处理,同时利用Rule进行规则定义并使用Schedule定时器进行定时爬取。三方包:scrapy、schedule
Python