/pyspider

A Powerful Spider(Web Crawler) System in Python.

Primary LanguagePythonApache License 2.0Apache-2.0

pyspider的基本使用请移步:https://github.com/binux/pyspider/blob/master/README.md

添加部分自定义功能

1.需要接入cas,添加用户管理功能
2.任务分组,权限管理
3.单个任务重试功能(暂时不支持批量)
4.修改页面ui显示,能显示成功/失败/调度中 三种情况的任务
5.添加简单的检索

需要自定义安装的环境

安装cas相关环境

1.安装cas依赖库

git clone https://github.com/cameronbwhite/Flask-CAS.git

cd Flask-CAS/

python setup.py install

安装mysql的驱动库

pip install mysql-connector-python

pip install mysql-connector

2.安装tomcat并设定账号密码 下载apache包,并解压使用

https://archive.apache.org/dist/tomcat/tomcat-8/v8.5.16/bin/apache-tomcat-8.5.16.tar.gz

1).修改tomcat管理员账号密码

vi  ./apache-tomcat-8.5.16/conf/tomcat-users.xml

#直接添加在最后一行,修改管理员账号密码
<user username="tingyun" password="tingyun" roles="manager-gui,admin-gui"/>

2).配置cas工程,并修改用户账号密码

#下载cas的war包,解压到webapps的目录下,本项目根目录./cas_war/下
cd ./cas_war/* ./apache-tomcat-8.5.16/webapps

tar -zxvf cas-server-webapp-4.0.0.tar.gz

#重命名这个目录的名字,代码中是使用的cas这个名字
mv cas-server-webapp-4.0.0 cas
#以下是允许登录的用户账号密码,可配置多个
vi ./apache-tomcat-8.5.16/webapps/cas/WEB-INF/deployerConfigContext.xml

#找到其中<property name="users">这一部分,可添加多个
<map>
     <entry key="tingyun" value="tingyun"/>
</map>

后续登录pyspider时候需要使用到当前位置设定的账号密码

启动完之后可以登录http://127.0.0.1:8080/manager/status 查看服务器的状态

3).启动tomcat

sh ./apache-tomcat-8.5.16/bin/startup.sh

启动依赖配置

1.启动redis

vi /etc/redis.conf

#将bind 127.0.0.1注释掉,换成如下
bind 0.0.0.0

#启动
redis-server /etc/redis.conf

2.mysql设定远程访问

grant all PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'tingyun' WITH GRANT OPTION;

flush privileges;

3.设定phantomjs

#安装依赖
apt-get install build-essential g++ flex bison gperf ruby perl libsqlite3-dev libfontconfig1-dev libicu-dev libfreetype6 libssl-dev libpng-dev libjpeg-dev python libx11-dev libxext-dev

#从镜像上下载最新版本的phantomjs,官网太慢了
http://npm.taobao.org/dist/phantomjs/

#解压安装
tar -jxvf phantomjs-2.1.1-linux-x86_64.tar.bz2
cd phantomjs-2.1.1-linux-x86_64
cp ./bin/phantomjs  /usr/local/bin/

#输入以下命令检测是否安装成功
phantomjs -v

#安装相关依赖包
pip install selenium
pip install logging
pip install redis
pip install pymysql

使用本项目代码

git clone https://github.com/tingyunsay/pyspider.git

配置好config.json文件

运行

./runc.py -c config.json