本项目是在phpDhtSpider基础上修改而来:https://github.com/cuijun123/phpDhtSpider
php实现的dht爬虫(分布式)
需要swoole拓展
swoole version 4.0 +
PHP 7.2+
swoole安装就不多介绍了,为了方便的话可以使用宝塔面板。
#########运行说明##############
dht_client目录 为爬虫服务器 环境要求
1.php安装swoole拓展
2.设置服务器 ulimit -n 100000
3.防火墙开放6882端口
4.运行 php go.php
很多采集不到数据 是由于第三点导致的
=============================================================
dht_server目录 接受数据服务器(可在同一服务器) 环境要求
1.php安装swoole拓展
2.设置服务器 ulimit -n 100000
3.防火墙开放dht_client请求的对应端口(配置项中,默认2345)
1、运行过程中会有少许错误日志,不影响使用,具体原因可以自己分析,可以根据自己的机器优化,但不要乱改参数不然小心报错日志疯。 提供restart.sh脚本一枚,可以通过定时任务进行定时清理日志。
2、注意config.php中的'daemonize'=>false,//可以决定是否开启后台守护进程
3、建议找一个流量比较充足的VPS来跑,最好是无限流量的。