/crazyDhtSpider

依托于swoole的DHT爬虫,磁力搜索站必备,有着奇高的效率。

Primary LanguagePHP

本项目是在phpDhtSpider基础上修改而来:https://github.com/cuijun123/phpDhtSpider

原作者不知什么原因一直不维护并且代码不完善,根本跑不起来,现在已经修复相关问题,并且进行了优化,开启了协程,可以高效率运行。

php实现的dht爬虫(分布式)

需要swoole拓展

swoole version 4.0 +

PHP 7.2+

swoole安装就不多介绍了,为了方便的话可以使用宝塔面板。

#########运行说明##############

dht_client目录 为爬虫服务器 环境要求

1.php安装swoole拓展

2.设置服务器 ulimit -n 100000

3.防火墙开放6882端口

4.运行 php go.php

很多采集不到数据 是由于第三点导致的

=============================================================

dht_server目录 接受数据服务器(可在同一服务器) 环境要求

1.php安装swoole拓展

2.设置服务器 ulimit -n 100000

3.防火墙开放dht_client请求的对应端口(配置项中,默认2345)

4.运行 php go.php

1、运行过程中会有少许错误日志,不影响使用,具体原因可以自己分析,可以根据自己的机器优化,但不要乱改参数不然小心报错日志疯。 提供restart.sh脚本一枚,可以通过定时任务进行定时清理日志。

2、注意config.php中的'daemonize'=>false,//可以决定是否开启后台守护进程

3、建议找一个流量比较充足的VPS来跑,最好是无限流量的。