知网专利爬虫第三步(真分布式),前两步见CnkiPatentSpider。
可在不同的机器上运行(不需要额外配置,自动分配任务),以及可同一机器同时运行多次,可以随时停止。
在 bin
目录下找到适合自己操作系统和芯片架构的二进制文件,运行 ./二进制文件名 run
即可。
如,MacOS 的 M1 芯片架构,运行 ./spider_darwin_arm64 run
。
把程序放到后台运行,不要关掉。当然也可以使用 nohup
一类的命令在后台运行。
还有些参数可以设置,可运行 ./二进制文件名 run --help
查看。一般情况下不需要设置。
例如设置爬虫两次请求最小间隔时间为 2 秒,设置并发数为2:./二进制文件名 run --min=2 -c=2
。
如果要本地运行,请将 /db/dsn_example.txt
改名为 /db/dsn.txt
,并修改其中的数据库连接信息。
运行 /build.sh
,自动编译至各操作系统和芯片架构,生成的二进制文件存放在 /知网专利爬虫/bin
目录中。