/CnkiPatentSpiderGo

知网专利分布式爬虫,仅供学习交流使用

Primary LanguageGo

CnkiPatentSpiderGo

知网专利爬虫第三步(真分布式),前两步见CnkiPatentSpider

可在不同的机器上运行(不需要额外配置,自动分配任务),以及可同一机器同时运行多次,可以随时停止。

使用方法

bin 目录下找到适合自己操作系统和芯片架构的二进制文件,运行 ./二进制文件名 run 即可。

如,MacOS 的 M1 芯片架构,运行 ./spider_darwin_arm64 run

把程序放到后台运行,不要关掉。当然也可以使用 nohup 一类的命令在后台运行。

还有些参数可以设置,可运行 ./二进制文件名 run --help 查看。一般情况下不需要设置。

例如设置爬虫两次请求最小间隔时间为 2 秒,设置并发数为2:./二进制文件名 run --min=2 -c=2

注意事项

如果要本地运行,请将 /db/dsn_example.txt 改名为 /db/dsn.txt,并修改其中的数据库连接信息。

交叉编译

运行 /build.sh,自动编译至各操作系统和芯片架构,生成的二进制文件存放在 /知网专利爬虫/bin 目录中。