一个分布式友好的轻量的 Golang 爬虫框架。
- 优雅的 API
- 整洁的文档
- 高速(单核处理 >1K task/sec)
- 友善的分布式支持
- 便捷的细节
- 相对链接自动转换
- 字符编码自动解码
- HTML,JSON 自动解析
- 丰富的扩展支持
- 请求去重(👈支持分布式)
- 限制请求、速率、并发
- Json,CSV 存储结果
- Robots.txt 支持
- 记录请求异常
- 随机 UA 、随机代理
- 失败重试
- 轻量,适于学习或快速开箱搭建
版本警告
Goribot 仅支持 Go1.13 及以上版本。
go get -u github.com/zhshch2002/goribot
Goribot 包含一个历史开发版本,如果您需要使用过那个版本,请拉取 Tag 为 v0.0.1 版本。
package main
import (
"fmt"
"github.com/zhshch2002/goribot"
)
func main() {
s := goribot.NewSpider()
s.AddTask(
goribot.GetReq("https://httpbin.org/get"),
func(ctx *goribot.Context) {
fmt.Println(ctx.Resp.Text)
fmt.Println(ctx.Resp.Json("headers.User-Agent"))
},
)
s.Run()
}
至此你已经可以使用 Goribot 了。更多内容请从 开始使用 了解。
万分感谢以上项目的帮助🙏。