Maxun 可让您在 2 分钟内训练一个机器人,并在自动驾驶仪上抓取 Web。Web 数据提取没有比这更容易的了!
网站 |不和谐 |推特 |加入 Maxun Cloud |观看教程
git clone https://github.com/getmaxun/maxun
docker-compose up -d --build
- 确保您的系统上安装了 Node.js、PostgreSQL、MinIO 和 Redis。
- 运行以下命令
git clone https://github.com/getmaxun/maxun
#change directory to the project root cd maxun
#install dependencies npm install
#change directory to maxun-core to install dependencies cd maxun-core npm install
#start frontend and backend together npm run start
您可以在 http://localhost:5173/ 处访问前端,在 http://localhost:8080/ 处访问后端
- 在项目的根文件夹中创建一个名为
.env
- 示例 env 文件可以在这里查看。
变量 | 命令的 | 描述 | 如果未设置 |
---|---|---|---|
BACKEND_URL |
是的 | 要运行后端的 URL。 | 后端无法启动。如果不确定,请设置为 http://localhost:8080 |
VITE_BACKEND_URL |
是的 | 要运行后端的 URL。 | 后端无法启动。如果不确定,请设置为 http://localhost:8080 |
JWT_SECRET |
是的 | 用于对 JSON Web 令牌 (JWT) 进行签名和验证以进行身份验证的密钥。 | JWT 身份验证将不起作用。 |
DB_NAME |
是的 | 要连接到的 Postgres 数据库的名称。 | 数据库连接将失败。 |
DB_USER |
是的 | 用于 Postgres 数据库身份验证的用户名。 | 数据库连接将失败。 |
DB_PASSWORD |
是的 | 用于 Postgres 数据库身份验证的密码。 | 数据库连接将失败。 |
DB_HOST |
是的 | 运行 Postgres 数据库服务器的主机地址。 | 数据库连接将失败。 |
DB_PORT |
是的 | 用于连接到 Postgres 数据库服务器的端口号。 | 数据库连接将失败。 |
ENCRYPTION_KEY |
是的 | 用于加密敏感数据 (代理、密码) 的密钥。 | 加密功能将不起作用。 |
MINIO_ENDPOINT |
是的 | MinIO 的端点 URL,用于存储 Robot Run 屏幕截图。 | 与 MinIO 存储的连接将失败。 |
MINIO_PORT |
是的 | MinIO 服务的端口号。 | 与 MinIO 存储的连接将失败。 |
MINIO_ACCESS_KEY |
是的 | 用于使用 MinIO 进行身份验证的访问密钥。 | MinIO 身份验证将失败。 |
GOOGLE_CLIENT_ID |
不 | Google OAuth 的客户端 ID,用于 Google Sheet 集成身份验证。 | Google 登录将不起作用。 |
GOOGLE_CLIENT_SECRET |
不 | Google OAuth 的客户端密钥。 | Google 登录将不起作用。 |
GOOGLE_REDIRECT_URI |
不 | 用于处理 Google OAuth 响应的重定向 URI。 | Google 登录将不起作用。 |
REDIS_HOST |
是的 | Redis 服务器的主机地址,BullMQ 用于调度机器人。 | Redis 连接将失败。 |
REDIS_PORT |
是的 | Redis 服务器的端口号。 | Redis 连接将失败。 |
MAXUN_TELEMETRY |
不 | 禁用遥测以停止发送匿名使用情况数据。保持启用状态有助于我们了解产品的使用情况,并评估任何新更改的影响。请保持启用状态。 | 不会收集遥测数据。 |
Maxun 允许您创建自定义机器人来模拟用户操作并提取数据。机器人可以执行任何操作:捕获列表、捕获文本或捕获屏幕截图。创建机器人后,它将继续为您提取数据,无需人工干预
- 捕获列表:用于从网站中提取结构化和批量项目。示例:从亚马逊等抓取产品。
- 捕获文本:用于从网站中提取单个文本内容。
- 捕获屏幕截图:获取网站的整页或可见部分屏幕截图。
BYOP (Bring Your Own Proxy) 允许您连接外部代理以绕过反机器人保护。目前,代理是按用户创建的。很快,您将能够为每个机器人配置代理。
- ✨ 使用无代码提取数据
- ✨ 处理分页和滚动
- ✨ 按特定计划运行机器人
- ✨ 将网站转换为 API
- ✨ 将网站转换为电子表格
- ✨ 适应网站布局更改(即将推出)
- ✨ 登录后提取,支持双重身份验证(即将推出)
- ✨ 集成(当前为 Google Sheet)
- +++ 即将推出许多令人惊叹的东西!
我们提供托管云版本来运行 Maxun,而无需管理基础设施和大规模提取数据。Maxun Cloud 还处理反机器人检测、具有自动代理轮换的庞大代理网络和 CAPTCHA 破解。如果您对此感兴趣,请加入云候补名单,因为我们即将推出。
该项目处于开发的早期阶段。您的反馈对我们来说非常重要 - 我们正在积极努力改进产品。在此处提供匿名反馈。
本项目采用 AGPLv3 许可。
感谢所有贡献者的共同努力!