/maxun

免费、开源的无代码 Web 数据提取平台。构建自定义机器人以自动抓取数据 [测试版]Free, open-source no-code web data extraction platform. Build custom robots to automate data scraping [In Beta]

Primary LanguageTypeScriptGNU Affero General Public License v3.0AGPL-3.0

开源无代码 Web 数据提取平台

Maxun 可让您在 2 分钟内训练一个机器人,并在自动驾驶仪上抓取 Web。Web 数据提取没有比这更容易的了!

网站 |不和谐 |推特 |加入 Maxun Cloud |观看教程

maxun_demo maxun_demo

本地设置

Docker Compose

git clone https://github.com/getmaxun/maxun
docker-compose up -d --build

不使用 Docker

  1. 确保您的系统上安装了 Node.js、PostgreSQL、MinIO 和 Redis。
  2. 运行以下命令
git clone https://github.com/getmaxun/maxun

#change directory to the project root cd maxun

#install dependencies npm install

#change directory to maxun-core to install dependencies cd maxun-core npm install

#start frontend and backend together npm run start

您可以在 http://localhost:5173/ 处访问前端,在 http://localhost:8080/ 处访问后端

环境变量

  1. 在项目的根文件夹中创建一个名为.env
  2. 示例 env 文件可以在这里查看。
变量 命令的 描述 如果未设置
BACKEND_URL 是的 要运行后端的 URL。 后端无法启动。如果不确定,请设置为 http://localhost:8080
VITE_BACKEND_URL 是的 要运行后端的 URL。 后端无法启动。如果不确定,请设置为 http://localhost:8080
JWT_SECRET 是的 用于对 JSON Web 令牌 (JWT) 进行签名和验证以进行身份验证的密钥。 JWT 身份验证将不起作用。
DB_NAME 是的 要连接到的 Postgres 数据库的名称。 数据库连接将失败。
DB_USER 是的 用于 Postgres 数据库身份验证的用户名。 数据库连接将失败。
DB_PASSWORD 是的 用于 Postgres 数据库身份验证的密码。 数据库连接将失败。
DB_HOST 是的 运行 Postgres 数据库服务器的主机地址。 数据库连接将失败。
DB_PORT 是的 用于连接到 Postgres 数据库服务器的端口号。 数据库连接将失败。
ENCRYPTION_KEY 是的 用于加密敏感数据 (代理、密码) 的密钥。 加密功能将不起作用。
MINIO_ENDPOINT 是的 MinIO 的端点 URL,用于存储 Robot Run 屏幕截图。 与 MinIO 存储的连接将失败。
MINIO_PORT 是的 MinIO 服务的端口号。 与 MinIO 存储的连接将失败。
MINIO_ACCESS_KEY 是的 用于使用 MinIO 进行身份验证的访问密钥。 MinIO 身份验证将失败。
GOOGLE_CLIENT_ID Google OAuth 的客户端 ID,用于 Google Sheet 集成身份验证。 Google 登录将不起作用。
GOOGLE_CLIENT_SECRET Google OAuth 的客户端密钥。 Google 登录将不起作用。
GOOGLE_REDIRECT_URI 用于处理 Google OAuth 响应的重定向 URI。 Google 登录将不起作用。
REDIS_HOST 是的 Redis 服务器的主机地址,BullMQ 用于调度机器人。 Redis 连接将失败。
REDIS_PORT 是的 Redis 服务器的端口号。 Redis 连接将失败。
MAXUN_TELEMETRY 禁用遥测以停止发送匿名使用情况数据。保持启用状态有助于我们了解产品的使用情况,并评估任何新更改的影响。请保持启用状态。 不会收集遥测数据。

它是如何工作的?

Maxun 允许您创建自定义机器人来模拟用户操作并提取数据。机器人可以执行任何操作:捕获列表、捕获文本或捕获屏幕截图。创建机器人后,它将继续为您提取数据,无需人工干预

Screenshot 2024-10-23 222138

1. 机器人操作

  1. 捕获列表:用于从网站中提取结构化和批量项目。示例:从亚马逊等抓取产品。
  2. 捕获文本:用于从网站中提取单个文本内容。
  3. 捕获屏幕截图:获取网站的整页或可见部分屏幕截图。

2. 自带

BYOP (Bring Your Own Proxy) 允许您连接外部代理以绕过反机器人保护。目前,代理是按用户创建的。很快,您将能够为每个机器人配置代理。

特征

  • ✨ 使用无代码提取数据
  • ✨ 处理分页和滚动
  • ✨ 按特定计划运行机器人
  • ✨ 将网站转换为 API
  • ✨ 将网站转换为电子表格
  • ✨ 适应网站布局更改(即将推出)
  • ✨ 登录后提取,支持双重身份验证(即将推出)
  • ✨ 集成(当前为 Google Sheet)
  • +++ 即将推出许多令人惊叹的东西!

我们提供托管云版本来运行 Maxun,而无需管理基础设施和大规模提取数据。Maxun Cloud 还处理反机器人检测、具有自动代理轮换的庞大代理网络和 CAPTCHA 破解。如果您对此感兴趣,请加入云候补名单,因为我们即将推出。

屏幕截图

Maxun PH Launch (1)-1-1 Maxun PH Launch (1)-2-1 Maxun PH Launch (1)-3-1 Maxun PH Launch (1)-4-1 Maxun PH Launch (1)-5-1 Maxun PH Launch (1)-6-1 Maxun PH Launch (1)-7-1 Maxun PH Launch (1)-8-1 Maxun PH Launch (1)-9-1

注意

该项目处于开发的早期阶段。您的反馈对我们来说非常重要 - 我们正在积极努力改进产品。在此处提供匿名反馈。

许可证

本项目采用 AGPLv3 许可。

贡献

感谢所有贡献者的共同努力!