/frostmourne

Frostmourne(霜之哀伤监控平台)是基于Elasticsearch, Prometheus, SkyWalking, InfluxDB,Mysql/TiDB,ClickHouse, IoTDB数据的监控,报警系统. Monitor & alert & alarm & analyze for Elasticsearch && InfluxDB Log Data。主要使用springboot2 + vue-element-admin

Primary LanguageJavaMIT LicenseMIT

GitHub release GitHub Stars GitHub Forks GitHub Contributors GitHub issues JDK support LICENSE Downloads

Github地址 | Gitee地址

📖 介绍

Frostmourne(霜之哀伤)是汽车之家经销商技术部监控系统的开源版本,用于帮助监控几乎所有数据库(包括Elasticsearch, Prometheus, SkyWalking, MySql 等等)数据。如果你已经建立起了日志系统, 指标体系,却苦恼于没有一个配套监控系统,也许它能帮到你。

项目初衷

在用ELK建立起日志系统之后,我们发现应用日志监控这块除了ElastAlert之外,没有其他方案。我们初期使用ElastAlert来解决日志监控的问题, 但是随着配置的增加,不仅管理成本和使用成本较高,稳定性方面也不能让我们满意,所以为了更好的易用性,稳定性,我们决定自己做一套简单的监控系统, 来解决日志监控的问题。

项目并不局限于Elasticsearch数据,还支持HTTP, PING, Telnet监控,Prometheus, SkyWalking, InfluxDBMySQL, ClickHouse, IoTDB数据监控,后面还会加入更多的常用数据源 (如:Loki, MongoDB Redis, Oracle, SqlServer等)纳入监控范畴,需要做的东西还有很多,需要更多相关开发加入进来,欢迎联系我们,一起做大做强。

✨ 主要功能

  • 只需要写一条数据查询就可以轻松搞定监控

  • 多种数据源支持:Elasticsearch, HTTP, SkyWalking, Prometheus, InfluxDB, MySQL/TiDb, ClickHouse, PING, IotDB, Telnet

  • 数值计算类型监控:count, min, max, avg, sum, unique count, percentiles, standard deviation; Elasticsearch数据支持分桶

  • 多种报警消息发送方式:钉钉(机器人)、企业微信(机器人)、飞书机器人、Email、短信、HTTP

  • 多种消息格式:text, markdown

  • 灵活的报警消息Freemarker模板定制,支持变量占位符;消息模板管理

  • 分布式调度实现,每个监控都是独立调度,互不影响

  • 报警消息附带日志查询短链接,直达报警原因

  • 数值同比,环比监控

  • HTTP数据监控, Javascript表达式判断是否报警; PING连通监控, Telnet端口连通监控

  • 前端简单易用:监控管理、测试、另存、执行日志和历史消息

  • Elasticsearch数据查询、分享和下载

  • 报警消息抑制功能,防止消息轰炸;也有报警升级功能,避免故障相关方长时间得不到通知。

  • 自带账号,团队,部门信息管理模块,也可自己实现内部对接

  • 集成LDAP登录认证

  • 权限控制,数据隔离,各团队互不影响

    企业微信机器人报警截图展示: (查看完整功能截图展示

目录

💻 在线demo

为了更快的理解本项目的作用,提供了一个接口全mock的静态站点供大家预览功能: 在线demo 在线demo更新不及时,请以项目实际运行效果为准,demo只是用于快速浏览

📦 快速启动

提供docker-compose方式,让你更快运行起来便于更好理解项目作用。详细请看文档:Quick-Start

🧰 部署

预备环境准备:MySQL数据库表创建

Frostmourne所有表的创建语句都在 frostmourne.sql 文件中。

数据库密码默认使用明文,没有加密策略。如果你需要对密码进行加密,请参考druid官方文档:druid数据库密码加密

一、k8s部署方式

k8s部署参考以下三个配置文件

相关参数在 frostmourne-monitor-deployment.yaml 文件里配置。需要注意的是在frostmourne-monitor-service.yaml里指定对外映射端口,默认nodePort=30054

kubectl applt -f frostmourne-monitor-namespace.yaml
kubectl applt -f frostmourne-monitor-deployment.yaml
kubectl apply -f frostmourne-monitor-service.yaml

二、zip包部署方式

依赖环境

  • JDK 1.8
  • MySQL 5.7.8+

最新的Release版本zip包,请到 releases 中下载,解压后然后根据自己的环境修改应用配置文件application.properties文件和环境变量配置文件env,然后执行如下命令启动:

./scripts/startup.sh

执行如下命令停止应用:

./scripts/shutdown.sh

三、自构建部署方式

依赖环境

  • JDK 1.8
  • Maven 3.2.x+
  • MySQL 5.7.8+

在项目frostmourne主目录下执maven构建命令:

mvn -U clean package -DskipTests=true

前端项目frostmourne-vue会自动把资源构建到frostmourne-monitorresources/dist下,所以你只需要部署frostmourne-monitor即可。

frostmourne-monitor已经配置了assembly打包,target目录下会生成zip包,你只需要将zip包解压,然后根据自己的 环境修改应用配置文件application.properties文件和环境变量配置文件env,然后执行如下命令启动:

./scripts/startup.sh

执行如下命令停止应用:

./scripts/shutdown.sh

📚 功能使用指南

Elasticsearch数据监控指南 HTTP监控使用说明 Prometheus数据监控指南
SkyWalking数据监控指南 MySQL数据监控指南 ClickHouse数据监控指南
InfluxDB数据监控指南 PING监控指南 数值同比监控使用指南
消息模板配置 报警发送 报警抑制
用户管理和登录认证 注意事项 其他
数值环比监控使用指南 iotdb数据监控使用指南 telnet端口连通监控指南

🛠 开发调试

调试环境要求

  • JDK 1.8
  • Node 16.14.2 (推荐)
  • Yarn 1.22.10 (推荐) 或 Npm 8.7.0
  • MySQL 5.7.8+
  • Elasticsearch 6.3.2+

启动frostmourne-monitor项目, 启动参数增加:

-Dmysql.host=localhost -Dmysql.user=root -Dmysql.password=example -Dlog.console.level=INFO

MySQL相关参数修改为自己环境的,active profile设置为local, 测试地址: http://localhost:10054 使用VS Code打开frostmourne-vue目录,进行前端调试。执行如下命令:

# install dependency
yarn install

# 建议不要直接使用 cnpm 安装以来,会有各种诡异的 bug。可以通过如下操作解决 npm 下载速度慢的问题
yarn install --registry=https://registry.npm.taobao.org

# develop
yarn dev

会自动打开: http://localhost:9528

搭建本地开发调试环境或者需要做二次开发遇到什么困难的都可以加群沟通,欢迎各路英雄多多PR

技术说明项目基于Java8实现,详细请看:技术说明

⚙后续规划

  • 【0.9】发布0.8-RELEASE, 进入0.9开发 [2022-06-09]
  • 【0.9】增加telnet端口连通监控 [2022-06-09]
  • 增加本项目内程序日志采集至MySQL并提供查询页面,方便排查问题和监控
  • 增加 [SqlServer] 数据监控报警
  • Elasticsearch数据名增加kibana链接配置,在数据查询页面增加kibana地址跳转链接,方便将数据查询切换至kibana
  • 短信报警方式实现,默认用阿里云短信实现
  • 页面展示文字支持英文切换
  • 增加 loki 数据监控报警
  • 增加 redis 数据监控报警
  • 数据源列表页面增加数据源图标列,方便区分
  • 增加邮箱在线配置页面功能
  • 增加企业微信在线配置页面功能
  • 将短链接id以16进制格式展示,解决id数字很大的时候较长的问题
  • 增加邮箱在线配置页面功能
  • pom优化
  • 增加消息内容长度配置,超过长度配置部分将被截掉
  • 员工换组增加是否迁移监控至新组的选项,如果勾选将该员工创建的监控也转移至新组
  • 增加报警组支持
  • 增加监控转组功能
  • Elasticsearch数据名增加traceid字段配置,可以配置跳转链接。例如: 配置skywalking的链接将跳转到skywalking对应的调用链
  • InfluxDB数据查询除了返回数值,另外返回最新一个point详细数据用于报警消息模板
  • 增加InfluxDB数据查询页面
  • InfluxDB数据监控增加短链接,跳转到InfluxDB数据查询页面
  • 监控列表增加"执行日志"操作按钮,点击跳转到对应监控执行日志列表页
  • 增加时序数据历史数据比较规则
  • 监控增加报警消息允许发送时间段设置,非允许发送时间段内消息将只记录不发送,发送状态为FORBID
  • 增加企业钉钉发消息默认实现(本地没有环境,需要帮助,欢迎PR,或者提供示例代码,先行谢过)
  • 更多报警方式补充(欢迎PR)
  • 后端接口增加数据校验并返回合适的提示信息
  • 监控列表增加一个开关选项,只显示我的监控
  • 监控调度配置后显示预计调度时间
  • Elasticsearch数据名配置时自动提示索引名称
  • 引入对象迭代器,迭代器代表从数据源中得到一个List数据列表,或者自定义输入;用于动态生成监控查询语句,例如: Level: ERROR AND Project: ${ITEM_VALUE};达到数据遍历监控的效果;
  • 国际化
  • 发布1.0-RELEASE
  • 3-sigma离群点检测报警规则
  • 加入时序数据异常检测算法规则(需要实验可行性 基于时间序列的异常检测)
  • 总结项目用到的知识点

1.0-RELEASE核心Feature后续计划

  • 增加 [SqlServer] 数据监控报警
  • 增加本项目内程序日志采集至MySQL并提供查询页面,方便排查问题和监控
  • 增加 skywalking Database Layer 数据监控报警支持
  • 增加 loki 数据监控报警

👍 致谢

👷 Contributors

@menong-chen @fox2zz @xyzj91 @wxmclub @Aping

GitHub Contributors

💡️ 如何参与贡献

如果你觉得这个项目对你有所帮助想有所回馈,非常欢迎参与贡献。可以通过如下方式:

  • 从后续规划里选择合适的任务提交PR
  • 对文档进行必要补充
  • 部署本项目使用起来并通过 githubgitee 告知
  • 帮忙扩散推广
  • issue 提出你的宝贵建议
  • 加入交流群,解答交流问题。群内会不定时发布项目更新说明
  • 开源不易,需要鼓励
  • 代码规范说明

💬 联系我们

有问题需要帮助或者交流可以添加下边的微信群或QQ群,请优先选择提 issue ,便于问题的讨论和记录追踪,也方便有类似问题的伙伴搜索解决。也欢迎对项目感兴趣的同僚加群交流。 特别提一下:关于文档觉得哪里写的不通畅,不好理解,或者有哪方面缺失,都欢迎提 issue

📌 项目事记

  • 2019-12-16: 发布github
  • 2020-06-14: 发布gitee
  • 2020-07-02: 合并第一个PR
  • 2020-07-04: 被elastic中文社区收录 Elastic日报988期
  • 2020-07-13: github项目设置为私有,丢失82个star,29个fork
  • 2020-07-15: 重新公开github
  • 2020-08-23: 上gitee推荐
  • 2020-08-27: gitee star破百
  • 2020-10-12: github star破百

👥 已注册使用者

通过 githubgitee 登记的使用者

汽车之家 最右APP 家家悦 阳光电源 ETCP

⭐️ Stargazers over time

Stargazers over time