bytedance/Elkeid-HUB

Kafkalag很高,达到200万

yumianxiaofeilongya opened this issue · 5 comments

通过api,getkafkalag响应200万,hub输入源QPS为0,数据处理服务不可用,这个需要怎么排查和处理呀

单台部署,8c32g,12台agent

Hub 不消费排查:

  1. systemctl status elkeid_hub 查看启动时间,并观察一段时间,看hub是否有自己重启的情况。
  2. 手动重启一次Hub,systemctl restart elkeid_hub,看hub是否恢复消费。hub是否消费可以通过kafka的监控面板来确认。
  3. 若无改善,查看hub metrics。 curl -k -s https://x.x.x.x:8091/metrics | grep input ,查看结果是否为0。
    3.1 若为0,说明hub 从未消费数据,需要排查input的问题
    3.2 若不为0,说明hub 消费了数据,但是output堵住了,需要排查output问题
  4. hub log在 /elkeid/hub/log/smith.log , hub 的标准输出在 /elkeid/log/hub.log,排除 metrics 关键词后,有其他部分err log,请贴出来我们一同判断。

IMG_3861
这个界面看有没有消费么

截图和描述不太符合,我先来说下截图的含义:

  1. 图一: topic创建在 07/01 到 07/02 之间,说明这个时间点部署了服务,但是没看到写入。
  2. 图一: 在 07/05 的时候第一次有数据写入到kafka,但是很短暂就又没数据写入了。斜线都是grafana连的点,说明这段时间没数据。
  3. 图二: lag为 -11 ,说明只有一个partition有数据但没lag,其他是一个partition没写入过数据,是-1,所以加起来是 -11
  4. 团三,同图一
  5. 图四:只有在 07/05 有数据的时候消费了一会,其他时间没有数据。

根据这个截图推断,不是hub不消费,而是agent连接agent_center 有问题或 agent_center 写入kafka有问题,仅在07/05这个时间点连上了。

好的,老师,按照您给的排查思路,我删除了输出后服务显示为低负载,不再是不可用了,但是那个getkafkalag接口一直持续上升,这正常么,图片我只是接了另一个环境的图片,正在使用的环境图片是无法传出网络的,按照你的解释我可以尝试理解一下正式环境的数据,感谢老师