Kafkalag很高，达到200万

Question

yumianxiaofeilongya opened this issue a year ago · 5 comments

通过api，getkafkalag响应200万，hub输入源QPS为0，数据处理服务不可用，这个需要怎么排查和处理呀

Answer 1 · 2023-07-05T02:56:43.000Z

单台部署，8c32g，12台agent

Answer 2 · 2023-07-06T10:14:03.000Z

Hub 不消费排查：

systemctl status elkeid_hub 查看启动时间，并观察一段时间，看hub是否有自己重启的情况。
手动重启一次Hub，systemctl restart elkeid_hub，看hub是否恢复消费。hub是否消费可以通过kafka的监控面板来确认。
若无改善，查看hub metrics。 curl -k -s https://x.x.x.x:8091/metrics | grep input ，查看结果是否为0。
3.1 若为0，说明hub 从未消费数据，需要排查input的问题
3.2 若不为0，说明hub 消费了数据，但是output堵住了，需要排查output问题
hub log在 /elkeid/hub/log/smith.log , hub 的标准输出在 /elkeid/log/hub.log，排除 metrics 关键词后，有其他部分err log，请贴出来我们一同判断。

Answer 3 · 2023-07-07T01:19:28.000Z

这个界面看有没有消费么

Answer 4 · 2023-07-07T08:03:01.000Z

截图和描述不太符合，我先来说下截图的含义：

根据这个截图推断，不是hub不消费，而是agent连接agent_center 有问题或 agent_center 写入kafka有问题，仅在07/05这个时间点连上了。

Answer 5 · 2023-07-09T15:18:17.000Z

好的，老师，按照您给的排查思路，我删除了输出后服务显示为低负载，不再是不可用了，但是那个getkafkalag接口一直持续上升，这正常么，图片我只是接了另一个环境的图片，正在使用的环境图片是无法传出网络的，按照你的解释我可以尝试理解一下正式环境的数据，感谢老师