/tech_talent_desafio_IIII

Desafio IIII do programa de Tech Talent de SRE & Perfomance.

Primary LanguagePython

4º Desafio do Programa de Tech Talent SRE

Proposta do desafio

  • A proposta do desafio foi implementar no cluster todo o monitoramento do ambiente, incluindo recebimento de diversas métricas com o Prometheus, criação de dashboards no Grafana, geração e coletas de logs pelo Loki/Promtail, gerenciamento de alertas com AlertManager, e recebimento de notificações pelo Slack.

Tecnologias Utilizadas

  • Prometheus
  • Grafana
  • AlertManager
  • Loki
  • Promtail
  • Slack

Prometheus

  • Apis de Clientes, Produtos e Endereços e Inventário.
  • Node-Exporter
  • Kube-state-metrics

Grafana

  • Node-exporter
  • kube-state-metrics
  • Requests APIs
  • Logs do cluster

AlertManager

  • Alerta de verificação se o serviço das aplicações estão rodando.
  • Alerta de verificação se falta menos que 10% de utilização dos Nodes.
  • Alerta de verificação se a carga de CPU for maior que 80%.
  • Alerta de verificação se existe Pods falhos.
  • Alerta de verificação se existe Nodes falhos.
  • Alerta de verificação se exister Deployment falho.

Loki/Promtail

  • Loki envia os logs do cluster para o Grafana.
  • Promtail é o agentes que coleta e envia os logs dos nodes.

Slack

  • Recebe os alertas do Alertmanager no canal #douglas-bruno.

Dashboards Grafana

Painel 1

Painel 2

Painel 3

Targets Prometheus

target

Alerts Prometheus

alerts

Notificações no Slack

slack