SRE na prática: softwares, métricas e dashboards para confiabilidade mensurável
A confiabilidade deixou de ser um “problema da infraestrutura” e virou parte direta do valor do produto. Em muitas empresas, o desafio não é falta de monitoramento, e sim excesso de sinal ruim: alertas demais, dashboards bonitos e pouca decisão concreta. SRE (Site Reliability Engineering) resolve essa lacuna ao tratar confiabilidade como engenharia, com metas explícitas, métricas orientadas ao usuário e rotinas operacionais repetíveis.
Pense na sua operação como um painel de controle (cockpit). Ele não existe para “ter gráficos”, mas para permitir decisões rápidas sob pressão. O cenário mais comum é um pico de tráfego que pressiona latência e capacidade. Se você não tem SLOs claros e um cockpit com sinais certos, sua equipe dirige no escuro. Este artigo organiza um stack de softwares, um conjunto de métricas e dados e um modelo de dashboard, relatórios e KPIs para tornar SRE executável.
O que muda quando você trata confiabilidade como produto com SRE
SRE não é um cargo, nem apenas um time. É um modelo de gestão técnica em que confiabilidade tem “contrato” e custo explícitos. O ponto de virada é trocar metas vagas como “99,9% de uptime” por metas verificáveis via SLIs e SLOs, com impacto direto em priorização.
O vocabulário mínimo:
- SLI (Service Level Indicator): o que você mede. Exemplo: porcentagem de requisições HTTP abaixo de 300 ms.
- SLO (Service Level Objective): o alvo. Exemplo: 99% das requisições abaixo de 300 ms no mês.
- SLA (Service Level Agreement): contrato externo, geralmente com penalidade.
Uma referência clássica para esse modelo é o livro do Google sobre Site Reliability Engineering. A sacada operacional é o error budget: se você está dentro do SLO, você “ganha” orçamento para mudança (lançar, refatorar, experimentar). Se você estoura o SLO, você “paga” com foco em estabilidade.
Regra de decisão (aplicável amanhã):
- Se o serviço consumiu mais de 50% do error budget até a metade do ciclo (ex.: dia 15 de 30), congele mudanças de risco alto e priorize correções.
- Se o error budget está saudável, aumente cadência de deploy, mas só se testes e rollback forem automáticos.
No cockpit da operação, isso significa que confiabilidade vira um número que o time de produto entende. Em vez de “o sistema está instável”, você passa a dizer “nosso SLO de latência está 0,3% abaixo do alvo e isso ameaça conversão no checkout”. Essa ponte é o que torna SRE útil fora da engenharia.
Softwares de SRE: como montar um stack que não vira colcha de retalhos
O stack de SRE precisa cobrir quatro funções sem sobreposição confusa: instrumentação, observabilidade, resposta a incidentes e automação. O erro comum é escolher ferramentas por hype e depois tentar “colar” processos.
Uma arquitetura prática começa pela instrumentação padronizada com OpenTelemetry. Isso reduz lock-in e dá consistência a métricas, logs e traces. A partir daí, você escolhe o seu caminho: open-source com mais engenharia interna ou SaaS com mais velocidade.
Exemplo de stack open-source, custo-eficiente e escalável:
- Métricas com Prometheus
- Visualização com Grafana
- IaC com Terraform
Exemplo de stack comercial para visibilidade rápida e times grandes:
Resposta a incidentes (independente do stack):
- On-call, escalonamento e roteamento com PagerDuty
Para não virar colcha de retalhos, use esta matriz de decisão antes de contratar ou padronizar:
- Tempo até valor: você precisa reduzir incidentes este trimestre ou construir base para o próximo ano?
- Integrações críticas: Kubernetes, cloud, banco, fila, CDN, pagamentos.
- Modelo de custo: por host, por ingestão, por usuário, por evento.
- Capacidade de correlação: a ferramenta conecta sintoma (latência) a causa (deploy, saturação, dependência)?
No cockpit, cada ferramenta deve alimentar o mesmo objetivo: reduzir tempo de detecção e tempo de recuperação, com metas mensuráveis. Se o seu stack produz mais alertas do que decisões, ele está mal desenhado.
Métricas de SRE que viram decisão: SLIs, SLOs e Golden Signals
Métricas de SRE não são “todas as métricas disponíveis”. São as métricas que mudam prioridade, reduzem risco e melhoram experiência. Um caminho seguro é começar pelos Golden Signals: latência, tráfego, erros e saturação.
Workflow de definição de SLIs e SLOs em 60 minutos:
- Liste as 3 jornadas que pagam a conta (ex.: login, busca, checkout).
- Para cada jornada, defina um SLI de experiência.
- Só depois, defina SLIs técnicos de suporte (CPU, pool de conexões, fila).
Exemplos prontos (copie e adapte):
API de checkout
- SLI de latência: p95 < 300 ms
- SLI de erros: taxa 5xx < 0,1%
- SLO mensal: 99% das requisições p95 abaixo de 300 ms
Front-end
- SLI de experiência: LCP p75 < 2,5 s
- SLI de erros: taxa de falhas JS < 1%
Para operacionalizar, implemente queries e alertas com PromQL no Prometheus e organize as visões no Grafana. O objetivo não é ter um alerta por métrica, e sim um alerta por risco real de violar SLO.
Regra de decisão para alertas (evita fadiga):
- Alertas de página (page) só para sintomas que ameaçam SLO em minutos.
- Alertas de ticket para degradações que podem esperar o horário comercial.
- Qualquer alerta sem ação clara vira candidato a remoção ou reclassificação.
Quando o cockpit usa SLIs e SLOs, “dados e insights” deixam de ser relatório e viram comando. Você cria um loop: observar, decidir, agir, revisar. Sem isso, SRE vira apenas mais monitoramento.
Dashboard, relatórios e KPIs: como transformar dados em insights acionáveis
Um dashboard de SRE falha quando ele é genérico. Um bom cockpit precisa de camadas: visão executiva, visão de operação e visão de diagnóstico. Cada camada responde perguntas diferentes, com menos gráficos e mais decisões.
Modelo de dashboard em 3 níveis:
- Nível 1 (Executivo): SLO atingido? Error budget saudável? Top 3 serviços em risco.
- Nível 2 (Operação): Golden Signals por serviço, com comparação semana a semana.
- Nível 3 (Diagnóstico): traces, logs correlacionados, dependências e mudanças recentes.
No Grafana você consegue estruturar pastas por domínio (checkout, catálogo, auth) e padronizar painéis. Em ambientes mais complexos, plataformas como Datadog ajudam na correlação de métricas, logs e traces.
KPIs que valem o esforço (e como reportar):
- SLO compliance por serviço (mensal e por release)
- MTTR (tempo médio de recuperação)
- MTTD (tempo médio de detecção)
- Taxa de rollback e tempo até rollback
- Toil (percentual do tempo em trabalho repetitivo)
Ritual de relatório que funciona:
- Semanal: 30 minutos, focado em serviços que consumiram mais error budget.
- Mensal: revisão de SLOs e ajuste de metas com produto.
- Pós-incidente: relatório curto com causa, impacto e ações preventivas.
A lógica é simples: relatórios existem para mudar comportamento. Se ninguém decide nada depois do relatório, o cockpit está exibindo instrumentos, mas ninguém está pilotando.
Runbooks, automação e resposta a incidentes: o workflow que reduz toil
SRE vira realidade quando incidentes deixam de ser improviso. O objetivo é reduzir toil e variabilidade, padronizando triagem, escalonamento e correção. Um bom sistema de on-call e runbooks faz a diferença, especialmente em picos de tráfego.
Workflow operacional de incidentes (padrão-ouro e simples):
- Detectar: alerta baseado em SLO (não em CPU isolada).
- Triar: classificar severidade e impacto em jornadas.
- Mitigar: rollback, feature flag, rate limit, escala.
- Comunicar: status page e updates em intervalos fixos.
- Aprender: postmortem sem culpados, com ações rastreáveis.
Ferramentas como PagerDuty ajudam a roteirizar escalonamentos, deduplicar alertas e registrar timeline. A automação de infraestrutura com Terraform reduz “correção manual” e acelera recuperação.
Exemplo de mudança de métrica (antes e depois):
- Antes: incidentes recorrentes com MTTR de 90 minutos, correção manual e pouca padronização.
- Depois: runbook com rollback automatizado e alerta por SLO, MTTR cai para 35 a 45 minutos.
Regra de decisão para runbooks:
- Se uma ação foi executada manualmente 2 vezes em incidentes similares, ela vira passo automatizado.
- Se a automação puder causar dano, inclua “guardrails” (aprovação, limite, simulação).
No cockpit, incidentes deixam de ser “pânico” e viram sequência conhecida. Você troca heroísmo por previsibilidade, e previsibilidade é o que sustenta crescimento.
Implementação de SRE em 90 dias: plano mínimo para sair do zero e medir evolução
Implementar SRE não exige reestruturar a empresa. Exige escolher poucos serviços críticos, definir SLOs e instalar um cockpit que permita tomada de decisão. Um plano de 90 dias reduz risco e cria prova interna.
Dias 0 a 30 (Fundação):
- Padronize instrumentação com OpenTelemetry.
- Escolha 3 serviços críticos e defina 1 SLI e 1 SLO por serviço.
- Crie um dashboard Nível 1 e Nível 2 no Grafana.
Dias 31 a 60 (Operação):
- Configure on-call, escalonamento e severidades.
- Reduza alertas até sobrar somente o que ameaça SLO.
- Comece postmortems consistentes e um backlog de ações preventivas.
Dias 61 a 90 (Otimização):
- Automatize os 3 runbooks mais usados.
- Ajuste SLOs com base em dados e capacidade real.
- Faça revisão mensal com produto e engenharia usando error budget.
Para benchmark externo e tendências, vale acompanhar o SRE Report 2025 da Catchpoint, que traz sinais úteis sobre prioridades, instrumentação e maturidade.
Critério de sucesso (prático e mensurável):
- Você consegue explicar, em 2 minutos, se a experiência do usuário está dentro do esperado.
- Você consegue provar redução de MTTR, redução de incidentes repetidos ou queda de toil.
- Seu time decide com base em SLO, não em opinião.
Quando o cockpit está certo, o pico de tráfego deixa de ser um evento de sobrevivência e vira teste controlado de engenharia.
Conclusão
SRE funciona quando vira rotina: metas claras (SLOs), métricas que representam experiência, e um cockpit com sinais acionáveis. O stack de softwares importa, mas ele só gera valor quando está alinhado a decisões, alertas bem classificados e workflows de incidentes repetíveis. Comece pequeno, com poucos serviços, e use error budget para equilibrar velocidade e estabilidade.
Se você quiser um próximo passo direto: escolha uma jornada crítica, defina um SLI de experiência e implemente um dashboard em três níveis. Em seguida, conecte alertas a SLOs e padronize o processo de incidentes. Em 90 dias, você terá dados suficientes para provar impacto, priorizar automação e transformar confiabilidade em vantagem competitiva.