Post

Documentando postmortems curtos e úteis em equipes públicas

Documentando postmortems curtos e úteis em equipes públicas

Documentando postmortems curtos e úteis em equipes públicas

Postmortems precisam ser rápidos de ler e fáceis de repetir. Em equipes públicas, clareza e rastreabilidade importam mais que textos longos.

Use este formato curto, entregue em até 24h após o incidente.

Template enxuto (copie e preencha)

1
2
3
4
5
6
7
8
9
10
11
Resumo: <1 frase sobre o que ocorreu>
Impacto: <quem foi afetado, duração, severidade>
Detecção: <como foi percebido; alerta ou reporte>
Causa raiz: <fato verificável, não suposição>
Lições: <o que faltou de sinal, teste, automação>
Ações: <itens com dono e prazo; rollback, fix, prevenção>
Comunicação: <quem foi informado e quando>
Timeline (UTC):
- HH:MM Evento
- HH:MM Mitigação
- HH:MM Restauração

Exemplos rápidos

Exemplo 1 — Falha em fila de jobs

  • Resumo: Jobs de faturamento ficaram presos após deploy do worker.
  • Impacto: 3 tribunais com atraso de 40 min; severidade média.
  • Detecção: Alerta de queue_latency > 30s no Prometheus.
  • Causa raiz: Config max_retries zerada ao usar nova imagem.
  • Lições: Checklist de valores default antes do deploy.
  • Ações: Restaurar config anterior; teste de smoke em staging; alerta de variação de retries.
  • Comunicação: Clientes afetados avisados às 14h05; retorno às 14h50.
  • Timeline:
    • 13:20 Deploy do worker billing.
    • 13:35 Alerta de fila alta.
    • 13:40 Rollback aplicado.
    • 14:00 Filas normalizadas.

Exemplo 2 — 502 intermitente em API

  • Resumo: Pico de 502 em /api/files por 12 min.
  • Impacto: Uploads falharam para 8% dos usuários; severidade alta.
  • Detecção: SLO de erro > 1% disparou alerta.
  • Causa raiz: Novo proxy sem cabeçalho de tamanho de payload; requests >5MB derrubavam upstream.
  • Lições: Teste de carga com arquivos grandes antes de mudar NGINX.
  • Ações: Ajustar client_max_body_size; adicionar teste de contrato; publicar RCA interna.
  • Comunicação: Stakeholders notificados às 16h18; follow-up com mitigação às 16h35.
  • Timeline:
    • 16:05 Config do proxy aplicada.
    • 16:08 Alertas de 502.
    • 16:15 Rollback da config.
    • 16:17 Erros estabilizados.

Boas práticas de entrega

  • Limite o documento a uma página; links extras vão para anexos.
  • Use fatos e números; evite culpabilizar pessoas.
  • Entregue com owners e datas; sem ação, o postmortem não serve.
Esta postagem está licenciada sob CC BY 4.0 pelo autor.