Documentando postmortems curtos e úteis em equipes públicas
Documentando postmortems curtos e úteis em equipes públicas
Documentando postmortems curtos e úteis em equipes públicas
Postmortems precisam ser rápidos de ler e fáceis de repetir. Em equipes públicas, clareza e rastreabilidade importam mais que textos longos.
Use este formato curto, entregue em até 24h após o incidente.
Template enxuto (copie e preencha)
1
2
3
4
5
6
7
8
9
10
11
Resumo: <1 frase sobre o que ocorreu>
Impacto: <quem foi afetado, duração, severidade>
Detecção: <como foi percebido; alerta ou reporte>
Causa raiz: <fato verificável, não suposição>
Lições: <o que faltou de sinal, teste, automação>
Ações: <itens com dono e prazo; rollback, fix, prevenção>
Comunicação: <quem foi informado e quando>
Timeline (UTC):
- HH:MM Evento
- HH:MM Mitigação
- HH:MM Restauração
Exemplos rápidos
Exemplo 1 — Falha em fila de jobs
- Resumo: Jobs de faturamento ficaram presos após deploy do worker.
- Impacto: 3 tribunais com atraso de 40 min; severidade média.
- Detecção: Alerta de
queue_latency> 30s no Prometheus. - Causa raiz: Config
max_retrieszerada ao usar nova imagem. - Lições: Checklist de valores default antes do deploy.
- Ações: Restaurar config anterior; teste de smoke em staging; alerta de variação de retries.
- Comunicação: Clientes afetados avisados às 14h05; retorno às 14h50.
- Timeline:
- 13:20 Deploy do worker
billing. - 13:35 Alerta de fila alta.
- 13:40 Rollback aplicado.
- 14:00 Filas normalizadas.
- 13:20 Deploy do worker
Exemplo 2 — 502 intermitente em API
- Resumo: Pico de 502 em
/api/filespor 12 min. - Impacto: Uploads falharam para 8% dos usuários; severidade alta.
- Detecção: SLO de erro > 1% disparou alerta.
- Causa raiz: Novo proxy sem cabeçalho de tamanho de payload; requests >5MB derrubavam upstream.
- Lições: Teste de carga com arquivos grandes antes de mudar NGINX.
- Ações: Ajustar
client_max_body_size; adicionar teste de contrato; publicar RCA interna. - Comunicação: Stakeholders notificados às 16h18; follow-up com mitigação às 16h35.
- Timeline:
- 16:05 Config do proxy aplicada.
- 16:08 Alertas de 502.
- 16:15 Rollback da config.
- 16:17 Erros estabilizados.
Boas práticas de entrega
- Limite o documento a uma página; links extras vão para anexos.
- Use fatos e números; evite culpabilizar pessoas.
- Entregue com owners e datas; sem ação, o postmortem não serve.
Esta postagem está licenciada sob
CC BY 4.0
pelo autor.