Post

Comunicação técnica em incidentes: mensagens claras para stakeholders

Comunicação técnica em incidentes: mensagens claras para stakeholders

Comunicação técnica em incidentes: mensagens claras para stakeholders

Durante incidentes, mensagens curtas e objetivas reduzem ruído e protegem a confiança. Use scripts prontos para cada momento.

Princípios

  • Fale do impacto, não do stack trace.
  • Diga o que mudou desde o último update.
  • Dê próximo horário de atualização, mesmo sem novidade.

Script de anúncio inicial (≤ 5 linhas)

1
2
3
4
5
Título: Instabilidade no serviço <nome>
Impacto: <quem e o que está afetado; se há perda de dados>
Status: Investigando; mitigação em andamento/não iniciada
ETA próximo update: <hora em UTC/local>
Contato: <canal e responsável>

Exemplo:

1
2
3
4
5
Título: Instabilidade no serviço de uploads
Impacto: Erro intermitente para 10% dos usuários ao enviar arquivos >5MB.
Status: Investigando; rollback de proxy em progresso.
ETA próximo update: 16h20 BRT.
Contato: @time-sre

Script de mitigação aplicada

1
2
3
4
5
Título: Mitigação aplicada para <serviço>
Impacto atual: <melhorou?/resta impacto?>
O que foi feito: <rollback/hotfix/feature flag>
Risco: <baixo/médio/alto> (ex.: pode haver lentidão)
Próximo update: <hora>

Script de resolução

1
2
3
4
Título: Serviço normalizado
Impacto: Resolvido às <hora>; período afetado <inicio-fim>
Causa: <fato verificável>
Ações: <follow-up, postmortem, prevenções>

Dicas rápidas

  • Tenha um canal público de status e um privado para coordenação técnica.
  • Evite jargão; traduza causas para impacto (“proxy recusou uploads >5MB”).
  • Registre horários em UTC e local se clientes forem multi-fuso.
  • Não espere ter a causa raiz para comunicar; use o script de anúncio.
Esta postagem está licenciada sob CC BY 4.0 pelo autor.