Pular para o conteudo principal

Como escrever post-mortem que o time respeita

Como transformar um incidente em aprendizado acionável sem virar caça às bruxas, burocracia vazia ou texto corporativo sem utilidade.

Andrews Ribeiro

Andrews Ribeiro

Founder & Engineer

O problema

Tem time que faz post-mortem só porque acha que time sério faz.

Então o documento já nasce sem força.

Ou ele vira:

  • resumo burocrático do incidente
  • narrativa para proteger reputação
  • caça ao culpado com vocabulário educado
  • lista de ações vagas que ninguém revisita

Nada disso ajuda de verdade.

Depois de alguns ciclos assim, o time para de respeitar o ritual.

Começa a enxergar post-mortem como:

  • papelada
  • teatro de maturidade
  • reunião chata depois do incêndio

O problema não é o formato.

O problema é quando ninguém consegue responder, depois de ler:

  • o que realmente aprendemos
  • o que mudou por causa disso
  • e por que isso reduz risco da próxima vez

Modelo mental

Pense assim:

post-mortem bom não é o documento do passado. É a ferramenta que transforma um incidente em mudança útil no sistema.

Essa definição organiza bastante.

Porque ela tira o post-mortem do campo do relato e leva para o campo do aprendizado.

Você não está escrevendo só para registrar o estrago.

Está escrevendo para:

  • entender como o incidente aconteceu
  • tornar decisões visíveis
  • identificar fragilidades sistêmicas
  • propor mudanças que realmente diminuam risco

Quebrando o problema

Linha do tempo sem interpretação ainda é pouco

Muita gente acha que post-mortem é só reconstruir:

  • quando começou
  • quem viu
  • quem respondeu
  • quando estabilizou

Isso importa, mas não basta.

Linha do tempo boa responde “o que aconteceu”.

Post-mortem bom também responde:

  • por que a situação evoluiu daquele jeito
  • onde havia fragilidade antes do incidente
  • por que certas decisões foram tomadas sob pressão

Sem essa camada, você só reconta a história.

Culpa individual quase sempre é atalho mental

Esse ponto é importante.

Às vezes uma pessoa apertou o botão errado, aprovou sem ver ou deixou passar um detalhe.

Mas a pergunta útil não termina aí.

Também precisa existir:

  • por que era fácil errar desse jeito
  • que proteção faltava
  • que sinal estava ausente
  • que processo confiava demais em memória ou atenção humana

Isso não absolve tudo automaticamente.

Só evita a análise preguiçosa de achar que o sistema estava bom e a única falha foi “a pessoa”.

Ação genérica destrói credibilidade

Todo mundo já viu esse tipo de ação:

  • melhorar monitoramento
  • adicionar mais testes
  • revisar processo
  • alinhar melhor com o time

Nada disso é falso.

Mas, sozinho, quase sempre é fraco.

Ação boa precisa ser mais concreta:

  • qual sinal faltou
  • em qual fluxo
  • que proteção entra
  • qual fragilidade específica ela reduz

Sem isso, o post-mortem parece reação simbólica.

Decisões durante o incidente também merecem análise

Outro erro comum é tratar a resposta ao incidente como algo fora do escopo.

Mas post-mortem maduro olha também para:

  • como o time percebeu o problema
  • como decidiu mitigar
  • o que atrasou entendimento
  • que comunicação ajudou ou atrapalhou

Às vezes a causa técnica foi uma.

E a amplificação do dano veio de:

  • detecção lenta
  • rollback hesitante
  • falta de ownership claro
  • leitura confusa dos sinais

Isso precisa entrar.

Post-mortem bom escreve para o time real, não para auditoria imaginária

Quando o texto fica performático demais, ele perde valor rápido.

Sinais disso:

  • linguagem inflada
  • eufemismo demais
  • excesso de neutralidade artificial
  • nenhuma frase que nomeie o problema com clareza

O time respeita texto que parece verdadeiro.

Texto que fala claramente:

  • o que doeu
  • o que falhou
  • o que faltava
  • o que mudou

sem dramatizar e sem enfeitar.

Dono e verificação importam mais do que volume de ações

Uma lista enorme de follow-ups pode parecer completa.

Na prática, muitas vezes ela só dilui prioridade.

Melhor costuma ser:

  • poucas ações
  • ações relevantes
  • dono claro
  • prazo ou critério de revisão
  • conexão explícita com a falha observada

Isso aumenta chance real de execução.

O post-mortem precisa fechar o ciclo

Esse é o teste final.

Se algumas semanas depois ninguém sabe dizer:

  • o que mudou
  • se a ação foi feita
  • se a fragilidade foi reduzida

então o ciclo ficou aberto.

Post-mortem não termina quando o documento foi escrito.

Termina quando o aprendizado virou mudança verificável.

Exemplo simples

Imagine um incidente em que o checkout ficou instável após uma mudança de configuração.

Resposta fraca de post-mortem:

“Houve erro de configuração em produção. O time atuou rapidamente e o serviço foi restaurado. Como ação, vamos reforçar atenção nas mudanças futuras.”

Isso é quase inútil.

Resposta melhor:

“A configuração incorreta foi o gatilho imediato, mas o incidente só ganhou impacto porque não havia validação automática antes da aplicação, o alerta disparou tarde e o rollback dependia de conhecimento concentrado em poucas pessoas. As ações decididas foram adicionar validação pré-deploy para esse tipo de parâmetro, criar alerta específico para o sinal que faltou e documentar um procedimento de reversão que qualquer pessoa de plantão consiga executar.”

Essa versão funciona melhor porque mostra:

  • gatilho imediato
  • fragilidade sistêmica
  • aprendizado operacional
  • ações conectadas ao problema real

Erros comuns

  • Escrever como se o objetivo fosse se defender.
  • Parar no erro humano sem analisar o sistema em volta.
  • Produzir ações genéricas demais.
  • Fazer linha do tempo longa e aprendizado curto.
  • Não acompanhar se as ações realmente reduziram risco.

Como um senior pensa

Quem amadureceu em incidentes costuma pensar assim:

“Se o post-mortem só explicar o que aconteceu, mas não mudar o sistema, então ele ainda está incompleto.”

Essa lente ajuda bastante.

Porque obriga o time a sair do conforto do relato.

Senioridade aqui não é escrever documento bonito.

É identificar mudança pequena ou grande que realmente aumente a confiabilidade.

O que o entrevistador quer ver

Quando esse tema aparece em entrevista, o avaliador geralmente está tentando entender se você:

  • enxerga incidente como problema de sistema, não só de pessoa
  • consegue extrair aprendizado acionável
  • sabe escrever ou conduzir análise sem teatro de culpa
  • entende diferença entre ação simbólica e melhoria real
  • fecha o ciclo entre falha, aprendizado e mudança

Resposta forte costuma mostrar:

  1. como você estruturaria o post-mortem
  2. o que faria questão de capturar
  3. como transformaria isso em ações concretas
  4. como evitaria tanto blame quanto vagueza

Se isso aparece, sua resposta já fica bem acima do padrão “eu documentaria e alinharia com o time”.

Post-mortem respeitado não é o mais longo. É o que muda alguma coisa que realmente importava.

Se ninguém sai sabendo o que o sistema aprendeu, o documento virou só lembrança organizada do problema.

Resumo rápido

O que vale manter na cabeça

Checklist de pratica

Use isto ao responder

Você concluiu este artigo

Próximo artigo Como diferenciar sintoma de causa raiz Artigo anterior On-call sustentável

Continue explorando

Artigos relacionados