4 de Abril de 2025

Como escrever post-mortem que o time respeita

Como transformar um incidente em aprendizado acionável sem virar caça às bruxas, burocracia vazia ou texto corporativo sem utilidade.

Andrews Ribeiro

Founder & Engineer

5 min Intermediario Sistemas

#debug-e-producao#debugging#production#incidents#postmortem#reliability

O problema

Tem time que faz post-mortem só porque acha que time sério faz.

Então o documento já nasce sem força.

Ou ele vira:

resumo burocrático do incidente
narrativa para proteger reputação
caça ao culpado com vocabulário educado
lista de ações vagas que ninguém revisita

Nada disso ajuda de verdade.

Depois de alguns ciclos assim, o time para de respeitar o ritual.

Começa a enxergar post-mortem como:

papelada
teatro de maturidade
reunião chata depois do incêndio

O problema não é o formato.

O problema é quando ninguém consegue responder, depois de ler:

o que realmente aprendemos
o que mudou por causa disso
e por que isso reduz risco da próxima vez

Modelo mental

Pense assim:

post-mortem bom não é o documento do passado. É a ferramenta que transforma um incidente em mudança útil no sistema.

Essa definição organiza bastante.

Porque ela tira o post-mortem do campo do relato e leva para o campo do aprendizado.

Você não está escrevendo só para registrar o estrago.

Está escrevendo para:

entender como o incidente aconteceu
tornar decisões visíveis
identificar fragilidades sistêmicas
propor mudanças que realmente diminuam risco

Quebrando o problema

Linha do tempo sem interpretação ainda é pouco

Muita gente acha que post-mortem é só reconstruir:

quando começou
quem viu
quem respondeu
quando estabilizou

Isso importa, mas não basta.

Linha do tempo boa responde “o que aconteceu”.

Post-mortem bom também responde:

por que a situação evoluiu daquele jeito
onde havia fragilidade antes do incidente
por que certas decisões foram tomadas sob pressão

Sem essa camada, você só reconta a história.

Culpa individual quase sempre é atalho mental

Esse ponto é importante.

Às vezes uma pessoa apertou o botão errado, aprovou sem ver ou deixou passar um detalhe.

Mas a pergunta útil não termina aí.

Também precisa existir:

por que era fácil errar desse jeito
que proteção faltava
que sinal estava ausente
que processo confiava demais em memória ou atenção humana

Isso não absolve tudo automaticamente.

Só evita a análise preguiçosa de achar que o sistema estava bom e a única falha foi “a pessoa”.

Ação genérica destrói credibilidade

Todo mundo já viu esse tipo de ação:

melhorar monitoramento
adicionar mais testes
revisar processo
alinhar melhor com o time

Nada disso é falso.

Mas, sozinho, quase sempre é fraco.

Ação boa precisa ser mais concreta:

qual sinal faltou
em qual fluxo
que proteção entra
qual fragilidade específica ela reduz

Sem isso, o post-mortem parece reação simbólica.

Decisões durante o incidente também merecem análise

Outro erro comum é tratar a resposta ao incidente como algo fora do escopo.

Mas post-mortem maduro olha também para:

como o time percebeu o problema
como decidiu mitigar
o que atrasou entendimento
que comunicação ajudou ou atrapalhou

Às vezes a causa técnica foi uma.

E a amplificação do dano veio de:

detecção lenta
rollback hesitante
falta de ownership claro
leitura confusa dos sinais

Isso precisa entrar.

Post-mortem bom escreve para o time real, não para auditoria imaginária

Quando o texto fica performático demais, ele perde valor rápido.

Sinais disso:

linguagem inflada
eufemismo demais
excesso de neutralidade artificial
nenhuma frase que nomeie o problema com clareza

O time respeita texto que parece verdadeiro.

Texto que fala claramente:

o que doeu
o que falhou
o que faltava
o que mudou

sem dramatizar e sem enfeitar.

Dono e verificação importam mais do que volume de ações

Uma lista enorme de follow-ups pode parecer completa.

Na prática, muitas vezes ela só dilui prioridade.

Melhor costuma ser:

poucas ações
ações relevantes
dono claro
prazo ou critério de revisão
conexão explícita com a falha observada

Isso aumenta chance real de execução.

O post-mortem precisa fechar o ciclo

Esse é o teste final.

Se algumas semanas depois ninguém sabe dizer:

o que mudou
se a ação foi feita
se a fragilidade foi reduzida

então o ciclo ficou aberto.

Post-mortem não termina quando o documento foi escrito.

Termina quando o aprendizado virou mudança verificável.

Exemplo simples

Imagine um incidente em que o checkout ficou instável após uma mudança de configuração.

Resposta fraca de post-mortem:

“Houve erro de configuração em produção. O time atuou rapidamente e o serviço foi restaurado. Como ação, vamos reforçar atenção nas mudanças futuras.”

Isso é quase inútil.

Resposta melhor:

“A configuração incorreta foi o gatilho imediato, mas o incidente só ganhou impacto porque não havia validação automática antes da aplicação, o alerta disparou tarde e o rollback dependia de conhecimento concentrado em poucas pessoas. As ações decididas foram adicionar validação pré-deploy para esse tipo de parâmetro, criar alerta específico para o sinal que faltou e documentar um procedimento de reversão que qualquer pessoa de plantão consiga executar.”

Essa versão funciona melhor porque mostra:

gatilho imediato
fragilidade sistêmica
aprendizado operacional
ações conectadas ao problema real

Erros comuns

Escrever como se o objetivo fosse se defender.
Parar no erro humano sem analisar o sistema em volta.
Produzir ações genéricas demais.
Fazer linha do tempo longa e aprendizado curto.
Não acompanhar se as ações realmente reduziram risco.

Como um senior pensa

Quem amadureceu em incidentes costuma pensar assim:

“Se o post-mortem só explicar o que aconteceu, mas não mudar o sistema, então ele ainda está incompleto.”

Essa lente ajuda bastante.

Porque obriga o time a sair do conforto do relato.

Senioridade aqui não é escrever documento bonito.

É identificar mudança pequena ou grande que realmente aumente a confiabilidade.

O que o entrevistador quer ver

Quando esse tema aparece em entrevista, o avaliador geralmente está tentando entender se você:

enxerga incidente como problema de sistema, não só de pessoa
consegue extrair aprendizado acionável
sabe escrever ou conduzir análise sem teatro de culpa
entende diferença entre ação simbólica e melhoria real
fecha o ciclo entre falha, aprendizado e mudança

Resposta forte costuma mostrar:

como você estruturaria o post-mortem
o que faria questão de capturar
como transformaria isso em ações concretas
como evitaria tanto blame quanto vagueza

Se isso aparece, sua resposta já fica bem acima do padrão “eu documentaria e alinharia com o time”.

Post-mortem respeitado não é o mais longo. É o que muda alguma coisa que realmente importava.

Se ninguém sai sabendo o que o sistema aprendeu, o documento virou só lembrança organizada do problema.

Resumo rápido

O que vale manter na cabeça

Post-mortem bom não procura culpado; procura como o sistema permitiu que o erro virasse incidente.
Relato útil conecta linha do tempo, impacto, decisões, lacunas e ações verificáveis.
Ação forte de post-mortem corrige fragilidade real, não só adiciona tarefa genérica para parecer reação.
Em entrevista, maturidade aparece quando você transforma falha em aprendizado operacional concreto.

Checklist de pratica

Use isto ao responder

Consigo explicar a diferença entre descrever o incidente e aprender com ele?
Sei escrever ações específicas, com dono e motivo, em vez de lista genérica?
Consigo separar erro humano imediato de fragilidade sistêmica que permitiu o incidente?
Sei responder sobre post-mortem sem cair em culpa pessoal nem em texto corporativo vazio?

Você concluiu este artigo

Próximo passo

Como investigar incidente em produção ao vivo na entrevista Próximo passo →