1 de Maio de 2025

Como investigar incidente em produção ao vivo na entrevista

Como organizar investigação, contenção e comunicação sob pressão com um processo claro.

Andrews Ribeiro

Founder & Engineer

5 min Intermediario Sistemas

#debug-e-producao#debugging#production#incidents#observability#entrevistas

Trilha

Trilha para entrevistas de senior full stack

Etapa 7 / 14

Voltar para a trilha Artigo anterior Próximo artigo

O problema

Incidente em produção ao vivo costuma vir com um combo ruim:

urgência
pressão
contexto incompleto
gente querendo agir rápido demais

Na entrevista, isso aparece em perguntas como:

“Você está de plantão e o checkout começou a dar 500. O que faz?”

Ou:

“Uma funcionalidade crítica começou a falhar em produção. Como você investigaria?”

Muita resposta erra para um de dois lados:

ação impulsiva demais
processo genérico demais

No primeiro, a pessoa sai distribuindo rollback, restart, timeout e log sem saber exatamente o que está tentando provar.

No segundo, ela fala algo vago como:

“Eu investigaria o contexto, alinharia com o time e tentaria entender a causa.”

As duas respostas soam fracas.

Uma porque parece loteria.

A outra porque não cria ordem nenhuma.

Modelo mental

Pense assim:

em incidente ao vivo, seu primeiro trabalho não é parecer rápido. É reduzir dano e incerteza na ordem certa.

Essa frase ajuda bastante.

Porque ela evita dois erros clássicos:

investigar sem conter o que está sangrando
conter sem preservar clareza mínima sobre o que está acontecendo

A pergunta útil normalmente é:

“O que sabemos com certeza, qual é o impacto, o que mudou perto do início do problema e qual ação reduz risco sem bagunçar ainda mais o diagnóstico?”

Quebrando o problema

Primeiro contenção e investigação não são a mesma coisa

Esse ponto precisa ficar claro.

Tem hora em que o primeiro passo é mitigar:

rollback
desligar feature flag
tirar fluxo do ar
reduzir blast radius

Tem hora em que o primeiro passo é medir melhor antes de agir.

O critério é:

existe dano ativo relevante?
a mitigação é segura e reversível?
esperar mais aumenta custo real?

Se a resposta for sim, conter ganha prioridade.

Mas conter bem não é sair apagando rastro. Mitigação boa reduz dano sem destruir completamente a chance de entender o que aconteceu.

Defina o sintoma antes de sair caçando causa

Muita investigação ruim começa tentando explicar algo que ainda nem foi delimitado.

Antes de teorizar, vale fixar:

qual erro está aparecendo
desde quando
em qual fluxo
para quem
com qual severidade

Isso já limpa bastante o cenário.

Sem esse passo, sintoma e causa começam a se misturar cedo demais.

Última mudança relevante continua sendo pista forte

Em incidente real, uma das primeiras perguntas úteis quase sempre é:

o que mudou perto do início do problema?

Mudança pode ser:

deploy
config
feature flag
dependência externa
volume ou padrão de tráfego

Não porque mudança recente prova culpa.

Mas porque reduz espaço de busca.

Consulte sinais mais confiáveis antes de mudar muita coisa

Essa é a hora de usar:

métricas
logs
traces
erros por fluxo
correlação com deploy ou componente

Não precisa citar nome de ferramenta para soar forte.

O importante é mostrar a lógica:

confirmar impacto
delimitar escopo
comparar com o estado normal
identificar o ponto de maior suspeita

Se você já entra mudando infra, config e código sem passar por esses sinais, a resposta deixa de parecer investigação e começa a parecer ansiedade técnica.

Mudar várias coisas ao mesmo tempo destrói o experimento

Esse erro aparece muito em resposta fraca.

A pessoa fala algo como:

“reinicio os pods”
“aumento timeout”
“coloco mais log”
“faço rollback”

tudo na mesma fala.

Isso passa insegurança.

Porque, se o sistema melhorar, ninguém sabe qual ação ajudou.

E, se piorar, a investigação ficou ainda mais suja.

Resposta forte mostra sequência, não só ações

Um formato muito melhor é:

o que eu confirmaria primeiro
o que eu mitigaria se o impacto estivesse alto
o que eu investigaria em seguida
como eu comunicaria status e próxima decisão

Isso mostra raciocínio operacional de verdade.

Entrevista não está testando vendor, está testando ordem mental

Vale reforçar isso.

Você não ganha pontos porque citou:

Datadog
Grafana
Kibana
New Relic

Você ganha pontos quando mostra:

como escolhe sinal confiável
como decide entre conter e investigar
como evita ruído
como conduz a próxima decisão

Exemplo simples

Imagine este cenário:

“Após um deploy, o checkout começou a retornar 500 para parte dos usuários. O que você faz primeiro?”

Resposta fraca:

“Eu abriria os logs, revisaria o código, reiniciaria os pods e, se necessário, faria rollback.”

Tem ação demais e ordem de menos.

Resposta melhor:

“Primeiro eu confirmaria o impacto real: se o erro afeta todo checkout ou só um método, desde quando começou e se a curva bate com o deploy. Se o impacto estiver alto e a correlação com o deploy for forte, eu avaliaria rollback ou desligamento da mudança para conter dano rápido. Em paralelo, olharia sinais que ajudem a isolar a falha: erro por endpoint, dependência externa envolvida, aumento de latência e diferença entre fluxos afetados e não afetados. Evitaria mudar várias coisas ao mesmo tempo porque isso atrapalha o diagnóstico. A ideia é reduzir dano primeiro, mas mantendo clareza sobre o que provavelmente causou o incidente.”

Essa resposta mostra:

contenção com critério
investigação com ordem
cuidado com evidência
comunicação implícita de próximos passos

Erros comuns

Mudar várias coisas ao mesmo tempo e destruir o diagnóstico.
Confundir rollback com explicação da causa.
Pular para código sem delimitar impacto e escopo.
Falar ferramenta demais e raciocínio de menos.
Não diferenciar mitigação temporária de correção real.

Como um senior pensa

Quem amadureceu operacionalmente costuma pensar assim:

“Se a sala estiver acelerada demais, meu trabalho é devolver ordem. Se estiver lenta demais, meu trabalho é puxar a primeira ação segura.”

Essa é uma ótima lente.

Porque mostra duas coisas ao mesmo tempo:

controle emocional
priorização técnica

Incidente ao vivo raramente pede genialidade.

Pede clareza sob pressão.

O que o entrevistador quer ver

Quando essa pergunta aparece, o avaliador geralmente quer enxergar se você:

sabe conter sem virar destruidor de evidência
investiga com método em vez de loteria
diferencia sintoma, hipótese e causa provável
consulta sinais antes de apostar em narrativa
comunica ordem de ação mesmo com contexto incompleto

Resposta forte normalmente deixa claro:

como você delimita o problema
quando mitigaria
quais sinais checaria primeiro
como evitaria bagunçar a investigação

Se isso aparecer, a resposta já está acima da média.

Em incidente ao vivo, velocidade sem ordem vira ruído caro muito rápido.

O que entrevista boa procura não é reflexo rápido. É clareza operacional quando o contexto ainda está incompleto.

Resumo rápido

O que vale manter na cabeça

Incidente ao vivo pede ordem: conter dano, delimitar escopo e reduzir incerteza antes de sair mudando tudo.
Resposta forte em entrevista mostra sequência de investigação, não coleção de ferramentas soltas.
Separar fato, hipótese e mitigação evita que a sala vire loteria operacional.
O entrevistador quer ver julgamento sob pressão, não reflexo impulsivo.

Checklist de pratica

Use isto ao responder

Consigo explicar a ordem entre conter, investigar e corrigir sem confundir as etapas?
Sei dizer quais sinais eu consultaria primeiro e por quê?
Consigo diferenciar sintoma, hipótese e causa provável em um cenário de incidente?
Sei responder sem virar refém de nome de ferramenta ou comando específico?

Você concluiu este artigo

Parte da trilha: Trilha para entrevistas de senior full stack (7/14)

Próximo passo

Como estruturar uma resposta de system design Próximo passo →