Debug e producao / Falhas em producao
Falhas em producao
Falhas em Producao Sem Chute
Como investigar problema real em ambiente de producao sem sair trocando coisa no escuro.
O problema
Falha em producao costuma criar pressa, e pressa ruim vira chute.
O time reinicia pod, muda timeout, sobe log extra, faz rollback ou mexe em query antes mesmo de entender o que esta quebrando.
As vezes isso ate mascara o sintoma, mas nao resolve a causa.
Modelo mental
Em producao, o trabalho principal nao e reagir primeiro.
E reduzir incerteza primeiro.
A pergunta mais util costuma ser:
O que eu sei, o que eu so suspeito e o que preciso confirmar agora?
Quando voce separa isso, a investigacao melhora muito.
Quebrando o problema
Uma forma simples de investigar bem e esta:
- descreva o sintoma com precisao
- descubra quando comecou e o que mudou por perto
- limite o escopo: quem esta sendo afetado e quem nao esta
- confira os sinais mais fortes antes de mudar o sistema
Isso evita que a resposta vire loteria operacional.
Exemplo simples
Imagine um aumento repentino de erro 500 numa rota de checkout.
Uma resposta fraca seria:
Reinicia tudo e aumenta timeout para garantir.
Uma resposta melhor seria:
- ver se o erro começou depois de deploy ou mudanca de dependencia
- checar se afeta todos os clientes ou um fluxo especifico
- confirmar se o erro vem de banco, API externa ou validacao interna
- mitigar o impacto sem perder a trilha da causa
Agora voce esta investigando com criterio, nao so reagindo.
Erros comuns
- mudar varias coisas ao mesmo tempo
- confundir sintoma com causa
- olhar log demais sem formular uma hipotese minima
- considerar “voltou a funcionar” como prova de que entendeu o problema
Como um senior pensa
Um senior forte cria ordem no meio da pressa.
Normalmente isso soa assim:
Antes de mexer em tudo, eu quero confirmar o sintoma, o alcance e a mudanca mais proxima no tempo. A partir dai eu mitigo e investigo com menos ruído.
Essa postura costuma salvar muito tempo e muita regressao.
O que o entrevistador quer ver
Em entrevista, isso costuma mostrar maturidade rapido:
- voce investiga sem loteria
- voce sabe separar evidência de suspeita
- voce pensa em mitigacao e causa raiz sem embaralhar as duas
Quem faz isso bem parece alguem confiavel para ambiente real, nao so para coding interview.
Produção nao pede adivinhacao. Pede clareza sob pressa.
Se voce mudou cinco coisas e o erro sumiu, talvez tenha resolvido o sintoma sem entender a causa.