16 de Abril de 2025
On-call sustentável
Como pensar plantão de forma sustentável, com sinais, processo e aprendizado, em vez de heroísmo reativo.
Andrews Ribeiro
Founder & Engineer
5 min Intermediario Sistemas
O problema
Tem lugar em que on-call significa uma coisa simples:
- alguém está responsável por responder incidentes quando eles aparecem
E tem lugar em que on-call significa isto:
- pager tocando por ruído
- alerta sem contexto
- madrugada perdida com incidente recorrente
- dependência de pessoas específicas
- sensação de que o sistema sempre está quase quebrando
Quando isso acontece, o time começa a tratar on-call como se fosse o problema.
Mas muitas vezes o problema real é outro:
- alerta ruim
- sistema frágil
- runbook inexistente
- ownership confuso
- falta de correção estrutural depois do incidente
Ou seja:
o plantão vira bombeiro porque o resto da operação já está pegando fogo o tempo todo.
Modelo mental
Pense assim:
on-call saudável não é sobre aguentar mais incidente. É sobre responder bem hoje e reduzir a chance de responder a mesma coisa amanhã.
Essa definição ajuda muito.
Porque ela tira o tema do campo da resistência pessoal e leva para o campo de confiabilidade.
On-call bom não depende de uma pessoa heroica.
Depende de sistema, processo e aprendizado que tornem a resposta:
- mais clara
- mais rápida
- menos caótica
- menos recorrente
Quebrando o problema
Plantão ruim quase sempre é sintoma de operação ruim
Esse é o primeiro ponto importante.
Se o on-call está sofrendo demais, vale olhar para perguntas como:
- os alertas representam problemas reais?
- existe contexto suficiente para responder?
- os mesmos incidentes voltam sem correção?
- todo mundo sabe mitigar ou depende de memória tribal?
Quando a resposta é ruim para essas perguntas, o plantão vira sobrecarga previsível.
Não é azar.
É desenho ruim da operação.
Alerta bom protege atenção humana
Muita dor de plantão nasce aqui.
Se tudo alerta:
- nada prioriza
- a pessoa para de confiar
- o ruído come energia
Alerta bom normalmente responde:
- esse problema precisa de ação humana agora?
- qual impacto ele sugere?
- com que contexto mínimo a pessoa começa a investigar?
Se o alerta só diz “algo parece errado”, ele empurra a investigação inteira para quem está de plantão.
Runbook não é burocracia; é redução de pânico
Runbook ruim ou ausente faz cada incidente parecer inédito.
Isso custa caro.
Principalmente de madrugada ou em situação de pressão.
Runbook útil não precisa ser gigante.
Mas deveria ajudar com coisas como:
- onde olhar primeiro
- como mitigar com segurança
- o que já foi tentado antes
- quando escalar
- quando rollback faz sentido
Ele não substitui julgamento.
Mas reduz tempo gasto reinventando o começo da resposta.
On-call bom fecha o ciclo com post-mortem e correção
Se o time responde incidente e segue a vida sem corrigir a fragilidade, o pager vai voltar.
Esse é o coração do problema.
Plantão sustentável depende de:
- reduzir recorrência
- melhorar detecção
- documentar melhor resposta
- simplificar operação frágil
Sem isso, on-call vira fila de repetição.
Heroísmo costuma esconder deficiência sistêmica
Toda equipe conhece alguém que:
- sabe os atalhos
- encontra o problema rápido
- salva a noite
Isso impressiona no curto prazo.
Mas também pode esconder dependência perigosa.
Se o sistema só é operável com essa pessoa, o time não está seguro.
Resposta madura em entrevista reconhece isso.
Não romantiza o herói.
Pergunta como o time reduz a necessidade dele.
On-call também é sobre carga humana
Esse ponto não é “soft”. É operacional.
Plantão cronicamente ruim gera:
- cansaço
- perda de contexto
- resposta pior sob pressão
- rotatividade
- mais erro humano
Então falar de on-call saudável também envolve:
- rotação viável
- escalonamento claro
- volume sustentável
- melhoria contínua para reduzir carga
Isso não é detalhe secundário.
É engenharia operacional decente.
Em entrevista, resposta boa combina reação e prevenção
Muita gente responde on-call focando só em:
- reagir rápido
- investigar bem
- escalar quando necessário
Tudo isso importa.
Mas resposta forte dá o passo seguinte:
- como evitar repetir
- como melhorar alerta
- como reduzir dependência humana
- como tornar a operação mais sustentável
É isso que diferencia bombeiro de engenharia de confiabilidade.
Exemplo simples
Imagine um serviço que dispara alerta de latência toda madrugada, mas quase nunca existe impacto real para usuário.
Resposta fraca:
“No on-call eu acompanharia melhor e tentaria responder rápido quando tocar.”
Isso ainda aceita o sistema ruim como dado.
Resposta melhor:
“Se o alerta toca com frequência sem exigir ação real, eu trataria isso como problema de confiabilidade do próprio processo de plantão. No curto prazo eu responderia e confirmaria impacto. No médio prazo eu revisaria a condição do alerta, o contexto enviado e o limiar usado, porque on-call não pode depender de acordar gente para ruído recorrente. Se o time continua recebendo página inútil, a operação está desperdiçando atenção humana e piorando resposta para o incidente que realmente importar.”
Essa resposta funciona porque mostra:
- resposta imediata
- melhoria estrutural
- respeito pelo custo operacional
- visão de sustentabilidade
Erros comuns
- Tratar on-call como teste de heroísmo.
- Aceitar alerta ruim como parte natural da vida.
- Focar só em reação e nunca em redução de recorrência.
- Depender de poucas pessoas para responder incidentes difíceis.
- Ignorar o custo humano como se isso não afetasse qualidade operacional.
Como um senior pensa
Quem amadureceu em operação costuma pensar assim:
“Cada página é uma interrupção cara. Se ela não corresponde a um problema real ou se volta sempre pelo mesmo motivo, o sistema de on-call está falhando.”
Essa lente é muito forte.
Porque faz você respeitar atenção humana como recurso finito.
Senioridade aqui não é parecer calmo no caos.
É construir um ambiente em que o caos apareça menos e seja mais governável quando aparecer.
O que o entrevistador quer ver
Quando esse tema aparece, o avaliador normalmente quer entender se você:
- enxerga on-call como sistema, não como sofrimento inevitável
- sabe combinar resposta a incidente com melhoria estrutural
- entende o papel de alertas, runbooks e post-mortem
- pensa em sustentabilidade operacional, não só em apagar fogo
- evita romantizar plantão pesado como prova de maturidade
Resposta forte costuma mostrar:
- como responder bem quando o incidente acontece
- como reduzir carga e ruído do plantão
- como transformar recorrência em trabalho de melhoria
- como tornar o time menos dependente de heróis
Se isso aparece, a resposta já sobe bastante.
On-call saudável não é o time que sofre calado. É o time que aprende o bastante para sofrer menos.
Quando plantão vira rotina de incêndio, o problema já deixou de ser só resposta. Virou desenho do sistema.
Resumo rápido
O que vale manter na cabeça
- On-call saudável depende menos de heroísmo individual e mais de alertas bons, runbooks úteis e sistemas menos frágeis.
- Se o plantão vive apagando incêndio igual toda semana, o problema já deixou de ser operacional e virou estrutural.
- Responder incidente é só parte do on-call; aprender e reduzir recorrência é o que impede virar bombeiro.
- Em entrevista, resposta forte mostra como você pensa sustentabilidade, não só reação.
Checklist de pratica
Use isto ao responder
- Consigo explicar o que diferencia on-call saudável de plantão caótico?
- Sei dizer como alertas, runbooks e post-mortems reduzem carga operacional?
- Consigo mostrar que on-call não é só reagir, mas também fechar o ciclo de aprendizado?
- Sei responder sem romantizar sofrimento nem ignorar responsabilidade operacional?
Você concluiu este artigo
Compartilhar esta página
Copie o link manualmente no campo abaixo.