Pular para o conteudo principal

On-call sustentável

Como pensar plantão de forma sustentável, com sinais, processo e aprendizado, em vez de heroísmo reativo.

Andrews Ribeiro

Andrews Ribeiro

Founder & Engineer

O problema

Tem lugar em que on-call significa uma coisa simples:

  • alguém está responsável por responder incidentes quando eles aparecem

E tem lugar em que on-call significa isto:

  • pager tocando por ruído
  • alerta sem contexto
  • madrugada perdida com incidente recorrente
  • dependência de pessoas específicas
  • sensação de que o sistema sempre está quase quebrando

Quando isso acontece, o time começa a tratar on-call como se fosse o problema.

Mas muitas vezes o problema real é outro:

  • alerta ruim
  • sistema frágil
  • runbook inexistente
  • ownership confuso
  • falta de correção estrutural depois do incidente

Ou seja:

o plantão vira bombeiro porque o resto da operação já está pegando fogo o tempo todo.

Modelo mental

Pense assim:

on-call saudável não é sobre aguentar mais incidente. É sobre responder bem hoje e reduzir a chance de responder a mesma coisa amanhã.

Essa definição ajuda muito.

Porque ela tira o tema do campo da resistência pessoal e leva para o campo de confiabilidade.

On-call bom não depende de uma pessoa heroica.

Depende de sistema, processo e aprendizado que tornem a resposta:

  • mais clara
  • mais rápida
  • menos caótica
  • menos recorrente

Quebrando o problema

Plantão ruim quase sempre é sintoma de operação ruim

Esse é o primeiro ponto importante.

Se o on-call está sofrendo demais, vale olhar para perguntas como:

  • os alertas representam problemas reais?
  • existe contexto suficiente para responder?
  • os mesmos incidentes voltam sem correção?
  • todo mundo sabe mitigar ou depende de memória tribal?

Quando a resposta é ruim para essas perguntas, o plantão vira sobrecarga previsível.

Não é azar.

É desenho ruim da operação.

Alerta bom protege atenção humana

Muita dor de plantão nasce aqui.

Se tudo alerta:

  • nada prioriza
  • a pessoa para de confiar
  • o ruído come energia

Alerta bom normalmente responde:

  • esse problema precisa de ação humana agora?
  • qual impacto ele sugere?
  • com que contexto mínimo a pessoa começa a investigar?

Se o alerta só diz “algo parece errado”, ele empurra a investigação inteira para quem está de plantão.

Runbook não é burocracia; é redução de pânico

Runbook ruim ou ausente faz cada incidente parecer inédito.

Isso custa caro.

Principalmente de madrugada ou em situação de pressão.

Runbook útil não precisa ser gigante.

Mas deveria ajudar com coisas como:

  • onde olhar primeiro
  • como mitigar com segurança
  • o que já foi tentado antes
  • quando escalar
  • quando rollback faz sentido

Ele não substitui julgamento.

Mas reduz tempo gasto reinventando o começo da resposta.

On-call bom fecha o ciclo com post-mortem e correção

Se o time responde incidente e segue a vida sem corrigir a fragilidade, o pager vai voltar.

Esse é o coração do problema.

Plantão sustentável depende de:

  • reduzir recorrência
  • melhorar detecção
  • documentar melhor resposta
  • simplificar operação frágil

Sem isso, on-call vira fila de repetição.

Heroísmo costuma esconder deficiência sistêmica

Toda equipe conhece alguém que:

  • sabe os atalhos
  • encontra o problema rápido
  • salva a noite

Isso impressiona no curto prazo.

Mas também pode esconder dependência perigosa.

Se o sistema só é operável com essa pessoa, o time não está seguro.

Resposta madura em entrevista reconhece isso.

Não romantiza o herói.

Pergunta como o time reduz a necessidade dele.

On-call também é sobre carga humana

Esse ponto não é “soft”. É operacional.

Plantão cronicamente ruim gera:

  • cansaço
  • perda de contexto
  • resposta pior sob pressão
  • rotatividade
  • mais erro humano

Então falar de on-call saudável também envolve:

  • rotação viável
  • escalonamento claro
  • volume sustentável
  • melhoria contínua para reduzir carga

Isso não é detalhe secundário.

É engenharia operacional decente.

Em entrevista, resposta boa combina reação e prevenção

Muita gente responde on-call focando só em:

  • reagir rápido
  • investigar bem
  • escalar quando necessário

Tudo isso importa.

Mas resposta forte dá o passo seguinte:

  • como evitar repetir
  • como melhorar alerta
  • como reduzir dependência humana
  • como tornar a operação mais sustentável

É isso que diferencia bombeiro de engenharia de confiabilidade.

Exemplo simples

Imagine um serviço que dispara alerta de latência toda madrugada, mas quase nunca existe impacto real para usuário.

Resposta fraca:

“No on-call eu acompanharia melhor e tentaria responder rápido quando tocar.”

Isso ainda aceita o sistema ruim como dado.

Resposta melhor:

“Se o alerta toca com frequência sem exigir ação real, eu trataria isso como problema de confiabilidade do próprio processo de plantão. No curto prazo eu responderia e confirmaria impacto. No médio prazo eu revisaria a condição do alerta, o contexto enviado e o limiar usado, porque on-call não pode depender de acordar gente para ruído recorrente. Se o time continua recebendo página inútil, a operação está desperdiçando atenção humana e piorando resposta para o incidente que realmente importar.”

Essa resposta funciona porque mostra:

  • resposta imediata
  • melhoria estrutural
  • respeito pelo custo operacional
  • visão de sustentabilidade

Erros comuns

  • Tratar on-call como teste de heroísmo.
  • Aceitar alerta ruim como parte natural da vida.
  • Focar só em reação e nunca em redução de recorrência.
  • Depender de poucas pessoas para responder incidentes difíceis.
  • Ignorar o custo humano como se isso não afetasse qualidade operacional.

Como um senior pensa

Quem amadureceu em operação costuma pensar assim:

“Cada página é uma interrupção cara. Se ela não corresponde a um problema real ou se volta sempre pelo mesmo motivo, o sistema de on-call está falhando.”

Essa lente é muito forte.

Porque faz você respeitar atenção humana como recurso finito.

Senioridade aqui não é parecer calmo no caos.

É construir um ambiente em que o caos apareça menos e seja mais governável quando aparecer.

O que o entrevistador quer ver

Quando esse tema aparece, o avaliador normalmente quer entender se você:

  • enxerga on-call como sistema, não como sofrimento inevitável
  • sabe combinar resposta a incidente com melhoria estrutural
  • entende o papel de alertas, runbooks e post-mortem
  • pensa em sustentabilidade operacional, não só em apagar fogo
  • evita romantizar plantão pesado como prova de maturidade

Resposta forte costuma mostrar:

  1. como responder bem quando o incidente acontece
  2. como reduzir carga e ruído do plantão
  3. como transformar recorrência em trabalho de melhoria
  4. como tornar o time menos dependente de heróis

Se isso aparece, a resposta já sobe bastante.

On-call saudável não é o time que sofre calado. É o time que aprende o bastante para sofrer menos.

Quando plantão vira rotina de incêndio, o problema já deixou de ser só resposta. Virou desenho do sistema.

Resumo rápido

O que vale manter na cabeça

Checklist de pratica

Use isto ao responder

Você concluiu este artigo

Próximo artigo Como escrever post-mortem que o time respeita Artigo anterior Hipótese, isolamento e confirmação

Continue explorando

Artigos relacionados