29 de Setembro de 2025

RAG vs Fine-Tuning Sem Falso Dilema

Como decidir entre retrieval e fine-tuning olhando o tipo real de falha do sistema, e não hype.

Andrews Ribeiro

Founder & Engineer

4 min Intermediario Sistemas

#design-de-sistemas#sistemas-com-ia#ai#rag#fine-tuning

O problema

Conversa sobre RAG e fine-tuning vira disputa de ferramenta muito rápido.

O time quer escolher um lado antes mesmo de entender que tipo de falha o sistema de IA esta tendo.

Isso transforma decisão de engenharia em briga ideologica.

Modelo mental

O ponto principal não e comparar nome de técnica.

E separar dois tipos bem diferentes de falha:

o modelo não tem o fato certo na hora certa
o modelo tem o contexto certo, mas ainda se comporta mal

Essa divisao já clareia bastante a conversa.

Quebrando o problema

Antes de escolher a técnica, responda isto:

A falha vem de conhecimento faltando, proprietario ou que muda rápido?
Ou a falha e de comportamento repetido, mesmo com contexto bom?
O sistema precisa de camada de conhecimento atualizavel e auditavel?
O custo operacional de fine-tuning faz sentido aqui?

Essas perguntas ligam a decisão ao problema real.

Elas também evitam um erro comum em projeto de IA: tentar consertar tudo no mesmo lugar. As vezes o time usa fine-tuning para resolver documento errado. As vezes usa RAG para resolver formato ruim de saída. Nos dois casos, a técnica escolhida vira remendo caro.

Quando RAG costuma ser o primeiro caminho

RAG costuma ser a melhor primeira aposta quando o sistema precisa responder com base em:

documento interno
conhecimento que muda com frequência
politica, contrato ou catalogo que precisa ser auditavel
dado que não vale embutir no modelo

Nesses casos, retrieval te da uma alavanca boa:

atualiza conhecimento sem retreinar
permite inspecionar a fonte usada
facilita corrigir documento, ranking e contexto

Quando fine-tuning realmente entra na conversa

Fine-tuning faz mais sentido quando o modelo continua errando apesar de receber contexto bom e instrucoes claras.

Exemplos comuns:

formato de saída continua inconsistente
classificacao de um dominio específico continua ruim
tom, estilo ou padrão de resposta precisa ficar bem mais estavel
prompt já foi bastante explorado e ainda não resolve

Aqui o ganho potencial não e “o modelo passa a saber tudo”. O ganho e ajustar comportamento de forma mais repetivel para um tipo de tarefa.

O que quase sempre vem antes de fine-tuning

Em bastante time, a ordem madura costuma ser:

esclarecer a tarefa
melhorar prompt
melhorar retrieval e contexto
criar avaliação decente
só entao discutir tuning

Isso acontece porque retrieval, contexto e avaliação sao pontos de controle mais baratos e mais inspecionaveis. Se você pula essas etapas, o tuning vira tentativa cara de esconder diagnostico fraco.

Exemplo simples

Imagine um assistente interno de RH.

Se ele erra politica de ferias porque não leu o manual atualizado, o problema e retrieval. Você precisa buscar o documento certo.

Agora imagine que ele recebe o contexto perfeito, mas continua respondendo em tom errado ou quebrando JSON.

Ai a conversa muda para comportamento, prompt e talvez fine-tuning.

O ponto central e perceber que o tipo de falha mudou.

Em sistema real, esse diagnostico quase sempre precisa de exemplos classificados. Não basta dizer “parece ruim”. Precisa separar casos como:

errou porque não trouxe a politica certa
errou porque trouxe a politica certa mas interpretou mal
trouxe a resposta certa mas num formato inutil

Sem essa separação, a decisão entre retrieval e tuning vira chute com nome técnico.

Erros comuns

Tratar RAG e fine-tuning como rivais mutuamente exclusivos.
Pular para fine-tuning antes de provar se retrieval funciona.
Chamar toda alucinacao de falta de contexto.
Ignorar custo operacional de treinar e manter modelo ajustado.
Decidir pela técnica antes de montar avaliação que separa tipo de falha.

Como um senior pensa

Quem tem mais experiência começa pela falha observável.

O critério costuma ser:

“Se o sistema falha porque não conhece os fatos, otimizo retrieval primeiro. Se ele falha apesar do contexto certo, ai discuto comportamento e fine-tuning.”

Quem pensa assim normalmente também pergunta qual parte da solução continua observável depois. Retrieval tende a ser mais fácil de inspecionar e corrigir no dia seguinte. Fine-tuning pode ser valioso, mas sobe o custo de iteração e de governanca.

O que o entrevistador quer ver

Em entrevista de AI system design, isso mostra maturidade rápido.

Você separar acesso a conhecimento de comportamento intrinseco do modelo.
Você escolher o ponto de controle mais barato e mais inspecionavel primeiro.
Você pensar em velocidade de iteração e custo operacional.

Uma resposta forte costuma soar assim:

“Eu não escolheria RAG ou fine-tuning por gosto. Primeiro eu separaria se o erro vem de contexto faltando ou de comportamento ruim mesmo com contexto certo. Se for conhecimento ou frescor, eu ajusto retrieval. Se for comportamento repetido apesar de contexto bom, ai eu considero tuning.”

Antes de escolher a técnica, identifique a falha exata que você quer corrigir.

Resumo rápido

O que vale manter na cabeça

RAG costuma entrar quando a falha principal e falta de contexto certo, atual ou proprietario.
Fine-tuning faz mais sentido quando o problema persiste mesmo com contexto bom e o comportamento precisa ficar mais consistente.
Os dois não sao rivais naturais. Em muitos sistemas reais, retrieval resolve conhecimento e tuning ajusta comportamento.
Decisão boa nasce do tipo de falha observado, não da técnica que parece mais sofisticada no momento.

Checklist de pratica

Use isto ao responder

Consigo diferenciar erro de contexto faltando de erro de comportamento ruim com contexto certo?
Sei dizer quando eu testaria retrieval, prompt e avaliação antes de discutir fine-tuning?
Consigo explicar o custo operacional extra de manter fine-tuning?
Sei descrever um caso em que RAG e tuning convivem no mesmo sistema?

Você concluiu este artigo

Próximo passo

Context engineering: como alimentar o modelo com o contexto certo Próximo passo →

Você concluiu este artigo

Próximo passo

Context engineering: como alimentar o modelo com o contexto certo Próximo passo →

Próximo artigo Mensageria e filas Artigo anterior APIs e serviços com fronteiras claras

RAG vs Fine-Tuning Sem Falso Dilema

O problema

Modelo mental

Quebrando o problema

Quando RAG costuma ser o primeiro caminho

Quando fine-tuning realmente entra na conversa

O que quase sempre vem antes de fine-tuning

Exemplo simples

Erros comuns

Como um senior pensa

O que o entrevistador quer ver

O que vale manter na cabeça

Use isto ao responder

Continue explorando

Artigos

Design de Sistemas

Sistemas com IA

Artigos relacionados

Avaliação de features com IA: como medir se está funcionando

Prompt engineering para desenvolvimento: o que funciona na prática

Cenários com IA em produção