Intermediario ~45 min 5 itens

O que e RAG (Retrieval-Augmented Generation)

rag retrieval llms

AÇÕES

Progresso do Topico 0%

Este topico aparece nas seguintes trilhas:

IA Pratica (RAG) AI Engineer (RAG)

Pre-requisitos recomendados:

embeddings vector-databases

O que e RAG (Retrieval-Augmented Generation)

Retrieval-Augmented Generation (RAG) e uma arquitetura que combina a recuperacao de informacoes (retrieval) com a geracao de linguagem natural para produzir respostas mais precisas e contextualizadas. Esta tecnica resolve uma das principais limitacoes dos LLMs: o conhecimento estatico limitado ao periodo de treinamento.

Por que RAG e Importante?#

Os Large Language Models (LLMs) tradicionais possuem limitacoes significativas:

Conhecimento Desatualizado: O conhecimento e limitado aos dados de treinamento
Alucinacoes: Podem gerar informacoes incorretas com confianca
Falta de Especificidade: Dificuldade com dados proprietarios ou especializados
Custos de Fine-tuning: Retreinar modelos e caro e demorado

RAG resolve esses problemas ao buscar informacoes relevantes em tempo real e usa-las como contexto para a geracao.

Arquitetura do RAG#

O RAG utiliza dois componentes principais trabalhando em conjunto:

1. Retriever (Recuperador)#

O retriever e responsavel por buscar informacoes relevantes em uma base de conhecimento:

Converte a query do usuario em um vetor (embedding)
Busca documentos similares em um banco de dados vetorial
Retorna os documentos mais relevantes baseado em similaridade

2. Generator (Gerador)#

O gerador utiliza as informacoes recuperadas para criar a resposta:

Recebe a query original e os documentos recuperados
Combina o contexto com o prompt do usuario
Gera uma resposta fundamentada nos dados recuperados

Fluxo de Funcionamento#

Pergunta do Usuario
        |
        v
[1. Embedding da Query]
        |
        v
[2. Busca no Vector DB] --> Documentos Relevantes
        |                           |
        v                           v
[3. Construcao do Prompt] <---------+
        |
        v
[4. Geracao da Resposta pelo LLM]
        |
        v
Resposta Contextualizada

Exemplo Pratico#

Python

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.llms import OpenAI
from langchain.chains import RetrievalQA

# 1. Configurar embeddings
embeddings = OpenAIEmbeddings()

# 2. Criar/Carregar vector store com documentos
vectorstore = Chroma.from_documents(documents, embeddings)

# 3. Criar retriever
retriever = vectorstore.as_retriever(search_kwargs={"k": 3})

# 4. Criar chain RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=OpenAI(),
    chain_type="stuff",
    retriever=retriever
)

# 5. Fazer pergunta
response = qa_chain.run("Qual e a politica de ferias da empresa?")

Beneficios do RAG#

Beneficio	Descricao
Conhecimento Atualizado	Informacoes podem ser atualizadas sem retreinar o modelo
Reducao de Alucinacoes	Respostas fundamentadas em dados reais
Transparencia	Possivel rastrear fontes das informacoes
Customizacao	Facil adaptacao para dominios especificos
Custo-Efetividade	Mais barato que fine-tuning para muitos casos

RAG vs Fine-tuning#

Aspecto	RAG	Fine-tuning
Atualizacao de dados	Instantanea	Requer retreino
Custo inicial	Baixo	Alto
Especificidade	Alta	Muito alta
Transparencia	Fontes rastreaveis	Caixa preta
Melhor para	Dados dinamicos	Comportamento especializado