Fundamentos Matemáticos Intermediario ~420 min

Backpropagation

Topico 4 de 9
fundamentos neural gradientes
AÇÕES
Progresso do Topico 0%

Backpropagation (Marco Crítico)

Teoria: Regra da cadeia em profundidade, derivadas parciais, computational graph, otimizadores

Prática: Implementar backprop na mão para seu MLP

Esse é o tópico mais denso. Não apresse. A regra da cadeia é a essência de como redes neurais aprendem.


Vídeos Fundamentais#

  • Karpathy - micrograd (vídeo completo) - Autograd engine do zero, 2h30 de ouro puro (assista o vídeo COMPLETO desta vez - você viu o início em neuronio-e-vetores)

    • youtube.com/watch?v=VMj-3S1tku0
  • 3Blue1Brown - Backpropagation - Visualização da propagação de gradientes


Leituras e Tutoriais#


Exercícios de Cálculo Manual#


Ferramentas e Código#


Otimizadores e Update de Pesos#

Backprop calcula os gradientes, mas como exatamente você atualiza os pesos?

  • Gradient Descent (vanilla): w = w - lr * grad. Simples, mas sensível ao learning rate.
  • SGD (Stochastic Gradient Descent): Atualiza com mini-batches ao invés do dataset inteiro. Mais ruidoso, mas muito mais rápido.
  • Adam: Combina momentum (média móvel dos gradientes) com RMSprop (média móvel dos gradientes ao quadrado). O otimizador padrão para a maioria dos projetos - é o que você vai usar em seu-gpt.

O learning rate é o hyperparâmetro mais importante: muito alto e o treino diverge, muito baixo e nunca converge.


Mecânica do Treino#

O loop de treinamento completo que conecta tudo:

  1. Forward pass: dados entram, predições saem
  2. Loss: compara predições com labels reais
  3. Backward pass: calcula gradientes via backprop
  4. Update: aplica otimizador para ajustar pesos
  5. Repita

Conceitos essenciais:

  • Epoch: uma passada completa por todo o dataset
  • Batch: subconjunto dos dados processado de uma vez
  • Monitorar loss: se o loss de treino desce mas o de validação sobe, você está em overfitting

Insight Chave#

Backprop é "só" a regra da cadeia aplicada recursivamente. Cada nó no computational graph recebe o gradiente de cima (como sua saída afeta o loss) e passa pra baixo (como seus inputs afetam sua saída). A elegância é que cada nó só precisa de informação local - não precisa "saber" sobre o resto da rede. Isso é o que torna o treinamento de redes profundas computacionalmente viável.


Entregável#

Parte 1 (obrigatória): Calcule manualmente o backprop para uma rede de 2 inputs, 2 neurônios ocultos, 1 output, usando o walkthrough do Matt Mazur. Faça no papel ou planilha.

Parte 2: Seu MLP agora treina: Forward → Loss → Backward → Update. Implemente backprop sem autograd — escreva as derivadas manualmente para cada camada.

Alvo: Faça-o aprender XOR. Após treinamento, deve acertar todas as 4 saídas com loss < 0.01.

Você deve conseguir explicar: Por que cada nó só precisa de informação local para calcular seu gradiente.


Checklist#


Conexões#

Fundamento: Este tópico usa conceitos de loss-e-derivadas

Próximo passo: Aprenda como texto é dividido em tokens em tokenizacao

11 recursos

Este topico tambem pode ser acessado em /topicos/backpropagation