~300 min 8 itens

Seu GPT

AÇÕES
Progresso do Topico 0%

Este topico aparece nas seguintes trilhas:

Pre-requisitos recomendados:

Seu GPT (Entregável Final)

Teoria: Decoder-only architecture, autoregressive generation

Prática: Juntar tokenizer + transformer blocks + training loop + geração


Papers Fundamentais#


Implementações de Referência#


Hyperparameters de Referência (nanoGPT 124M)#

ParâmetroValorO que faz
Learning rate6e-4Tamanho do passo de atualização dos pesos. Muito alto = diverge, muito baixo = lento
Weight decay0.1Penaliza pesos grandes para evitar overfitting (multiplica pesos por 0.999 cada step)
WarmupLinear → cosine decay to 10%Começa com lr baixo, sobe linearmente, depois decai suavemente até 10% do pico
Dropout0.1Desliga 10% dos neurônios aleatoriamente durante treino, forçando redundância
ActivationGELUVersão suave do ReLU (você viu em mlp-e-matrizes)
Position embeddingsLearnedVetores aprendidos (não sinusoidais) indicando posição de cada token

Apple Silicon (MLX)#


Datasets para Treino#

DatasetTamanhoIdeal para
Tiny Shakespeare~1MBExperimentos rápidos (incluso no nanoGPT)
TinyStories2.14M históriasModelos coerentes < 10M params em < 1 dia

Entregável Final#

Marco intermediário (antes de treinar): Faça um forward pass com input aleatório. Verifique que o loss inicial é ~ln(vocab_size) (distribuição uniforme sobre o vocabulário).

Montagem passo a passo:

  1. Use seu tokenizer (tópico 6) para processar Tiny Shakespeare
  2. Use seus blocos Transformer (tópico 8) empilhados com embedding + head
  3. Adapte seu training loop (tópico 4) para PyTorch com AdamW
  4. Implemente geração autoregressiva (novo)
  5. Treine e avalie

Tier 1 - Laptop (sem GPU dedicada)#

GPT character-level, ~1M parâmetros. Após 5000 iterações, deve gerar texto com palavras reconhecíveis em inglês.

Tier 2 - Com GPU#

GPT token-level (BPE), ~10-30M parâmetros. Após treinamento completo, deve gerar histórias de 3-5 frases com coerência gramatical.

Você deve conseguir explicar: Por que o loss inicial deveria ser aproximadamente ln(vocab_size).


Guia de Hardware e Setup#

Setup PyTorch:

  • NVIDIA GPU: pip install torch (CUDA já incluso nas builds oficiais)
  • Apple Silicon: pip install torch (suporte MPS automático desde PyTorch 2.0)
  • CPU only: Funciona, mas só viável para Tier 1

Tempos estimados de treino:

HardwareTier 1 (~1M params)Tier 2 (~10-30M params)
MacBook M1/M2 (MPS)~5 min~3-6h
NVIDIA RTX 3090/4090~2 min~1-2h
Google Colab (T4 free)~5 min~4-8h

Opções cloud (se não tem GPU):

  • Google Colab - Gratuito com T4, suficiente para Tier 2
  • Lambda Labs - ~$1/hr para uma A10G, treina Tier 2 em ~1h

Checklist#


Conclusão#

Você construiu um GPT. De um único neurônio com dot product até um transformer autoregressivo que gera texto - cada peça foi implementada e entendida por você.

Próximos passos sugeridos:#

  • Fine-tuning: Adapte seu modelo para uma tarefa específica
  • Scaling: Experimente aumentar layers, heads, dimensão - observe o que muda
  • Leia GPT-3/LLaMA papers: Agora você tem vocabulário para entender as decisões de design
  • RLHF/DPO: Entenda como modelos são alinhados após o pré-treino

Conexões#

Fundamento: Este tópico integra transformer e tokenizacao

Parabéns! Você completou a trilha LLM do Zero!

9 recursos