Arquitetura Transformer Intermediario ~120 min

Tokenização

Topico 5 de 9
nlp pré-processamento bpe
AÇÕES
Progresso do Topico 0%

Tokenização

Teoria: BPE (Byte Pair Encoding), vocabulário, tokens vs caracteres

Prática: Implementar tokenizer BPE do zero

Antes de transformar texto em vetores, precisamos decidir: qual a unidade básica? Caractere? Palavra? A resposta é mais sutil do que parece.


Papers Fundamentais#

  • Sennrich, Haddow & Birch (2016) - BPE for NMT - Adaptação do algoritmo de compressão para tradução

  • Kudo & Richardson (2018) - SentencePiece - Tokenização language-independent, sem pré-tokenização

  • Kudo (2018) - Unigram Model - Alternativa ao BPE: começa grande e trima por loss


Vídeos e Tutoriais#


Código de Referência#


Comparação de Métodos#

MétodoUsado porEstratégia
BPEGPT-2, GPT-4, LLaMAMerge pares mais frequentes
WordPieceBERTMerge pares que maximizam likelihood
UnigramXLNet, T5Começa grande, trima por loss
SentencePieceT5, LLaMAWrapper language-independent

Entregável#

Tokenizer BPE treinado em Tiny Shakespeare com vocabulário de 256 tokens.

Round-trip test: decode(encode(texto)) == texto para qualquer string do corpus.

Métrica: Calcule a taxa de compressão (chars / tokens) — deve ser > 2x.

Você deve conseguir explicar: Por que tokens BPE são melhores que caracteres individuais e melhores que palavras inteiras.


Checklist#


Conexões#

Fundamento: Este tópico usa conceitos de backpropagation

Próximo passo: Aprenda como tokens viram vetores em embeddings-texto

9 recursos

Este topico tambem pode ser acessado em /topicos/tokenizacao