Hyperparâmetros
Hyperparâmetros controlam como seu modelo aprende. Pense neles como as configurações do seu treinamento.Os Três Essenciais
Learning Rate
Quão grandes são os passos ao atualizar o modelo.- Muito alto (0.01): Modelo pula ao redor, nunca converge
- Muito baixo (0.00001): Leva uma eternidade para treinar
- Perfeito (0.00002): Melhoria constante
- Fine-tuning: 2e-5 a 5e-5
- Treinamento do zero: 1e-4 a 1e-3
Batch Size
Quantos exemplos processar antes de atualizar pesos.- Pequeno (8): Mais atualizações, menos estável, precisa de menos memória
- Grande (128): Menos atualizações, mais estável, precisa de mais memória
- GPU limitada: 8-16
- Boa GPU: 32-64
- Múltiplas GPUs: 128+
Epochs
Quantas vezes passar por todo seu dataset.- Muito poucos (1): Underfitting, modelo não aprendeu o suficiente
- Muitos (100): Overfitting, memorizou dados de treinamento
- Perfeito (3-10): Bom equilíbrio
Configurações Secundárias
Warmup Steps
Aumentar learning rate gradualmente no início.Weight Decay
Regularização que impede pesos de ficarem muito grandes.- Padrão: 0.0 (para fine-tuning LLM)
- Sem regularização: 0
- Regularização forte: 0.1
Gradient Accumulation
Simular batches maiores em hardware limitado.Padrões Específicos por Tarefa
Text Classification
Language Model Fine-tuning
Image Classification
Quando Ajustar
Learning rate muito alto?- Loss explode ou vira NaN
- Accuracy pula ao redor selvagemente
- Nunca converge
- Loss mal diminui
- Treinamento leva uma eternidade
- Preso em desempenho ruim
- Sem memória → reduza batch size
- Treinamento instável → aumente batch size
- Use gradient accumulation se memória limitada
Valores de Início Rápido
Não tem certeza por onde começar? Experimente estes:Configurações de Avaliação
Controle quando e como seu modelo é avaliado durante o treinamento:| Parâmetro | Descrição | Padrão |
|---|---|---|
eval_strategy | Quando avaliar (epoch, steps, no) | epoch |
eval_batch_size | Tamanho do batch para avaliação | 8 |
use_enhanced_eval | Habilitar métricas avançadas (BLEU, ROUGE, etc.) | False |
eval_metrics | Métricas para computar (separadas por vírgula) | perplexity |
eval_save_predictions | Salvar previsões do modelo | False |
eval_benchmark | Executar benchmark padrão (mmlu, hellaswag, arc, truthfulqa) | None |
Dicas Pro
- Comece com padrões - Não pense demais inicialmente
- Mude um de cada vez - Mais fácil ver o que ajuda
- Registre tudo - Rastreie o que funciona para seus dados
- Use conjunto de validação - Monitore overfitting