Pular para o conteúdo principal

Hyperparâmetros

Hyperparâmetros controlam como seu modelo aprende. Pense neles como as configurações do seu treinamento.

Os Três Essenciais

Learning Rate

Quão grandes são os passos ao atualizar o modelo.
  • Muito alto (0.01): Modelo pula ao redor, nunca converge
  • Muito baixo (0.00001): Leva uma eternidade para treinar
  • Perfeito (0.00002): Melhoria constante
Valores comuns:
  • Fine-tuning: 2e-5 a 5e-5
  • Treinamento do zero: 1e-4 a 1e-3

Batch Size

Quantos exemplos processar antes de atualizar pesos.
  • Pequeno (8): Mais atualizações, menos estável, precisa de menos memória
  • Grande (128): Menos atualizações, mais estável, precisa de mais memória
Valores comuns:
  • GPU limitada: 8-16
  • Boa GPU: 32-64
  • Múltiplas GPUs: 128+

Epochs

Quantas vezes passar por todo seu dataset.
  • Muito poucos (1): Underfitting, modelo não aprendeu o suficiente
  • Muitos (100): Overfitting, memorizou dados de treinamento
  • Perfeito (3-10): Bom equilíbrio
Acompanhe validation loss - quando parar de melhorar ou piorar, pare.

Configurações Secundárias

Warmup Steps

Aumentar learning rate gradualmente no início.
Steps 0-500: Learning rate vai de 0 → 2e-5
Steps 500+: Learning rate permanece em 2e-5
Previne instabilidade inicial.

Weight Decay

Regularização que impede pesos de ficarem muito grandes.
  • Padrão: 0.0 (para fine-tuning LLM)
  • Sem regularização: 0
  • Regularização forte: 0.1

Gradient Accumulation

Simular batches maiores em hardware limitado.
Tamanho efetivo do batch = batch_size × gradient_accumulation_steps
Exemplo: batch_size=4, accumulation=8 → age como batch_size=32

Padrões Específicos por Tarefa

Text Classification

learning_rate = 5e-5
batch_size = 8
epochs = 3
warmup_ratio = 0.1

Language Model Fine-tuning

learning_rate = 3e-5  # Padrão AITraining
batch_size = 2
epochs = 1
warmup_ratio = 0.1
weight_decay = 0.0
gradient_accumulation = 4

Image Classification

learning_rate = 1e-4
batch_size = 32
epochs = 10
warmup_ratio = 0.05

Quando Ajustar

Learning rate muito alto?
  • Loss explode ou vira NaN
  • Accuracy pula ao redor selvagemente
  • Nunca converge
Learning rate muito baixo?
  • Loss mal diminui
  • Treinamento leva uma eternidade
  • Preso em desempenho ruim
Problemas com batch size?
  • Sem memória → reduza batch size
  • Treinamento instável → aumente batch size
  • Use gradient accumulation se memória limitada

Valores de Início Rápido

Não tem certeza por onde começar? Experimente estes:
# Padrões seguros para a maioria das tarefas
learning_rate = 2e-5
batch_size = 16
epochs = 3
warmup_ratio = 0.1
weight_decay = 0.0
Então ajuste com base no que você vê.

Configurações de Avaliação

Controle quando e como seu modelo é avaliado durante o treinamento:
ParâmetroDescriçãoPadrão
eval_strategyQuando avaliar (epoch, steps, no)epoch
eval_batch_sizeTamanho do batch para avaliação8
use_enhanced_evalHabilitar métricas avançadas (BLEU, ROUGE, etc.)False
eval_metricsMétricas para computar (separadas por vírgula)perplexity
eval_save_predictionsSalvar previsões do modeloFalse
eval_benchmarkExecutar benchmark padrão (mmlu, hellaswag, arc, truthfulqa)None

Dicas Pro

  1. Comece com padrões - Não pense demais inicialmente
  2. Mude um de cada vez - Mais fácil ver o que ajuda
  3. Registre tudo - Rastreie o que funciona para seus dados
  4. Use conjunto de validação - Monitore overfitting

Próximos Passos