Hyperparâmetros

Hyperparâmetros controlam como seu modelo aprende. Pense neles como as configurações do seu treinamento.

Os Três Essenciais

Learning Rate

Quão grandes são os passos ao atualizar o modelo.

Muito alto (0.01): Modelo pula ao redor, nunca converge
Muito baixo (0.00001): Leva uma eternidade para treinar
Perfeito (0.00002): Melhoria constante

Valores comuns:

Fine-tuning: 2e-5 a 5e-5
Treinamento do zero: 1e-4 a 1e-3

Batch Size

Quantos exemplos processar antes de atualizar pesos.

Pequeno (8): Mais atualizações, menos estável, precisa de menos memória
Grande (128): Menos atualizações, mais estável, precisa de mais memória

Valores comuns:

GPU limitada: 8-16
Boa GPU: 32-64
Múltiplas GPUs: 128+

Epochs

Quantas vezes passar por todo seu dataset.

Muito poucos (1): Underfitting, modelo não aprendeu o suficiente
Muitos (100): Overfitting, memorizou dados de treinamento
Perfeito (3-10): Bom equilíbrio

Acompanhe validation loss - quando parar de melhorar ou piorar, pare.

Configurações Secundárias

Warmup Steps

Aumentar learning rate gradualmente no início.

Steps 0-500: Learning rate vai de 0 → 2e-5
Steps 500+: Learning rate permanece em 2e-5

Previne instabilidade inicial.

Weight Decay

Regularização que impede pesos de ficarem muito grandes.

Padrão: 0.0 (para fine-tuning LLM)
Sem regularização: 0
Regularização forte: 0.1

Gradient Accumulation

Simular batches maiores em hardware limitado.

Tamanho efetivo do batch = batch_size × gradient_accumulation_steps

Exemplo: batch_size=4, accumulation=8 → age como batch_size=32

Padrões Específicos por Tarefa

Text Classification

learning_rate = 5e-5
batch_size = 8
epochs = 3
warmup_ratio = 0.1

Language Model Fine-tuning

learning_rate = 3e-5  # Padrão AITraining
batch_size = 2
epochs = 1
warmup_ratio = 0.1
weight_decay = 0.0
gradient_accumulation = 4

Image Classification

learning_rate = 1e-4
batch_size = 32
epochs = 10
warmup_ratio = 0.05

Quando Ajustar

Learning rate muito alto?

Loss explode ou vira NaN
Accuracy pula ao redor selvagemente
Nunca converge

Learning rate muito baixo?

Loss mal diminui
Treinamento leva uma eternidade
Preso em desempenho ruim

Problemas com batch size?

Sem memória → reduza batch size
Treinamento instável → aumente batch size
Use gradient accumulation se memória limitada

Valores de Início Rápido

Não tem certeza por onde começar? Experimente estes:

# Padrões seguros para a maioria das tarefas
learning_rate = 2e-5
batch_size = 16
epochs = 3
warmup_ratio = 0.1
weight_decay = 0.0

Então ajuste com base no que você vê.

Configurações de Avaliação

Controle quando e como seu modelo é avaliado durante o treinamento:

Parâmetro	Descrição	Padrão
`eval_strategy`	Quando avaliar (`epoch`, `steps`, `no`)	`epoch`
`eval_batch_size`	Tamanho do batch para avaliação	`8`
`use_enhanced_eval`	Habilitar métricas avançadas (BLEU, ROUGE, etc.)	`False`
`eval_metrics`	Métricas para computar (separadas por vírgula)	`perplexity`
`eval_save_predictions`	Salvar previsões do modelo	`False`
`eval_benchmark`	Executar benchmark padrão (mmlu, hellaswag, arc, truthfulqa)	`None`

Dicas Pro

Comece com padrões - Não pense demais inicialmente
Mude um de cada vez - Mais fácil ver o que ajuda
Registre tudo - Rastreie o que funciona para seus dados
Use conjunto de validação - Monitore overfitting

Próximos Passos

Métricas de Avaliação

Meça seu sucesso

Como o Treinamento Funciona

Entenda o processo

Começando

Fundamentos de Treinamento IA

Conceitos Básicos

Seleção de Interface

Hyperparâmetros

Hyperparâmetros

Os Três Essenciais

Learning Rate

Batch Size

Epochs

Configurações Secundárias

Warmup Steps

Weight Decay

Gradient Accumulation

Padrões Específicos por Tarefa

Text Classification

Language Model Fine-tuning

Image Classification

Quando Ajustar

Valores de Início Rápido

Configurações de Avaliação

Dicas Pro

Próximos Passos

Métricas de Avaliação

Como o Treinamento Funciona

Começando

Fundamentos de Treinamento IA

Conceitos Básicos

Seleção de Interface

​Hyperparâmetros

​Os Três Essenciais

​Learning Rate

​Batch Size

​Epochs

​Configurações Secundárias

​Warmup Steps

​Weight Decay

​Gradient Accumulation

​Padrões Específicos por Tarefa

​Text Classification

​Language Model Fine-tuning

​Image Classification

​Quando Ajustar

​Valores de Início Rápido

​Configurações de Avaliação

​Dicas Pro

​Próximos Passos

Métricas de Avaliação

Como o Treinamento Funciona

Hyperparâmetros

Os Três Essenciais

Learning Rate

Batch Size

Epochs

Configurações Secundárias

Warmup Steps

Weight Decay

Gradient Accumulation

Padrões Específicos por Tarefa

Text Classification

Language Model Fine-tuning

Image Classification

Quando Ajustar

Valores de Início Rápido

Configurações de Avaliação

Dicas Pro

Próximos Passos