Logging e Debug
Monitore o progresso do treinamento e diagnostique problemas.Opções de Logging
Weights & Biases
- Curvas de perda em tempo real
- Métricas de hardware
- Rastreamento de hiperparâmetros
- Artefatos de modelo
TensorBoard
Visualizador W&B (LEET)
Visualizador de terminal integrado que mostra métricas em tempo real no seu terminal.O visualizador W&B está habilitado por padrão ao usar
--log wandb. Use --no-wandb-visualizer para desabilitá-lo.Passos de Logging
Controle a frequência de logging:Saída Verbosa
Capturar Logs Completos
Variáveis de Ambiente
Essas variáveis de ambiente afetam o comportamento de logging e debug:| Variable | Description |
|---|---|
AUTOTRAIN_TUI_MODE=1 | Suppresses logs when running in TUI mode (set automatically) |
PAUSE_ON_FAILURE=0 | Disable pausing on failure (default: 1, enabled) |
WANDB_API_KEY | Weights & Biases API key for logging |
Supressão de Ruído
Essas são definidas automaticamente para reduzir o ruído nos logs:| Variable | Value | Effect |
|---|---|---|
TF_CPP_MIN_LOG_LEVEL | 3 | Suppress TensorFlow warnings |
TOKENIZERS_PARALLELISM | false | Disable tokenizer parallelism warnings |
BITSANDBYTES_NOWELCOME | 1 | Suppress bitsandbytes welcome message |
Problemas Comuns
Memória Esgotada (OOM)
Sintomas:- Erro “CUDA out of memory”
- Treinamento trava repentinamente
Treinamento Lento
Verifique:- Utilização da GPU:
- Habilitar otimizações:
- Gargalo de carregamento de dados:
- Certifique-se de que os dados estão em armazenamento rápido (SSD)
- Pré-processe os dados para reduzir sobrecarga de tokenização
- Use comprimentos de sequência menores se possível
Perda NaN
Sintomas:- Perda se torna NaN
- Treinamento diverge
Problemas com Dados
Sintomas:- Comportamento inesperado
- Qualidade ruim do modelo
Checkpointing
Estratégia de Salvamento
Retomar Treinamento
Se o treinamento travar, retome do checkpoint:Ferramentas de Monitoramento
Monitoramento de GPU
Recursos do Sistema
Lista de Verificação de Debug
- Verificar logs - Procure por mensagens de erro
- Verificar dados - Certifique-se do formato correto
- Verificar GPU - Memória e utilização
- Tentar menor - Reduza tamanho do batch/modelo
- Isolar problema - Reprodução mínima
Próximos Passos
Processamento em Lote
Execute múltiplos experimentos
Automação de Pipeline
Automatize fluxos de trabalho