Logging y Debug
Monitorea el progreso del entrenamiento y diagnostica problemas.Opciones de Logging
Weights & Biases
- Curvas de pérdida en tiempo real
- Métricas de hardware
- Seguimiento de hiperparámetros
- Artefactos de modelo
TensorBoard
Visualizador W&B (LEET)
Visualizador de terminal integrado que muestra métricas en tiempo real en tu terminal.El visualizador W&B está habilitado por defecto al usar
--log wandb. Usa --no-wandb-visualizer para deshabilitarlo.Pasos de Logging
Controla la frecuencia de logging:Salida Verbosa
Capturar Logs Completos
Variables de Entorno
Estas variables de entorno afectan el comportamiento de logging y debug:| Variable | Description |
|---|---|
AUTOTRAIN_TUI_MODE=1 | Suppresses logs when running in TUI mode (set automatically) |
PAUSE_ON_FAILURE=0 | Disable pausing on failure (default: 1, enabled) |
WANDB_API_KEY | Weights & Biases API key for logging |
Supresión de Ruido
Estas se establecen automáticamente para reducir el ruido en los logs:| Variable | Value | Effect |
|---|---|---|
TF_CPP_MIN_LOG_LEVEL | 3 | Suppress TensorFlow warnings |
TOKENIZERS_PARALLELISM | false | Disable tokenizer parallelism warnings |
BITSANDBYTES_NOWELCOME | 1 | Suppress bitsandbytes welcome message |
Problemas Comunes
Memoria Agotada (OOM)
Síntomas:- Error “CUDA out of memory”
- El entrenamiento se bloquea repentinamente
Entrenamiento Lento
Verifica:- Utilización de GPU:
- Habilitar optimizaciones:
- Cuello de botella de carga de datos:
- Asegúrate de que los datos estén en almacenamiento rápido (SSD)
- Preprocesa los datos para reducir la sobrecarga de tokenización
- Usa longitudes de secuencia más pequeñas si es posible
Pérdida NaN
Síntomas:- La pérdida se vuelve NaN
- El entrenamiento diverge
Problemas con Datos
Síntomas:- Comportamiento inesperado
- Mala calidad del modelo
Checkpointing
Estrategia de Guardado
Reanudar Entrenamiento
Si el entrenamiento se bloquea, reanuda desde checkpoint:Herramientas de Monitorización
Monitorización de GPU
Recursos del Sistema
Lista de Verificación de Debug
- Verificar logs - Busca mensajes de error
- Verificar datos - Asegúrate del formato correcto
- Verificar GPU - Memoria y utilización
- Probar más pequeño - Reduce tamaño de batch/modelo
- Aislar problema - Reproducción mínima
Próximos Pasos
Procesamiento por Lotes
Ejecutar múltiples experimentos
Automatización de Pipeline
Automatizar flujos de trabajo