Hyperparámetros
Los hyperparámetros controlan cómo aprende tu modelo. Piensa en ellos como las configuraciones de tu entrenamiento.Los Tres Esenciales
Learning Rate
Qué tan grandes son los pasos al actualizar el modelo.- Demasiado alto (0.01): El modelo salta alrededor, nunca converge
- Demasiado bajo (0.00001): Toma una eternidad entrenar
- Perfecto (0.00002): Mejora constante
- Fine-tuning: 2e-5 a 5e-5
- Entrenamiento desde cero: 1e-4 a 1e-3
Batch Size
Cuántos ejemplos procesar antes de actualizar weights.- Pequeño (8): Más actualizaciones, menos estable, necesita menos memoria
- Grande (128): Menos actualizaciones, más estable, necesita más memoria
- GPU limitada: 8-16
- Buena GPU: 32-64
- Múltiples GPUs: 128+
Epochs
Cuántas veces pasar por todo tu dataset.- Muy pocos (1): Underfitting, el modelo no ha aprendido lo suficiente
- Demasiados (100): Overfitting, memorizó datos de entrenamiento
- Perfecto (3-10): Buen equilibrio
Configuraciones Secundarias
Warmup Steps
Aumentar learning rate gradualmente al inicio.Weight Decay
Regularización que impide que los weights se vuelvan demasiado grandes.- Predeterminado: 0.0 (para fine-tuning LLM)
- Sin regularización: 0
- Regularización fuerte: 0.1
Gradient Accumulation
Simular batches más grandes en hardware limitado.Valores Predeterminados Específicos por Tarea
Text Classification
Language Model Fine-tuning
Image Classification
Cuándo Ajustar
¿Learning rate demasiado alto?- Loss explota o se vuelve NaN
- Accuracy salta alrededor salvajemente
- Nunca converge
- Loss apenas disminuye
- El entrenamiento toma una eternidad
- Atascado en rendimiento pobre
- Sin memoria → reduce batch size
- Entrenamiento inestable → aumenta batch size
- Usa gradient accumulation si memoria limitada
Valores de Inicio Rápido
¿No estás seguro por dónde empezar? Prueba estos:Configuraciones de Evaluación
Controla cuándo y cómo tu modelo es evaluado durante el entrenamiento:| Parámetro | Descripción | Predeterminado |
|---|---|---|
eval_strategy | Cuándo evaluar (epoch, steps, no) | epoch |
eval_batch_size | Tamaño del batch para evaluación | 8 |
use_enhanced_eval | Habilitar métricas avanzadas (BLEU, ROUGE, etc.) | False |
eval_metrics | Métricas para computar (separadas por coma) | perplexity |
eval_save_predictions | Guardar predicciones del modelo | False |
eval_benchmark | Ejecutar benchmark estándar (mmlu, hellaswag, arc, truthfulqa) | None |
Consejos Pro
- Comienza con predeterminados - No pienses demasiado inicialmente
- Cambia uno a la vez - Más fácil ver qué ayuda
- Registra todo - Rastrea lo que funciona para tus datos
- Usa conjunto de validación - Monitorea overfitting