Distilación de Conocimiento
Entrena modelos más pequeños y rápidos que imitan el comportamiento de modelos profesor más grandes.¿Qué es la Distilación?
La distilación de conocimiento transfiere conocimiento de un modelo “profesor” grande a un modelo “alumno” más pequeño. El alumno aprende a producir salidas similares al profesor, ganando capacidades más allá de lo que podría aprender solo con datos.Inicio Rápido
Python API
Parámetros
| Parámetro | Descripción | Por Defecto |
|---|---|---|
use_distillation | Habilitar distilación | False |
teacher_model | Ruta al modelo profesor | Requerido cuando use_distillation=True |
distill_temperature | Temperatura softmax (2.0-4.0 recomendado) | 3.0 |
distill_alpha | Peso de pérdida de distilación | 0.7 |
distill_max_teacher_length | Máximo de tokens para el profesor | 512 |
teacher_prompt_template | Plantilla para prompts del profesor | None |
student_prompt_template | Plantilla para prompts del alumno | "{input}" |
Temperatura
Temperaturas más altas hacen que la distribución de probabilidad del profesor sea más suave, facilitando el aprendizaje del alumno:1.0: Probabilidades normales2.0-4.0: Más suave, más enseñable (recomendado)>4.0: Muy suave, puede perder precisión
Alpha
Controla el equilibrio entre distilación y pérdida estándar:0.0: Solo pérdida estándar (sin distilación)0.5: Equilibrio igual0.7: Por defecto (más peso en distilación)1.0: Solo pérdida de distilación
Plantillas de Prompts
Personaliza cómo se formatean los prompts para modelos profesor y alumno:{input} como el marcador de posición para el texto real del prompt.
Formato de Datos
Los prompts simples funcionan bien para distilación:Mejores Prácticas
Elige Modelos Sabiamente
- El profesor debe ser significativamente más grande (4x+ parámetros)
- La misma familia de arquitectura suele funcionar mejor
- El profesor debe ser capaz en la tarea objetivo
Ajuste de Temperatura
El rango de temperatura recomendado es 2.0-4.0. Valores por encima de 4.0 pueden perder precisión.
Duración del Entrenamiento
La distilación a menudo se beneficia de entrenamiento más largo:Ejemplo: Asistente de API
Distilar conocimiento de API de un modelo grande:Comparación
Sin Distilación
Con Distilación
Casos de Uso
- Despliegue: Crear modelos rápidos para producción
- Dispositivos de borde: Ejecutar en sistemas móviles/embebidos
- Reducción de costos: Reducir costos de inferencia
- Especialización: Enfocar conocimiento de modelo grande en dominio específico