Distilação de Conhecimento
Treine modelos menores e mais rápidos que imitam o comportamento de modelos professor maiores.O que é Distilação?
A distilação de conhecimento transfere conhecimento de um modelo “professor” grande para um modelo “aluno” menor. O aluno aprende a produzir saídas semelhantes ao professor, ganhando capacidades além do que poderia aprender apenas com dados.Início Rápido
Python API
Parâmetros
| Parâmetro | Descrição | Padrão |
|---|---|---|
use_distillation | Habilitar distilação | False |
teacher_model | Caminho para o modelo professor | Obrigatório quando use_distillation=True |
distill_temperature | Temperatura do softmax (2.0-4.0 recomendado) | 3.0 |
distill_alpha | Peso da perda de distilação | 0.7 |
distill_max_teacher_length | Máximo de tokens para o professor | 512 |
teacher_prompt_template | Template para prompts do professor | None |
student_prompt_template | Template para prompts do aluno | "{input}" |
Temperatura
Temperaturas mais altas tornam a distribuição de probabilidade do professor mais suave, facilitando o aprendizado do aluno:1.0: Probabilidades normais2.0-4.0: Mais suave, mais ensinável (recomendado)>4.0: Muito suave, pode perder precisão
Alpha
Controla o equilíbrio entre distilação e perda padrão:0.0: Apenas perda padrão (sem distilação)0.5: Equilíbrio igual0.7: Padrão (mais peso na distilação)1.0: Apenas perda de distilação
Templates de Prompts
Personalize como os prompts são formatados para modelos professor e aluno:{input} como o placeholder para o texto real do prompt.
Formato dos Dados
Prompts simples funcionam bem para distilação:Melhores Práticas
Escolha os Modelos com Sabedoria
- O professor deve ser significativamente maior (4x+ parâmetros)
- A mesma família de arquitetura geralmente funciona melhor
- O professor deve ser capaz na tarefa alvo
Ajuste de Temperatura
A faixa de temperatura recomendada é 2.0-4.0. Valores acima de 4.0 podem perder precisão.
Duração do Treinamento
A distilação geralmente se beneficia de treinamento mais longo:Exemplo: Assistente de API
Distilar conhecimento de API de um modelo grande:Comparação
Sem Distilação
Com Distilação
Casos de Uso
- Implantação: Criar modelos rápidos para produção
- Dispositivos de borda: Executar em sistemas móveis/embarcados
- Redução de custos: Reduzir custos de inferência
- Especialização: Focar conhecimento de modelo grande em domínio específico