Treinando Seu Primeiro LLM com SFT
Este tutorial leva você através de cada etapa do assistente para treinar um modelo de linguagem usando Supervised Fine-Tuning (SFT). SFT é a forma mais comum de ensinar um modelo a seguir instruções.Antes de Começar
Certifique-se de ter:- AITraining instalado (
pip install aitraining) - Pelo menos 8GB de RAM (16GB recomendado)
- Uma GPU é útil mas não obrigatória (Apple Silicon funciona muito bem!)
Etapa 0: Iniciar o Assistente
Etapa 1: Escolher Tipo de Trainer
1 e pressione Enter para selecionar treinamento LLM.
Etapa 2: Escolher Método de Treinamento
1 e pressione Enter para selecionar SFT.
default e sft são idênticos - eles usam o mesmo código de treinamento. default é apenas o fallback se nenhum trainer for especificado.O Que Isso Significa?
| Trainer | Quando Usar |
|---|---|
| SFT / default | Ensinar o modelo a seguir instruções. Você tem exemplos de boas respostas. Comece aqui! |
| DPO | Você tem pares de respostas boas vs ruins para o mesmo prompt |
| ORPO | Como DPO mas funciona com menos dados |
| PPO | Avançado: usando um modelo de recompensa para pontuar respostas |
| Reward | Treinar um modelo de recompensa para pontuar saídas (usado com PPO) |
| Distillation | Transferir conhecimento de um modelo professor maior para um estudante menor |
Etapa 3: Nome do Projeto
my-first-chatbot ou pressione Enter para aceitar o padrão.
Etapa 4: Seleção de Modelo
Esta é a etapa mais importante. O assistente mostra modelos em alta do HuggingFace:Escolhendo o Tamanho Correto do Modelo
Tenho um MacBook (8-16GB RAM)
Tenho um MacBook (8-16GB RAM)
Use
/filter depois S para modelos pequenos.Recomendado: google/gemma-3-270m ou meta-llama/Llama-3.2-1BEstes treinarão em 15-30 minutos no Apple Silicon.Tenho um PC gamer (RTX 3060/3070, 8-12GB VRAM)
Tenho um PC gamer (RTX 3060/3070, 8-12GB VRAM)
Use
/filter depois S ou M.Recomendado: google/gemma-2-2b ou meta-llama/Llama-3.2-3BHabilite quantização depois para modelos maiores.Tenho uma estação de trabalho (RTX 3090/4090, 24GB+ VRAM)
Tenho uma estação de trabalho (RTX 3090/4090, 24GB+ VRAM)
Qualquer modelo até 10B funciona bem.Recomendado:
meta-llama/Llama-3.2-8B ou mistralai/Mistral-7B-v0.3Tenho uma GPU na nuvem (A100, H100)
Tenho uma GPU na nuvem (A100, H100)
Vá em frente!Recomendado:
meta-llama/Llama-3.1-70B com quantizaçãoModelo Base vs Instruction-Tuned
Ao selecionar um modelo, você verá dois tipos:| Nome do Modelo | Tipo | Quando Usar |
|---|---|---|
google/gemma-2-2b | Base (pré-treinado) | Propósito geral, aprende seu estilo específico |
google/gemma-2-2b-it | Instruction-tuned (IT) | Já segue instruções, ajuste fino adicional |
meta-llama/Llama-3.2-1B | Base | Tela limpa para seu caso de uso |
meta-llama/Llama-3.2-1B-Instruct | Instruction-tuned | Já útil, refine-o |
Regra geral: Use modelos base se quiser controle total. Use instruction-tuned (
-it, -Instruct) se quiser uma vantagem inicial.Selecionando Seu Modelo
Opção A: Digite um número para selecionar da lista:Etapa 5: Configuração do Dataset
Entendendo o Tamanho do Dataset
Opções de Seleção de Dataset
Use um dataset pré-construído (mais fácil):Análise de Formato do Dataset
O assistente analisa automaticamente seu dataset:y para habilitar conversão automática. Isso garante que seus dados funcionem corretamente com o template de chat do modelo.
Splits de Treino/Validação
train.
validation, test), insira aqui. Caso contrário, pressione Enter para pular.
Máximo de Amostras (Teste)
Etapa 6: Configuração Avançada (Opcional)
Quando Configurar Opções Avançadas
| Situação | O Que Mudar |
|---|---|
| Treinamento muito lento | Habilite LoRA (peft=True) para reduzir memória |
| Sem memória | Reduza batch_size ou habilite quantização |
| Modelo não está aprendendo | Ajuste lr (taxa de aprendizado) |
| Quer acompanhar treinamento | Habilite logging W&B |
Etapa 7: Revisar e Iniciar
O Que Acontece Depois
- O modelo é baixado (apenas na primeira vez)
- O dataset carrega e converte
- O treinamento começa com atualizações de progresso
- O painel W&B LEET mostra métricas em tempo real (se habilitado)
- Seu modelo treinado é salvo na pasta do projeto
Testando Seu Modelo
Após o treinamento completar:http://localhost:7860/inference e carregue seu modelo de ./my-first-chatbot para testá-lo!
Problemas Comuns
Erro de falta de memória
Erro de falta de memória
- Use um modelo menor (filtrar por tamanho)
- Habilite LoRA nas opções avançadas
- Reduza o tamanho do batch
- Habilite quantização (
int4)
Modelo não está aprendendo (loss permanece alto)
Modelo não está aprendendo (loss permanece alto)
- Verifique o formato do seu dataset
- Tente uma taxa de aprendizado maior
- Certifique-se de que seus dados têm as colunas corretas
Treinamento muito lento
Treinamento muito lento
- Habilite precisão mista (
bf16) nas opções avançadas - Use um dataset menor primeiro
- Habilite LoRA
Próximos Passos
Entendendo Modelos
Mergulho profundo na seleção de modelos
Guia de Datasets
Prepare seus próprios dados de treinamento
Treinamento DPO
Treine com dados de preferência
Eficiência LoRA
Treine modelos grandes em hardware limitado