Treinando Seu Primeiro LLM com SFT
Este tutorial leva você através de cada etapa do assistente para treinar um modelo de linguagem usando Supervised Fine-Tuning (SFT). SFT é a forma mais comum de ensinar um modelo a seguir instruções.Antes de Começar
Certifique-se de ter:- AITraining instalado (
pip install aitraining) - Pelo menos 8GB de RAM (16GB recomendado)
- Uma GPU é útil mas não obrigatória (Apple Silicon funciona muito bem!)
Etapa 0: Iniciar o Assistente
Etapa 1: Escolher Tipo de Trainer
1 e pressione Enter para selecionar treinamento LLM.
Etapa 2: Escolher Método de Treinamento
1 e pressione Enter para selecionar SFT.
default e sft são idênticos - eles usam o mesmo código de treinamento. default é apenas o fallback se nenhum trainer for especificado.O Que Isso Significa?
| Trainer | Quando Usar |
|---|---|
| SFT / default | Ensinar o modelo a seguir instruções. Você tem exemplos de boas respostas. Comece aqui! |
| DPO | Você tem pares de respostas boas vs ruins para o mesmo prompt |
| ORPO | Como DPO mas funciona com menos dados |
| PPO | Avançado: usando um modelo de recompensa para pontuar respostas |
| Reward | Treinar um modelo de recompensa para pontuar saídas (usado com PPO) |
| Distillation | Transferir conhecimento de um modelo professor maior para um estudante menor |
Etapa 3: Nome do Projeto
my-first-chatbot ou pressione Enter para aceitar o padrão.
Etapa 4: Seleção de Modelo
Esta é a etapa mais importante. O assistente mostra modelos em alta do HuggingFace:Escolhendo o Tamanho Correto do Modelo
Tenho um MacBook (8-16GB RAM)
Tenho um MacBook (8-16GB RAM)
Use
/filter depois S para modelos pequenos.Recomendado: google/gemma-3-270m ou meta-llama/Llama-3.2-1BEstes treinarão em 15-30 minutos no Apple Silicon.Tenho um PC gamer (RTX 3060/3070, 8-12GB VRAM)
Tenho um PC gamer (RTX 3060/3070, 8-12GB VRAM)
Use
/filter depois S ou M.Recomendado: google/gemma-2-2b ou meta-llama/Llama-3.2-3BHabilite quantização depois para modelos maiores.Tenho uma estação de trabalho (RTX 3090/4090, 24GB+ VRAM)
Tenho uma estação de trabalho (RTX 3090/4090, 24GB+ VRAM)
Qualquer modelo até 10B funciona bem.Recomendado:
meta-llama/Llama-3.2-8B ou mistralai/Mistral-7B-v0.3Tenho uma GPU na nuvem (A100, H100)
Tenho uma GPU na nuvem (A100, H100)
Vá em frente!Recomendado:
meta-llama/Llama-3.1-70B com quantizaçãoModelo Base vs Instruction-Tuned
Ao selecionar um modelo, você verá dois tipos:| Nome do Modelo | Tipo | Quando Usar |
|---|---|---|
google/gemma-2-2b | Base (pré-treinado) | Propósito geral, aprende seu estilo específico |
google/gemma-2-2b-it | Instruction-tuned (IT) | Já segue instruções, ajuste fino adicional |
meta-llama/Llama-3.2-1B | Base | Tela limpa para seu caso de uso |
meta-llama/Llama-3.2-1B-Instruct | Instruction-tuned | Já útil, refine-o |
Regra geral: Use modelos base se quiser controle total. Use instruction-tuned (
-it, -Instruct) se quiser uma vantagem inicial.Selecionando Seu Modelo
Opção A: Digite um número para selecionar da lista:Etapa 5: Configuração do Dataset
Entendendo o Tamanho do Dataset
Opções de Seleção de Dataset
Use um dataset pré-construído (mais fácil):Análise de Formato do Dataset
O assistente analisa automaticamente seu dataset:y para habilitar conversão automática. Isso garante que seus dados funcionem corretamente com o template de chat do modelo.
Splits de Treino/Validação
train.
validation, test), insira aqui. Caso contrário, pressione Enter para pular.
Máximo de Amostras (Teste)
Etapa 6: Configuração Avançada (Opcional)
Quando Configurar Opções Avançadas
| Situação | O Que Mudar |
|---|---|
| Treinamento muito lento | Habilite LoRA (peft=True) para reduzir memória |
| Sem memória | Reduza batch_size ou habilite quantização |
| Modelo não está aprendendo | Ajuste lr (taxa de aprendizado) |
| Quer acompanhar treinamento | Habilite logging W&B |
Etapa 7: Revisar e Iniciar
O Que Acontece Depois
- O modelo é baixado (apenas na primeira vez)
- O dataset carrega e converte
- O treinamento começa com atualizações de progresso
- O painel W&B LEET mostra métricas em tempo real (se habilitado)
- Seu modelo treinado é salvo na pasta do projeto
Testando Seu Modelo
Após o treinamento completar:http://localhost:7860/inference e carregue seu modelo de ./my-first-chatbot para testá-lo!
Problemas Comuns
Erro de falta de memória
Erro de falta de memória
- Use um modelo menor (filtrar por tamanho)
- Habilite LoRA nas opções avançadas
- Reduza o tamanho do batch
- Habilite quantização (
int4)
Modelo não está aprendendo (loss permanece alto)
Modelo não está aprendendo (loss permanece alto)
- Verifique o formato do seu dataset
- Tente uma taxa de aprendizado maior
- Certifique-se de que seus dados têm as colunas corretas
Treinamento muito lento
Treinamento muito lento
- Habilite precisão mista (
bf16) nas opções avançadas - Use um dataset menor primeiro
- Habilite LoRA