Guia de Datasets
Seu dataset é o fator mais importante no sucesso do treinamento. Um dataset pequeno e de alta qualidade supera um massivo e ruidoso sempre.O Problema do Tamanho do Dataset
Por Que Isso Acontece?
Pense assim:- Modelo pequeno = Cérebro pequeno = Só pode memorizar tanto
- Dataset grande = Muita informação
- Resultado = Modelo apenas memoriza exemplos em vez de aprender padrões
gemma-3-270m no dataset completo do Alpaca (52k exemplos):
- Modelo memoriza: “Quando perguntado sobre a capital da França, diga Paris”
- Mas não aprende: “Como responder perguntas de geografia em geral”
Como Corrigir
Use--max-samples no assistente:
Formatos de Dataset
O assistente detecta automaticamente o formato do seu dataset.Formato Alpaca (Mais Comum)
instruction, input (opcional), output
Bom para: Seguir instruções, Q&A, conclusão de tarefas
Formato ShareGPT / Conversação
Formato Messages (estilo OpenAI)
Formato Q&A
question/query/prompt + answer/response
Bom para: Questionamento simples
Formato DPO (Treinamento de Preferência)
Texto Simples
Detecção Automática de Formato
O assistente analisa seu dataset e sugere conversão:O Que a Conversão Faz
- Normaliza seus dados para um formato padrão
- Aplica o template de chat correto para seu modelo
- Lida com tokens especiais adequadamente
Usando Dados Locais
Arquivos CSV
Crie um CSV com seus exemplos:Arquivos JSON/JSONL
Crie um arquivo.jsonl (um objeto JSON por linha):
Estrutura de Pasta
Coloque todos os seus arquivos em uma pasta:Dicas de Qualidade de Dataset
Qualidade > Quantidade
Qualidade > Quantidade
500 exemplos de alta qualidade superam 50.000 medíocres. Cada exemplo deve ser:
- Preciso e correto
- Bem formatado
- Representativo do que você quer que o modelo faça
Diversidade importa
Diversidade importa
Inclua exemplos variados:
- Diferentes tópicos
- Diferentes comprimentos
- Diferentes estilos
- Casos extremos
Combine com seu caso de uso
Combine com seu caso de uso
Se você quer um bot de suporte ao cliente, treine em conversas de suporte ao cliente.
Se você quer um assistente de código, treine em exemplos de código.
Não treine em dados gerais e espere habilidades específicas.
Limpe seus dados
Limpe seus dados
Remova:
- Duplicatas
- Exemplos quebrados
- Formatação inconsistente
- Respostas de baixa qualidade
Balance suas classes
Balance suas classes
Se você tem categorias, tente ter números similares de cada uma.
1000 exemplos da categoria A + 50 exemplos da categoria B = modelo ignora B.
Datasets Populares
Para Aprendizado/Testes
| Dataset | Tamanho | Formato | Melhor Para |
|---|---|---|---|
tatsu-lab/alpaca | 52k | Alpaca | Seguir instruções geral |
databricks/databricks-dolly-15k | 15k | Alpaca | Tarefas de negócios/profissionais |
OpenAssistant/oasst1 | 10k+ | Conversação | Comportamento de assistente útil |
Para Tarefas Específicas
| Dataset | Tamanho | Formato | Melhor Para |
|---|---|---|---|
sahil2801/CodeAlpaca-20k | 20k | Alpaca | Geração de código |
WizardLM/WizardLM_evol_instruct_70k | 70k | Alpaca | Raciocínio complexo |
timdettmers/openassistant-guanaco | 9k | Conversação | Chat útil |
Para Treinamento de Preferência (DPO/ORPO)
| Dataset | Tamanho | Formato | Melhor Para |
|---|---|---|---|
Anthropic/hh-rlhf | 170k | DPO | Útil e inofensivo |
argilla/ultrafeedback-binarized-preferences | 60k | DPO | Preferências gerais |
Splits de Treino/Validação
O Que São
- Train split: Dados dos quais o modelo aprende
- Validation split: Dados para verificar se o modelo está aprendendo (não memorizando)
Quando Usar Validação
Use um split de validação se:- Você tem 1.000+ exemplos
- Você quer detectar overfitting
- Você está experimentando com hiperparâmetros
- Você tem < 500 exemplos (cada exemplo importa)
- Você está fazendo uma execução de teste rápida
- Você vai avaliar separadamente após o treinamento
Configurando Splits no Assistente
Limitando o Tamanho do Dataset
Para testes ou para prevenir overfitting:- Primeira execução de treinamento: Use 100-500 amostras para verificar se tudo funciona
- Modelo pequeno: Limite a 1.000-5.000 para modelos de 270M-1B
- Iteração rápida: Teste configurações diferentes com dados menores