Guía de Datasets
Tu dataset es el factor más importante en el éxito del entrenamiento. Un dataset pequeño y de alta calidad supera a uno masivo y ruidoso siempre.El Problema del Tamaño del Dataset
¿Por Qué Sucede Esto?
Piénsalo así:- Modelo pequeño = Cerebro pequeño = Solo puede memorizar tanto
- Dataset grande = Mucha información
- Resultado = El modelo solo memoriza ejemplos en lugar de aprender patrones
gemma-3-270m en el dataset completo de Alpaca (52k ejemplos):
- El modelo memoriza: “Cuando se pregunta sobre la capital de Francia, di París”
- Pero no aprende: “Cómo responder preguntas de geografía en general”
Cómo Corregirlo
Usa--max-samples en el asistente:
Formatos de Dataset
El asistente detecta automáticamente el formato de tu dataset.Formato Alpaca (Más Común)
instruction, input (opcional), output
Bueno para: Seguir instrucciones, Q&A, completar tareas
Formato ShareGPT / Conversación
Formato Messages (estilo OpenAI)
Formato Q&A
question/query/prompt + answer/response
Bueno para: Preguntas y respuestas simples
Formato DPO (Entrenamiento de Preferencia)
Texto Plano
Detección Automática de Formato
El asistente analiza tu dataset y sugiere conversión:Qué Hace la Conversión
- Normaliza tus datos a un formato estándar
- Aplica el template de chat correcto para tu modelo
- Maneja tokens especiales adecuadamente
Usando Datos Locales
Archivos CSV
Crea un CSV con tus ejemplos:Archivos JSON/JSONL
Crea un archivo.jsonl (un objeto JSON por línea):
Estructura de Carpeta
Coloca todos tus archivos en una carpeta:Consejos de Calidad de Dataset
Calidad > Cantidad
Calidad > Cantidad
500 ejemplos de alta calidad superan 50,000 mediocres. Cada ejemplo debe ser:
- Preciso y correcto
- Bien formateado
- Representativo de lo que quieres que el modelo haga
La diversidad importa
La diversidad importa
Incluye ejemplos variados: - Diferentes temas - Diferentes longitudes -
Diferentes estilos - Casos extremos
Combina con tu caso de uso
Combina con tu caso de uso
Si quieres un bot de soporte al cliente, entrena en conversaciones de soporte
al cliente. Si quieres un asistente de código, entrena en ejemplos de código.
No entrenes en datos generales y esperes habilidades específicas.
Limpia tus datos
Limpia tus datos
Elimina: - Duplicados - Ejemplos rotos - Formato inconsistente - Respuestas de
baja calidad
Balancea tus clases
Balancea tus clases
Si tienes categorías, trata de tener números similares de cada una.
1000 ejemplos de categoría A + 50 ejemplos de categoría B = el modelo ignora B.
Datasets Populares
Para Aprendizaje/Pruebas
| Dataset | Tamaño | Formato | Mejor Para |
|---|---|---|---|
tatsu-lab/alpaca | 52k | Alpaca | Seguir instrucciones general |
databricks/databricks-dolly-15k | 15k | Alpaca | Tareas de negocio/profesionales |
OpenAssistant/oasst1 | 10k+ | Conversación | Comportamiento de asistente útil |
Para Tareas Específicas
| Dataset | Tamaño | Formato | Mejor Para |
|---|---|---|---|
sahil2801/CodeAlpaca-20k | 20k | Alpaca | Generación de código |
WizardLM/WizardLM_evol_instruct_70k | 70k | Alpaca | Razonamiento complejo |
timdettmers/openassistant-guanaco | 9k | Conversación | Chat útil |
Para Entrenamiento de Preferencia (DPO/ORPO)
| Dataset | Tamaño | Formato | Mejor Para |
|---|---|---|---|
Anthropic/hh-rlhf | 170k | DPO | Útil e inofensivo |
argilla/ultrafeedback-binarized-preferences | 60k | DPO | Preferencias generales |
Splits de Entrenamiento/Validación
Qué Son
- Train split: Datos de los que el modelo aprende
- Validation split: Datos para verificar si el modelo está aprendiendo (no memorizando)
Cuándo Usar Validación
Usa un split de validación si:- Tienes 1,000+ ejemplos
- Quieres detectar overfitting
- Estás experimentando con hiperparámetros
- Tienes < 500 ejemplos (cada ejemplo importa)
- Estás haciendo una ejecución de prueba rápida
- Evaluarás por separado después del entrenamiento
Configurando Splits en el Asistente
Limitando el Tamaño del Dataset
Para pruebas o para prevenir overfitting:- Primera ejecución de entrenamiento: Usa 100-500 muestras para verificar que todo funciona
- Modelo pequeño: Limita a 1,000-5,000 para modelos de 270M-1B
- Iteración rápida: Prueba diferentes configuraciones con datos más pequeños