Entendiendo Tipos de Modelos
Diferentes tareas de IA requieren diferentes arquitecturas de modelos. Piensa en ello como elegir la herramienta correcta para el trabajo - no usarías un martillo para pintar una pared.Language Models (LLMs)
Los modelos más versátiles que entienden y generan lenguaje humano.Qué Hacen
Los modelos de lenguaje pueden:- Responder preguntas
- Escribir contenido
- Traducir idiomas
- Resumir texto
- Generar código
- Seguir instrucciones
Modelos Comunes
| Modelo | Tamaño | Bueno Para | Tiempo de Entrenamiento |
|---|---|---|---|
| GPT-2 | 124M-1.5B | Punto de partida, experimentos rápidos | Minutos a horas |
| BERT | 110M-340M | Entender texto, clasificación | Horas |
| T5 | 60M-11B | Tareas texto-para-texto | Horas a días |
| LLaMA | 7B-70B | Propósito general, chat | Días a semanas |
| Mistral | 7B | Rendimiento eficiente y equilibrado | Horas a días |
Cuándo Usar
Elige modelos de lenguaje cuando necesites:- Entendimiento de lenguaje natural
- Generación de texto
- Respuesta a preguntas
- IA conversacional
- Generación de código
Modelos de Clasificación
Especializados para clasificar cosas en categorías.Text Classification
Categoriza texto en grupos predefinidos:- Análisis de sentimiento (positivo/negativo)
- Clasificación de temas
- Detección de intención
- Detección de idioma
Image Classification
Identifica qué hay en una imagen:- Reconocimiento de objetos
- Diagnóstico médico
- Control de calidad
- Moderación de contenido
Multimodal Classification
Maneja tanto texto como imágenes:- Entendimiento de memes
- Análisis de documentos
- Categorización de productos
Token Classification
Etiqueta palabras individuales o tokens en texto.Named Entity Recognition (NER)
Encuentra y etiqueta información específica:- Nombres de personas, lugares, organizaciones
- Fechas y horas
- Nombres de productos
- Términos médicos
Part-of-Speech Tagging
Identifica roles gramaticales:- Sustantivos, verbos, adjetivos
- Análisis de estructura de oraciones
Sequence-to-Sequence
Transforma una secuencia en otra.Translation
Convierte texto entre idiomas:- Traducción de documentos
- Traducción de chat en tiempo real
- Traducción de código
Summarization
Condensa texto largo:- Resúmenes de artículos
- Notas de reuniones
- Resúmenes de informes
Question Answering
Extrae respuestas del contexto:- Atención al cliente
- Q&A de documentos
- Herramientas educativas
Modelos de Computer Vision
Procesan y entienden imágenes.Object Detection
Encuentra y localiza objetos en imágenes:- Bounding boxes alrededor de objetos
- Contar elementos
- Rastrear movimiento
Image Segmentation
Entendimiento a nivel de píxel:- Imágenes médicas
- Conducción autónoma
- Edición de fotos
Image Generation
Crea nuevas imágenes:- Generación de arte
- Visualización de productos
- Aumento de datos
Modelos Tabulares
Trabajan con datos estructurados como hojas de cálculo.Regression
Predice valores continuos:- Predicción de precios
- Pronóstico de ventas
- Puntuación de riesgo
Classification
Categoriza filas:- Churn de clientes
- Detección de fraude
- Diagnóstico de enfermedades
Eligiendo el Modelo Correcto
Considera Tus Datos
| Tipo de Dato | Modelos Recomendados |
|---|---|
| Texto corto (< 512 tokens) | BERT, DistilBERT |
| Texto largo (> 512 tokens) | Longformer, BigBird |
| Conversaciones | DialoGPT, Blenderbot |
| Código | CodeBERT, CodeT5 |
| Múltiples idiomas | mBERT, XLM-RoBERTa |
| Imágenes | ResNet, EfficientNet |
| Imágenes + Texto | CLIP, ALIGN |
| Datos estructurados | XGBoost, CatBoost |
Considera Tus Recursos
Recursos Limitados (< 8GB GPU)- DistilBERT (66M parámetros)
- MobileBERT (25M parámetros)
- TinyBERT (15M parámetros)
- BERT-base (110M parámetros)
- GPT-2 small (124M parámetros)
- RoBERTa-base (125M parámetros)
- GPT-2 large (774M parámetros)
- T5-large (770M parámetros)
- LLaMA 7B (7B parámetros)
Considera Tus Necesidades de Precisión
Velocidad sobre precisión- Usa modelos destilados (DistilBERT, DistilGPT-2)
- Arquitecturas más pequeñas
- Modelos cuantizados
- Usa modelos más grandes
- Ensemble de múltiples modelos
- Tiempos de entrenamiento más largos
Tamaños de Modelos y Trade-offs
Conteo de Parámetros
Los parámetros son las partes ajustables de un modelo. Más parámetros generalmente significan:- Mejor entendimiento
- Mayor precisión
- Más memoria necesaria
- Inferencia más lenta
Directrices de Tamaño
| Tamaño | Parámetros | Caso de Uso | Datos de Entrenamiento Necesarios |
|---|---|---|---|
| Tiny | < 50M | Apps móviles, tiempo real | 100s ejemplos |
| Small | 50M-150M | Aplicaciones estándar | 1000s ejemplos |
| Base | 150M-500M | Sistemas de producción | 10,000s ejemplos |
| Large | 500M-3B | Necesidades de alta precisión | 100,000s ejemplos |
| XL | 3B+ | State-of-the-art | Millones ejemplos |
Pre-entrenado vs Desde Cero
Usa Modelos Pre-entrenados
99% del tiempo, comienza con un modelo pre-entrenado:- Ya entiende lenguaje/imágenes
- Necesita menos datos de entrenamiento
- Más rápido de entrenar
- Mejores resultados
Entrena Desde Cero Solo Cuando
- Trabajas con tipos de datos únicos
- Dominio especial (médico, legal)
- Arquitecturas personalizadas
- Propósitos de investigación
Estrategias de Fine-tuning
Full Fine-tuning
Actualiza todos los parámetros del modelo:- Mejor precisión
- Necesita más memoria
- Riesgo de overfitting
LoRA (Low-Rank Adaptation)
Actualiza solo pequeños adaptadores:- 90% menos memoria
- Entrenamiento más rápido
- Precisión ligeramente menor
- Perfecto para modelos grandes
Prompt Tuning
Entrena solo embeddings de prompt:- Memoria mínima
- Muy rápido
- Bueno para few-shot learning
Estrategias de Freeze
Congela algunas capas:- Freeze early layers: Mantiene características generales
- Freeze late layers: Mantiene características específicas de tarea
- Gradual unfreezing: Comienza congelado, descongela lentamente
Modelos Multi-tarea
Algunos modelos pueden manejar múltiples tareas:Familia T5
- Resumen de texto
- Traducción
- Respuesta a preguntas
- Clasificación
- “summarize: …”
- “translate English to French: …”
- “question: … context: …”
Modelos FLAN
Pre-entrenados en muchas tareas:- Mejor rendimiento zero-shot
- Más flexibles
- Buen seguimiento de instrucciones
Arquitecturas Especializadas
Transformers
El estándar actual:- Procesamiento paralelo
- Dependencias de largo alcance
- La mayoría de modelos modernos
CNNs (Convolutional Neural Networks)
Todavía geniales para imágenes:- Eficientes
- Bien entendidos
- Buenos para dispositivos edge
RNNs (Recurrent Neural Networks)
Más antiguos pero todavía útiles:- Datos secuenciales
- Series temporales
- Aplicaciones streaming