Saltar al contenido principal

Entendiendo Tipos de Modelos

Diferentes tareas de IA requieren diferentes arquitecturas de modelos. Piensa en ello como elegir la herramienta correcta para el trabajo - no usarías un martillo para pintar una pared.

Language Models (LLMs)

Los modelos más versátiles que entienden y generan lenguaje humano.

Qué Hacen

Los modelos de lenguaje pueden:
  • Responder preguntas
  • Escribir contenido
  • Traducir idiomas
  • Resumir texto
  • Generar código
  • Seguir instrucciones

Modelos Comunes

ModeloTamañoBueno ParaTiempo de Entrenamiento
GPT-2124M-1.5BPunto de partida, experimentos rápidosMinutos a horas
BERT110M-340MEntender texto, clasificaciónHoras
T560M-11BTareas texto-para-textoHoras a días
LLaMA7B-70BPropósito general, chatDías a semanas
Mistral7BRendimiento eficiente y equilibradoHoras a días

Cuándo Usar

Elige modelos de lenguaje cuando necesites:
  • Entendimiento de lenguaje natural
  • Generación de texto
  • Respuesta a preguntas
  • IA conversacional
  • Generación de código

Modelos de Clasificación

Especializados para clasificar cosas en categorías.

Text Classification

Categoriza texto en grupos predefinidos:
  • Análisis de sentimiento (positivo/negativo)
  • Clasificación de temas
  • Detección de intención
  • Detección de idioma
Mejores modelos: BERT, DistilBERT, RoBERTa

Image Classification

Identifica qué hay en una imagen:
  • Reconocimiento de objetos
  • Diagnóstico médico
  • Control de calidad
  • Moderación de contenido
Mejores modelos: ResNet, EfficientNet, Vision Transformer (ViT)

Multimodal Classification

Maneja tanto texto como imágenes:
  • Entendimiento de memes
  • Análisis de documentos
  • Categorización de productos
Mejores modelos: CLIP, LayoutLM, ALIGN

Token Classification

Etiqueta palabras individuales o tokens en texto.

Named Entity Recognition (NER)

Encuentra y etiqueta información específica:
  • Nombres de personas, lugares, organizaciones
  • Fechas y horas
  • Nombres de productos
  • Términos médicos

Part-of-Speech Tagging

Identifica roles gramaticales:
  • Sustantivos, verbos, adjetivos
  • Análisis de estructura de oraciones
Mejores modelos: BERT-NER, RoBERTa-token, SpaCy transformers

Sequence-to-Sequence

Transforma una secuencia en otra.

Translation

Convierte texto entre idiomas:
  • Traducción de documentos
  • Traducción de chat en tiempo real
  • Traducción de código

Summarization

Condensa texto largo:
  • Resúmenes de artículos
  • Notas de reuniones
  • Resúmenes de informes

Question Answering

Extrae respuestas del contexto:
  • Atención al cliente
  • Q&A de documentos
  • Herramientas educativas
Mejores modelos: T5, BART, mT5 (multilingüe)

Modelos de Computer Vision

Procesan y entienden imágenes.

Object Detection

Encuentra y localiza objetos en imágenes:
  • Bounding boxes alrededor de objetos
  • Contar elementos
  • Rastrear movimiento
Mejores modelos: YOLO, Faster R-CNN, DETR

Image Segmentation

Entendimiento a nivel de píxel:
  • Imágenes médicas
  • Conducción autónoma
  • Edición de fotos
Mejores modelos: U-Net, Mask R-CNN, SAM

Image Generation

Crea nuevas imágenes:
  • Generación de arte
  • Visualización de productos
  • Aumento de datos
Mejores modelos: Stable Diffusion, DALL-E, Midjourney

Modelos Tabulares

Trabajan con datos estructurados como hojas de cálculo.

Regression

Predice valores continuos:
  • Predicción de precios
  • Pronóstico de ventas
  • Puntuación de riesgo

Classification

Categoriza filas:
  • Churn de clientes
  • Detección de fraude
  • Diagnóstico de enfermedades
Mejores modelos: XGBoost, CatBoost, TabNet

Eligiendo el Modelo Correcto

Considera Tus Datos

Tipo de DatoModelos Recomendados
Texto corto (< 512 tokens)BERT, DistilBERT
Texto largo (> 512 tokens)Longformer, BigBird
ConversacionesDialoGPT, Blenderbot
CódigoCodeBERT, CodeT5
Múltiples idiomasmBERT, XLM-RoBERTa
ImágenesResNet, EfficientNet
Imágenes + TextoCLIP, ALIGN
Datos estructuradosXGBoost, CatBoost

Considera Tus Recursos

Recursos Limitados (< 8GB GPU)
  • DistilBERT (66M parámetros)
  • MobileBERT (25M parámetros)
  • TinyBERT (15M parámetros)
Recursos Moderados (8-16GB GPU)
  • BERT-base (110M parámetros)
  • GPT-2 small (124M parámetros)
  • RoBERTa-base (125M parámetros)
Buenos Recursos (24GB+ GPU)
  • GPT-2 large (774M parámetros)
  • T5-large (770M parámetros)
  • LLaMA 7B (7B parámetros)

Considera Tus Necesidades de Precisión

Velocidad sobre precisión
  • Usa modelos destilados (DistilBERT, DistilGPT-2)
  • Arquitecturas más pequeñas
  • Modelos cuantizados
Precisión sobre velocidad
  • Usa modelos más grandes
  • Ensemble de múltiples modelos
  • Tiempos de entrenamiento más largos

Tamaños de Modelos y Trade-offs

Conteo de Parámetros

Los parámetros son las partes ajustables de un modelo. Más parámetros generalmente significan:
  • Mejor entendimiento
  • Mayor precisión
  • Más memoria necesaria
  • Inferencia más lenta

Directrices de Tamaño

TamañoParámetrosCaso de UsoDatos de Entrenamiento Necesarios
Tiny< 50MApps móviles, tiempo real100s ejemplos
Small50M-150MAplicaciones estándar1000s ejemplos
Base150M-500MSistemas de producción10,000s ejemplos
Large500M-3BNecesidades de alta precisión100,000s ejemplos
XL3B+State-of-the-artMillones ejemplos

Pre-entrenado vs Desde Cero

Usa Modelos Pre-entrenados

99% del tiempo, comienza con un modelo pre-entrenado:
  • Ya entiende lenguaje/imágenes
  • Necesita menos datos de entrenamiento
  • Más rápido de entrenar
  • Mejores resultados

Entrena Desde Cero Solo Cuando

  • Trabajas con tipos de datos únicos
  • Dominio especial (médico, legal)
  • Arquitecturas personalizadas
  • Propósitos de investigación

Estrategias de Fine-tuning

Full Fine-tuning

Actualiza todos los parámetros del modelo:
  • Mejor precisión
  • Necesita más memoria
  • Riesgo de overfitting

LoRA (Low-Rank Adaptation)

Actualiza solo pequeños adaptadores:
  • 90% menos memoria
  • Entrenamiento más rápido
  • Precisión ligeramente menor
  • Perfecto para modelos grandes

Prompt Tuning

Entrena solo embeddings de prompt:
  • Memoria mínima
  • Muy rápido
  • Bueno para few-shot learning

Estrategias de Freeze

Congela algunas capas:
  • Freeze early layers: Mantiene características generales
  • Freeze late layers: Mantiene características específicas de tarea
  • Gradual unfreezing: Comienza congelado, descongela lentamente

Modelos Multi-tarea

Algunos modelos pueden manejar múltiples tareas:

Familia T5

  • Resumen de texto
  • Traducción
  • Respuesta a preguntas
  • Clasificación
Solo cambia el prefijo del prompt:
  • “summarize: …”
  • “translate English to French: …”
  • “question: … context: …”

Modelos FLAN

Pre-entrenados en muchas tareas:
  • Mejor rendimiento zero-shot
  • Más flexibles
  • Buen seguimiento de instrucciones

Arquitecturas Especializadas

Transformers

El estándar actual:
  • Procesamiento paralelo
  • Dependencias de largo alcance
  • La mayoría de modelos modernos

CNNs (Convolutional Neural Networks)

Todavía geniales para imágenes:
  • Eficientes
  • Bien entendidos
  • Buenos para dispositivos edge

RNNs (Recurrent Neural Networks)

Más antiguos pero todavía útiles:
  • Datos secuenciales
  • Series temporales
  • Aplicaciones streaming

Escucha: Más Allá de LLMs - Una Inmersión Profunda

Una conversación de 45 minutos sobre tipos de modelos más allá de modelos de lenguaje, cubriendo visión, tabular y arquitecturas especializadas.

Próximos Pasos

¿Listo para comenzar a entrenar?