Saltar al contenido principal

Cargar Modelos

La interfaz de chat puede cargar modelos desde rutas locales o Hugging Face.

Cargar un Modelo Local

Después de entrenar con AITraining, tu modelo se guarda localmente. Para cargarlo:
  1. Encuentra la ruta de tu modelo (ej.: ./my-project/)
  2. Ingresa la ruta en el selector de modelo
  3. Haz clic en “Load Model”
Model path: ./my-project

Qué Buscar

El directorio de tu modelo entrenado debe contener:
  • config.json - Configuración del modelo
  • model.safetensors o pytorch_model.bin - Pesos del modelo
  • tokenizer.json y archivos relacionados del tokenizador

Cargar desde Hugging Face

Carga cualquier modelo compatible desde el Hugging Face Hub:
Model path: meta-llama/Llama-3.2-1B
Modelos populares:
  • meta-llama/Llama-3.2-1B - Llama pequeño y rápido
  • mistralai/Mistral-7B-v0.1 - Modelo 7B eficiente
  • google/gemma-2b - Gemma de Google
Los modelos grandes requieren memoria GPU significativa. Un modelo 7B necesita ~14GB de VRAM.

Cargar Adaptadores LoRA

Los modelos PEFT/LoRA se detectan automáticamente y se cargan correctamente. Simplemente proporciona la ruta a tu directorio de adaptador:
Model path: ./my-lora-model
La interfaz de chat automáticamente:
  1. Detecta el archivo adapter_config.json
  2. Carga el modelo base especificado en la configuración del adaptador
  3. Aplica los adaptadores LoRA
Si entrenaste con --merge-adapter (el predeterminado), tu modelo ya está fusionado y se carga como cualquier modelo estándar.

Requisitos de Memoria

Tamaño del ModeloVRAM Aproximada
1B~2GB
3B~6GB
7B~14GB
13B~26GB
Usa modelos cuantizados (int4/int8) para reducir la memoria en 2-4x.

Cambiar Modelos

Para cambiar a un modelo diferente:
  1. Ingresa la nueva ruta del modelo
  2. Haz clic en “Load Model”
  3. El modelo anterior se descarga
Nota: El historial de conversación se limpia al cambiar modelos.

Solución de Problemas

Verifica:
  • La ruta es correcta y existe
  • Para modelos HuggingFace, verifica el ID del modelo
  • Asegúrate de tener acceso (algunos modelos requieren autenticación)
Prueba:
  • Modelo más pequeño
  • Versión cuantizada
  • Cierra otras aplicaciones que usan GPU
La primera carga descarga los pesos del modelo. Las cargas posteriores son más rápidas. Los modelos grandes (7B+) tardan 30-60 segundos en cargar.

Próximos Pasos