Pular para o conteúdo principal

Carregando Modelos

A interface de chat pode carregar modelos de caminhos locais ou do Hugging Face.

Carregando um Modelo Local

Após treinar com AITraining, seu modelo é salvo localmente. Para carregá-lo:
  1. Encontre o caminho do seu modelo (ex.: ./my-project/)
  2. Digite o caminho no seletor de modelo
  3. Clique em “Load Model”
Model path: ./my-project

O Que Procurar

O diretório do seu modelo treinado deve conter:
  • config.json - Configuração do modelo
  • model.safetensors ou pytorch_model.bin - Pesos do modelo
  • tokenizer.json e arquivos relacionados do tokenizador

Carregando do Hugging Face

Carregue qualquer modelo compatível do Hugging Face Hub:
Model path: meta-llama/Llama-3.2-1B
Modelos populares:
  • meta-llama/Llama-3.2-1B - Llama pequeno e rápido
  • mistralai/Mistral-7B-v0.1 - Modelo 7B eficiente
  • google/gemma-2b - Gemma do Google
Modelos grandes requerem memória GPU significativa. Um modelo 7B precisa de ~14GB de VRAM.

Carregando Adaptadores LoRA

Modelos PEFT/LoRA são detectados automaticamente e carregados corretamente. Basta fornecer o caminho para o diretório do adaptador:
Model path: ./my-lora-model
A interface de chat automaticamente:
  1. Detecta o arquivo adapter_config.json
  2. Carrega o modelo base especificado na configuração do adaptador
  3. Aplica os adaptadores LoRA
Se você treinou com --merge-adapter (o padrão), seu modelo já está mesclado e carrega como qualquer modelo padrão.

Requisitos de Memória

Tamanho do ModeloVRAM Aproximada
1B~2GB
3B~6GB
7B~14GB
13B~26GB
Use modelos quantizados (int4/int8) para reduzir a memória em 2-4x.

Alternando Modelos

Para alternar para um modelo diferente:
  1. Digite o novo caminho do modelo
  2. Clique em “Load Model”
  3. O modelo anterior é descarregado
Nota: O histórico de conversa é limpo ao alternar modelos.

Solução de Problemas

Verifique:
  • O caminho está correto e existe
  • Para modelos HuggingFace, verifique o ID do modelo
  • Certifique-se de ter acesso (alguns modelos requerem autenticação)
Tente:
  • Modelo menor
  • Versão quantizada
  • Feche outros aplicativos que usam GPU
O primeiro carregamento baixa os pesos do modelo. Carregamentos subsequentes são mais rápidos. Modelos grandes (7B+) levam 30-60 segundos para carregar.

Próximos Passos