加载模型

聊天界面可以从本地路径或 Hugging Face 加载模型。

加载本地模型

使用 AITraining 训练后，您的模型会保存在本地。要加载它：

找到您的模型路径（例如：./my-project/）
在模型选择器中输入路径
点击 “Load Model”

Model path: ./my-project

需要查找的内容

您训练好的模型目录应包含：

config.json - 模型配置
model.safetensors 或 pytorch_model.bin - 模型权重
tokenizer.json 和相关 tokenizer 文件

从 Hugging Face 加载

从 Hugging Face Hub 加载任何兼容的模型：

Model path: meta-llama/Llama-3.2-1B

热门模型：

meta-llama/Llama-3.2-1B - 小型、快速的 Llama
mistralai/Mistral-7B-v0.1 - 高效的 7B 模型
google/gemma-2b - Google 的 Gemma

大型模型需要大量 GPU 内存。7B 模型需要 ~14GB VRAM。

加载 LoRA 适配器

PEFT/LoRA 模型会被自动检测并正确加载。只需提供适配器目录的路径：

Model path: ./my-lora-model

聊天界面会自动：

检测 adapter_config.json 文件
加载适配器配置中指定的基础模型
应用 LoRA 适配器

如果您使用 --merge-adapter（默认）进行训练，您的模型已经合并，可以像任何标准模型一样加载。

内存要求

模型大小	大约 VRAM
1B	~2GB
3B	~6GB
7B	~14GB
13B	~26GB

使用量化模型 (int4/int8) 可将内存减少 2-4 倍。

切换模型

要切换到不同的模型：

输入新的模型路径
点击 “Load Model”
之前的模型会被卸载

注意：切换模型时，对话历史会被清除。

故障排除

找不到模型

检查：

路径是否正确且存在
对于 HuggingFace 模型，检查模型 ID
确保您有访问权限（某些模型需要身份验证）

内存不足

尝试：

更小的模型
量化版本
关闭其他使用 GPU 的应用程序

加载缓慢

首次加载会下载模型权重。后续加载会更快。大型模型 (7B+) 需要 30-60 秒加载。

入门

使用 Chat

加载模型

加载模型

加载本地模型

需要查找的内容

从 Hugging Face 加载

加载 LoRA 适配器

内存要求

切换模型

故障排除

下一步

对话

参数

入门

使用 Chat

​加载模型

​加载本地模型

​需要查找的内容

​从 Hugging Face 加载

​加载 LoRA 适配器

​内存要求

​切换模型

​故障排除

​下一步

对话

参数

加载模型

加载本地模型

需要查找的内容

从 Hugging Face 加载

加载 LoRA 适配器

内存要求

切换模型

故障排除

下一步