选择正确的模型
您选择的模型会显著影响训练时间、质量和硬件要求。本指南帮助您做出正确选择。模型大小 vs 硬件
黄金法则:模型训练大约需要其参数数量 2 倍的 GB 内存。7B 模型完整训练需要
~14GB VRAM,或使用 LoRA 需要 ~8GB。
快速参考
| 您的硬件 | 最大模型大小 | 推荐模型 |
|---|---|---|
| MacBook Air M1 (8GB) | 500M - 1B | google/gemma-3-270m |
| MacBook Pro M2 (16GB) | 1B - 3B | google/gemma-2-2b、Llama-3.2-1B |
| MacBook Pro M3 Max (36-64GB) | 7B - 13B | Llama-3.2-8B、Mistral-7B |
| RTX 3060/3070 (8-12GB) | 1B - 3B | gemma-2-2b、Llama-3.2-3B |
| RTX 3090/4090 (24GB) | 7B - 13B | Llama-3.2-8B、Mistral-7B |
| A100 (40-80GB) | 30B - 70B | Llama-3.1-70B 带量化 |
内存估算公式
- 完整训练:7B × 16 = ~112GB(需要多 GPU)
- 使用 LoRA:7B × 2 + 2GB = ~16GB
- 使用 LoRA + int4:7B × 0.5 + 2GB = ~6GB
基础模型 vs 指令调优模型
这是您将做出的最重要决定之一。基础模型(预训练)
示例:google/gemma-2-2b、meta-llama/Llama-3.2-1B
它们是什么:在原始文本上训练以预测下一个词。它们了解语言但不知道如何提供帮助。
何时使用:
- 您有大量训练数据(10k+ 示例)
- 您想要完全控制模型行为
- 您正在为特定格式训练(非聊天)
- 您想创建自己的指令风格
指令调优模型(IT/Instruct)
示例:google/gemma-2-2b-it、meta-llama/Llama-3.2-1B-Instruct
它们是什么:已经训练过遵循指令并提供帮助的基础模型。
何时使用:
- 您的训练数据有限(100-5k 示例)
- 您想优化现有的有用行为
- 您正在构建聊天机器人或助手
- 您想用更少数据更快获得结果
决策矩阵
| 情况 | 使用基础 | 使用指令调优 |
|---|---|---|
| 少于 1k 示例 | ✓ | |
| 1k - 10k 示例 | 取决于 | ✓ |
| 10k+ 示例 | ✓ | |
| 聊天/助手用例 | ✓ | |
| 自定义格式(非聊天) | ✓ | |
| 特定领域(医疗、法律) | ✓ | ✓(两者都可以) |
| 代码生成 | ✓ | |
| 创意写作 | ✓ | ✓(两者都可以) |
模型系列
Google Gemma
版本:Gemma 2、Gemma 3| 模型 | 大小 | 最适合 |
|---|---|---|
google/gemma-3-270m | 270M | 测试、学习、CPU/Apple Silicon |
google/gemma-2-2b | 2B | 消费级 GPU,良好的质量/速度平衡 |
google/gemma-2-9b | 9B | 在良好硬件上高质量 |
google/gemma-2-27b | 27B | 最佳 Gemma 质量,需要强大硬件 |
-it 后缀获取指令调优版本
Meta Llama
版本:Llama 3.1、Llama 3.2| 模型 | 大小 | 最适合 |
|---|---|---|
meta-llama/Llama-3.2-1B | 1B | 移动设备、边缘设备 |
meta-llama/Llama-3.2-3B | 3B | 消费级硬件 |
meta-llama/Llama-3.1-8B | 8B | 通用目的,卓越质量 |
meta-llama/Llama-3.1-70B | 70B | 生产质量,需要云 GPU |
Mistral
| 模型 | 大小 | 最适合 |
|---|---|---|
mistralai/Mistral-7B-v0.3 | 7B | 出色的质量/效率比 |
mistralai/Mixtral-8x7B | 8x7B | MoE 架构,快速推理 |
Qwen(阿里巴巴)
| 模型 | 大小 | 最适合 |
|---|---|---|
Qwen/Qwen2.5-0.5B | 500M | 超小,边缘设备 |
Qwen/Qwen2.5-3B | 3B | 适合消费级硬件 |
Qwen/Qwen2.5-7B | 7B | 出色的多语言,特别是中文 |
搜索模型
在向导中,使用这些命令:排序选项
| 选项 | 何时使用 |
|---|---|
| Trending | 查看当前流行的内容 |
| Downloads | 最受验证/使用的模型 |
| Likes | 社区最爱 |
| Recent | 最新发布 |
选择技巧
从小开始,逐步扩展
从小开始,逐步扩展
始终从较小的模型开始,如
gemma-3-270m。让您的流程工作,验证数据集格式正确,然后扩展到更大的模型。不要追求最大模型
不要追求最大模型
训练良好的 3B 模型通常胜过训练不佳的 7B 模型。首先关注数据质量,然后扩展模型。
模型与数据匹配
模型与数据匹配
如果您只有 500 个示例,270M-1B 模型就足够了。使用 7B
模型只会记忆您的数据而不是学习模式。
考虑推理成本
考虑推理成本
如果您要部署模型,请记住:更大的模型运行成本更高。1B 模型的服务成本比 7B
模型便宜 7 倍。
先尝试指令调优
先尝试指令调优
除非您有 10k+ 高质量示例,否则从指令调优模型开始。您会更快获得更好的结果。