跳转到主要内容

选择正确的模型

您选择的模型会显著影响训练时间、质量和硬件要求。本指南帮助您做出正确选择。

模型大小 vs 硬件

黄金法则:模型训练大约需要其参数数量 2 倍的 GB 内存。7B 模型完整训练需要 ~14GB VRAM,或使用 LoRA 需要 ~8GB。

快速参考

您的硬件最大模型大小推荐模型
MacBook Air M1 (8GB)500M - 1Bgoogle/gemma-3-270m
MacBook Pro M2 (16GB)1B - 3Bgoogle/gemma-2-2bLlama-3.2-1B
MacBook Pro M3 Max (36-64GB)7B - 13BLlama-3.2-8BMistral-7B
RTX 3060/3070 (8-12GB)1B - 3Bgemma-2-2bLlama-3.2-3B
RTX 3090/4090 (24GB)7B - 13BLlama-3.2-8BMistral-7B
A100 (40-80GB)30B - 70BLlama-3.1-70B 带量化

内存估算公式

Full training:   params × 4 bytes × 4 (model + optimizer + gradients + activations)
With LoRA:       params × 2 bytes + ~2GB
With LoRA + int4: params × 0.5 bytes + ~2GB
示例:7B 模型
  • 完整训练:7B × 16 = ~112GB(需要多 GPU)
  • 使用 LoRA:7B × 2 + 2GB = ~16GB
  • 使用 LoRA + int4:7B × 0.5 + 2GB = ~6GB

基础模型 vs 指令调优模型

这是您将做出的最重要决定之一。

基础模型(预训练)

示例:google/gemma-2-2bmeta-llama/Llama-3.2-1B 它们是什么:在原始文本上训练以预测下一个词。它们了解语言但不知道如何提供帮助。 何时使用
  • 您有大量训练数据(10k+ 示例)
  • 您想要完全控制模型行为
  • 您正在为特定格式训练(非聊天)
  • 您想创建自己的指令风格
训练前的示例行为
User: What is the capital of France?
Model: The question was first posed in 1789 when...

指令调优模型(IT/Instruct)

示例:google/gemma-2-2b-itmeta-llama/Llama-3.2-1B-Instruct 它们是什么:已经训练过遵循指令并提供帮助的基础模型。 何时使用
  • 您的训练数据有限(100-5k 示例)
  • 您想优化现有的有用行为
  • 您正在构建聊天机器人或助手
  • 您想用更少数据更快获得结果
训练前的示例行为
User: What is the capital of France?
Model: The capital of France is Paris.

决策矩阵

情况使用基础使用指令调优
少于 1k 示例
1k - 10k 示例取决于
10k+ 示例
聊天/助手用例
自定义格式(非聊天)
特定领域(医疗、法律)✓(两者都可以)
代码生成
创意写作✓(两者都可以)

模型系列

Google Gemma

版本:Gemma 2、Gemma 3
模型大小最适合
google/gemma-3-270m270M测试、学习、CPU/Apple Silicon
google/gemma-2-2b2B消费级 GPU,良好的质量/速度平衡
google/gemma-2-9b9B在良好硬件上高质量
google/gemma-2-27b27B最佳 Gemma 质量,需要强大硬件
优势:适合较小尺寸,高效,良好的多语言支持 提示:添加 -it 后缀获取指令调优版本

Meta Llama

版本:Llama 3.1、Llama 3.2
模型大小最适合
meta-llama/Llama-3.2-1B1B移动设备、边缘设备
meta-llama/Llama-3.2-3B3B消费级硬件
meta-llama/Llama-3.1-8B8B通用目的,卓越质量
meta-llama/Llama-3.1-70B70B生产质量,需要云 GPU
优势:卓越质量,强大推理能力,优秀的社区支持 注意:需要先在 HuggingFace 上接受许可

Mistral

模型大小最适合
mistralai/Mistral-7B-v0.37B出色的质量/效率比
mistralai/Mixtral-8x7B8x7BMoE 架构,快速推理
优势:高效,快速推理,擅长代码 提示:Mistral 经常超出其重量级别

Qwen(阿里巴巴)

模型大小最适合
Qwen/Qwen2.5-0.5B500M超小,边缘设备
Qwen/Qwen2.5-3B3B适合消费级硬件
Qwen/Qwen2.5-7B7B出色的多语言,特别是中文
优势:出色的多语言,特别是亚洲语言

搜索模型

在向导中,使用这些命令:
# Search by name
/search llama

# Search by capability
/search code
/search multilingual

# Filter by size
/filter

# Sort options
/sort

排序选项

选项何时使用
Trending查看当前流行的内容
Downloads最受验证/使用的模型
Likes社区最爱
Recent最新发布

选择技巧

始终从较小的模型开始,如 gemma-3-270m。让您的流程工作,验证数据集格式正确,然后扩展到更大的模型。
训练良好的 3B 模型通常胜过训练不佳的 7B 模型。首先关注数据质量,然后扩展模型。
如果您只有 500 个示例,270M-1B 模型就足够了。使用 7B 模型只会记忆您的数据而不是学习模式。
如果您要部署模型,请记住:更大的模型运行成本更高。1B 模型的服务成本比 7B 模型便宜 7 倍。
除非您有 10k+ 高质量示例,否则从指令调优模型开始。您会更快获得更好的结果。

验证您的选择

选择模型后,向导验证它是否存在:
✓ Model: google/gemma-3-270m
如果不存在:
❌ Model 'google/gemma3-270m' not found on HuggingFace Hub.
  Suggestions: Did you mean 'google/gemma-3-270m'?
  Check the model ID at https://huggingface.co/models

Try again with a different model? [Y/n]:

下一步