跳转到主要内容

超参数扫描

自动搜索最佳超参数。

快速开始

aitraining llm --train \
  --model google/gemma-3-270m \
  --data-path ./data.jsonl \
  --project-name sweep-experiment \
  --use-sweep \
  --sweep-backend optuna \
  --sweep-n-trials 20

Python API

from autotrain.trainers.clm.params import LLMTrainingParams

params = LLMTrainingParams(
    model="google/gemma-3-270m",
    data_path="./data.jsonl",
    project_name="sweep-experiment",

    # Enable sweep
    use_sweep=True,
    sweep_backend="optuna",
    sweep_n_trials=20,
    sweep_metric="eval_loss",
    sweep_direction="minimize",

    # Base parameters (sweep will vary some)
    trainer="sft",
    epochs=3,
    batch_size=4,
    lr=2e-5,
)

参数

参数描述默认值
use_sweep启用扫描False
sweep_backend后端(optunagridrandomoptuna
sweep_n_trials试验次数10
sweep_metric要优化的指标eval_loss
sweep_direction最小化或最大化minimize
sweep_params自定义搜索空间(JSON 字符串)None(自动)
post_trial_script每次试验后执行的 shell 脚本None
wandb_sweep启用 W&B 原生 sweep 仪表板False
wandb_sweep_projectsweep 的 W&B 项目project_name
wandb_sweep_entityW&B 实体(团队/用户名)None(使用默认)
wandb_sweep_id要继续的现有 sweep IDNone(创建新的)
wandb_run_id要恢复的 W&B 运行 ID(用于外部 sweep 代理)None

搜索空间

默认搜索空间

默认情况下,扫描搜索:
  • 学习率:1e-5 到 1e-3(对数均匀)
  • 批量大小:2、4、8、16(分类)
  • 预热比例:0.0 到 0.2(均匀)
LoRA 秩不包含在默认扫描中。如果需要,请通过 sweep_params 手动添加。

自定义搜索空间

sweep_params 参数期望一个 JSON 字符串。支持列表和字典格式:
import json

# 字典格式(推荐)- 显式类型指定
sweep_params = json.dumps({
    "lr": {"type": "loguniform", "low": 1e-6, "high": 1e-3},
    "batch_size": {"type": "categorical", "values": [2, 4, 8]},
    "lora_r": {"type": "categorical", "values": [8, 16, 32, 64]},
    "warmup_ratio": {"type": "uniform", "low": 0.0, "high": 0.2},
    "epochs": {"type": "int", "low": 1, "high": 5},
})

# 列表格式(简写)- 仅用于分类值
sweep_params = json.dumps({
    "batch_size": [2, 4, 8],
    "lora_r": [8, 16, 32, 64],
})

params = LLMTrainingParams(
    ...
    use_sweep=True,
    sweep_params=sweep_params,  # JSON string
)
支持的字典类型:
类型描述参数
categorical从列表中选择values:选项列表
loguniform对数均匀分布lowhigh
uniform均匀分布lowhigh
int整数范围lowhigh

扫描后端

Optuna

高效的贝叶斯优化:
params = LLMTrainingParams(
    ...
    use_sweep=True,
    sweep_backend="optuna",
)

网格搜索

对所有组合进行穷举搜索:
params = LLMTrainingParams(
    ...
    use_sweep=True,
    sweep_backend="grid",
)

随机搜索

从搜索空间随机采样:
params = LLMTrainingParams(
    ...
    use_sweep=True,
    sweep_backend="random",
)

指标

标准指标

指标描述
eval_loss验证损失
train_loss训练损失
accuracy分类准确率
perplexity语言模型困惑度

增强评估指标

启用 use_enhanced_eval 以访问其他指标:
指标描述
perplexity语言模型困惑度(默认)
bleu翻译/生成的 BLEU 分数
rouge摘要的 ROUGE 分数
bertscore语义相似度的 BERTScore
accuracy分类准确率
f1F1 分数
exact_match精确匹配准确率
meteorMETEOR 分数

增强评估参数

参数描述默认值
use_enhanced_eval启用增强指标False
eval_metrics逗号分隔的指标"perplexity"
eval_strategy何时评估(epochstepsno"epoch"
eval_batch_size评估批量大小8
eval_dataset_path评估数据集路径(如果不同)None
eval_save_predictions在评估期间保存预测False
eval_benchmark运行标准基准测试None

标准基准测试

使用 eval_benchmark 运行标准 LLM 基准测试:
基准测试描述
mmlu大规模多任务语言理解
hellaswagHellaSwag 常识推理
arcAI2 推理挑战
truthfulqaTruthfulQA 事实性

自定义指标示例

params = LLMTrainingParams(
    ...
    use_sweep=True,
    sweep_metric="bleu",
    use_enhanced_eval=True,
    eval_metrics="bleu,rouge,bertscore",
    eval_batch_size=8,
)

示例:找到最佳 LR

import json

params = LLMTrainingParams(
    model="google/gemma-3-270m",
    data_path="./data.jsonl",
    project_name="lr-sweep",

    use_sweep=True,
    sweep_n_trials=10,
    sweep_params=json.dumps({
        "lr": {"type": "loguniform", "low": 1e-6, "high": 1e-3},
    }),

    # Fixed parameters
    trainer="sft",
    epochs=1,
    batch_size=4,
)

查看结果

Optuna 仪表板

pip install optuna-dashboard
optuna-dashboard sqlite:///optuna.db

W&B 原生 Sweep 仪表板

默认情况下,sweep 在本地运行,仅将单个运行记录到 W&B。启用 W&B 原生 sweep 集成 可获取聚合视图、平行坐标图和参数重要性分析,所有这些都在专用的 sweep 仪表板中。
本地 vs W&B Sweeps:没有 wandb_sweep=True 时,每个 trial 作为单独的 W&B 运行记录。有 wandb_sweep=True 时,所有 trial 都分组在一个具有统一可视化的 sweep 仪表板下。

启用 W&B Sweeps

aitraining llm --train \
  --model google/gemma-3-270m \
  --data-path ./data.jsonl \
  --project-name sweep-experiment \
  --use-sweep \
  --sweep-backend optuna \
  --sweep-n-trials 20 \
  --log wandb \
  --wandb-sweep \
  --wandb-sweep-project my-sweep-project \
  --wandb-sweep-entity my-team

继续现有 Sweep

要向现有 sweep 添加更多 trial 而不是创建新的,请传递 sweep ID:
# 第一次运行创建 sweep(打印 "Created W&B sweep: abc123xyz")
aitraining llm --train \
  --use-sweep --sweep-n-trials 10 \
  --wandb-sweep --wandb-sweep-project my-project

# 之后,继续同一个 sweep 添加更多 trial
aitraining llm --train \
  --use-sweep --sweep-n-trials 10 \
  --wandb-sweep --wandb-sweep-project my-project \
  --wandb-sweep-id abc123xyz
如果不传递 wandb_sweep_id每次都会创建新的 sweep。sweep ID 会在 sweep 开始时打印在日志中(查找 “Created W&B sweep: ”)。

访问 Sweep 仪表板

  1. 前往 wandb.ai 并打开您的项目
  2. 点击左侧面板中的 Sweep 图标(扫帚图标)
  3. 从列表中选择您的 sweep

内置可视化

W&B 自动生成三种可视化:
可视化描述
平行坐标图一目了然地显示超参数与指标之间的关系
散点图比较所有运行以识别模式
参数重要性排名哪些超参数最影响您的指标
平行坐标图特别适用于识别哪些超参数组合能带来最佳结果。您可以在任何轴上拖动以筛选运行。

与外部 W&B Sweep 代理一起使用

如果您从外部 W&B sweep 代理运行 AITraining(不是 AITraining 的内置 sweep),请使用 --wandb-run-id 来恢复代理的运行,而不是创建重复运行:
# 外部 W&B sweep 代理使用运行 ID 调用 AITraining
aitraining llm --train \
  --model google/gemma-3-270m \
  --data-path ./data.jsonl \
  --wandb-run-id $WANDB_RUN_ID \
  --lr $SWEEP_LR \
  --batch-size $SWEEP_BATCH_SIZE
设置 --wandb-run-id 后,AITraining 会自动设置 WANDB_RESUME=allow,以便 trainer 恢复指定的运行而不是创建新运行。

重要说明

  • 需要 W&B 登录:使用 W&B sweeps 前运行 wandb login
  • Sweep ID 会被记录:在日志中查找 “Created W&B sweep:
  • Trial 被分组:每个 trial 作为带有 group={sweep_id} 的运行出现,用于聚合
  • Optuna 仍管理搜索:W&B 仅用于可视化;Optuna/grid/random 处理实际的超参数搜索

试验后操作

在每次试验完成后执行自定义操作,例如将检查点提交到 git、发送通知或同步到远程存储。

CLI 用法

aitraining llm --train \
  --model google/gemma-3-270m \
  --data-path ./data.jsonl \
  --project-name sweep-experiment \
  --use-sweep \
  --sweep-n-trials 10 \
  --post-trial-script 'echo "试验 $TRIAL_NUMBER 完成,指标 $TRIAL_METRIC_VALUE"'

环境变量

试验后脚本接收以下环境变量:
变量描述示例
TRIAL_NUMBER试验索引(从 0 开始)012
TRIAL_METRIC_VALUE此试验的指标值0.234
TRIAL_IS_BEST是否是目前最佳试验truefalse
TRIAL_OUTPUT_DIR试验输出目录/path/to/sweep/trial_0
TRIAL_PARAMS试验参数字符串{'lr': 0.0001, 'batch_size': 8}

示例:为最佳模型提交 Git

aitraining llm --train \
  --use-sweep \
  --sweep-n-trials 20 \
  --post-trial-script 'if [ "$TRIAL_IS_BEST" = "true" ]; then git add . && git commit -m "最佳模型:试验 $TRIAL_NUMBER,指标 $TRIAL_METRIC_VALUE"; fi'

使用回调的 Python API

如需更多控制,使用带回调函数的 Python API:
from autotrain.utils import HyperparameterSweep, SweepConfig, TrialInfo

def on_trial_complete(trial_info: TrialInfo):
    """每次试验完成后调用。"""
    print(f"试验 {trial_info.trial_number} 完成")
    print(f"  参数: {trial_info.params}")
    print(f"  指标: {trial_info.metric_value}")
    print(f"  是最佳: {trial_info.is_best}")

    if trial_info.is_best:
        # 为最佳试验执行特殊操作
        save_best_model(trial_info.output_dir)

config = SweepConfig(
    parameters={"lr": (1e-5, 1e-3, "log_uniform")},
    n_trials=10,
    backend="optuna",
    post_trial_callback=on_trial_complete,
)

sweep = HyperparameterSweep(config, train_function)
result = sweep.run()
试验后操作是非阻塞的。如果回调或脚本失败,会记录警告但扫描继续进行。这确保扫描进度不会因回调错误而丢失。

最佳实践

  1. 从小开始 - 初始探索 10-20 次试验
  2. 使用早停 - 尽早停止不良试验
  3. 固定已知内容 - 仅扫描不确定的参数
  4. 使用验证数据 - 始终有评估分割
  5. 使用试验后脚本 - 自动化检查点或通知

下一步