了解 AI Training
AI Training 让您能够训练 AI 模型来执行满足您需求的特定任务。可以将其想象为训练一个非常聪明的助手,它从示例中学习。观看:为什么训练您自己的模型?
基本概念
想象您想要一个理解您公司产品的 AI,或者识别特定类型图像的 AI,或者以您品牌声音写作的 AI。与其使用像 ChatGPT 这样的通用 AI,您可以训练自己的专业版本。训练方法说明
让训练变得经济实惠
常规 AI 训练需要昂贵的计算机。我们使用技巧使其在普通硬件上运行:- LoRA - 只训练 AI 的小部分,而不是全部
- Quantization - 使用精度较低的数字(如将 3.14159 四舍五入到 3.14)
- Flash Attention - 跳过不必要的计算
- Gradient Checkpointing - 用速度换取内存使用
您可以构建什么
商业用途
- 了解您产品的客户服务机器人
- 针对您特定表单的文档分类器
- 以您公司声音生成销售邮件的生成器
研究用途
- 从照片识别物种
- 医疗报告分析器
- 科学论文摘要器
娱乐用途
- 像您最喜欢的角色一样说话的聊天机器人
- 用于您爱好的图像分类器
- 了解您偏好的个人助手
训练如何工作
- 收集示例 - 收集显示您希望 AI 学习内容的数据
- 选择起点 - 选择一个预训练模型(如 Llama 或 GPT)
- 设置参数 - 决定训练速度、持续时间(或使用我们的默认值)
- 训练 - 让计算机从您的示例中学习
- 测试 - 检查它是否工作良好
- 使用 - 部署您的自定义 AI
支持的格式
输入数据
- 文本文件 - .txt、.json、.jsonl 用于语言模型
- 图像 - .jpg、.png 用于视觉模型
- CSV 文件 - 用于表格数据(需要正确的列结构)
- Hugging Face Datasets - 从 hub 直接加载
输出模型
- 标准 PyTorch/Hugging Face 格式
- 自动 LoRA 适配器合并
- 直接推送到 Hugging Face Hub
主要特性
AITraining 的不同之处:- 自动数据集转换 - 提供 Alpaca、ShareGPT、Q&A 或任何格式。我们自动检测和转换。
- 32 个聊天模板 - Llama、Gemma、Mistral、Qwen 等。无需手动格式化。
- 超参数扫描 - Optuna 集成自动找到最佳设置。
- 内置评估 - 训练期间的 BLEU、ROUGE、BERTScore、perplexity 指标。
- 聊天界面 - 训练后立即测试您的模型。
路线图
我们正在开发的功能:- 模型市场
- 一键云训练
- 高级性能监控
下一步
AI Training 是 Hugging Face 的 AutoTrain 的分支,添加了额外的训练方法和优化。免费且开源。