跳转到主要内容

了解模型类型

不同的 AI 任务需要不同的模型架构。可以将其想象为为工作选择正确的工具 - 您不会用锤子来粉刷墙壁。

Language Models (LLMs)

最通用的模型,理解和生成人类语言。

功能

语言模型可以:
  • 回答问题
  • 编写内容
  • 翻译语言
  • 总结文本
  • 生成代码
  • 遵循指令

常见模型

模型大小适合训练时间
GPT-2124M-1.5B起点、快速实验数分钟到数小时
BERT110M-340M理解文本、分类数小时
T560M-11B文本到文本任务数小时到数天
LLaMA7B-70B通用、聊天数天到数周
Mistral7B高效、平衡性能数小时到数天

何时使用

当您需要以下功能时选择语言模型:
  • 自然语言理解
  • 文本生成
  • 问答
  • 对话 AI
  • 代码生成

分类模型

专门用于将事物分类到类别中。

Text Classification

将文本分类到预定义组中:
  • 情感分析(积极/消极)
  • 主题分类
  • 意图检测
  • 语言检测
最佳模型:BERT、DistilBERT、RoBERTa

Image Classification

识别图像中的内容:
  • 对象识别
  • 医学诊断
  • 质量控制
  • 内容审核
最佳模型:ResNet、EfficientNet、Vision Transformer (ViT)

Multimodal Classification

同时处理文本和图像:
  • 表情包理解
  • 文档分析
  • 产品分类
最佳模型:CLIP、LayoutLM、ALIGN

Token Classification

标记文本中的单个单词或 tokens。

Named Entity Recognition (NER)

查找并标记特定信息:
  • 人名、地名、组织名
  • 日期和时间
  • 产品名称
  • 医学术语

Part-of-Speech Tagging

识别语法角色:
  • 名词、动词、形容词
  • 句子结构分析
最佳模型:BERT-NER、RoBERTa-token、SpaCy transformers

Sequence-to-Sequence

将一个序列转换为另一个序列。

Translation

在语言之间转换文本:
  • 文档翻译
  • 实时聊天翻译
  • 代码翻译

Summarization

压缩长文本:
  • 文章摘要
  • 会议笔记
  • 报告摘要

Question Answering

从上下文中提取答案:
  • 客户支持
  • 文档 Q&A
  • 教育工具
最佳模型:T5、BART、mT5(多语言)

Computer Vision 模型

处理和理解图像。

Object Detection

查找并定位图像中的对象:
  • 对象周围的边界框
  • 计数项目
  • 跟踪运动
最佳模型:YOLO、Faster R-CNN、DETR

Image Segmentation

像素级理解:
  • 医学成像
  • 自动驾驶
  • 照片编辑
最佳模型:U-Net、Mask R-CNN、SAM

Image Generation

创建新图像:
  • 艺术生成
  • 产品可视化
  • 数据增强
最佳模型:Stable Diffusion、DALL-E、Midjourney

表格模型

处理像电子表格这样的结构化数据。

Regression

预测连续值:
  • 价格预测
  • 销售预测
  • 风险评分

Classification

对行进行分类:
  • 客户流失
  • 欺诈检测
  • 疾病诊断
最佳模型:XGBoost、CatBoost、TabNet

选择正确的模型

考虑您的数据

数据类型推荐模型
短文本 (< 512 tokens)BERT、DistilBERT
长文本 (> 512 tokens)Longformer、BigBird
对话DialoGPT、Blenderbot
代码CodeBERT、CodeT5
多种语言mBERT、XLM-RoBERTa
图像ResNet、EfficientNet
图像 + 文本CLIP、ALIGN
结构化数据XGBoost、CatBoost

考虑您的资源

有限资源 (< 8GB GPU)
  • DistilBERT (66M 参数)
  • MobileBERT (25M 参数)
  • TinyBERT (15M 参数)
中等资源 (8-16GB GPU)
  • BERT-base (110M 参数)
  • GPT-2 small (124M 参数)
  • RoBERTa-base (125M 参数)
良好资源 (24GB+ GPU)
  • GPT-2 large (774M 参数)
  • T5-large (770M 参数)
  • LLaMA 7B (7B 参数)

考虑您的准确性需求

速度优于准确性
  • 使用蒸馏模型(DistilBERT、DistilGPT-2)
  • 较小的架构
  • 量化模型
准确性优于速度
  • 使用更大的模型
  • 集成多个模型
  • 更长的训练时间

模型大小和权衡

参数计数

参数是模型的可调整部分。更多参数通常意味着:
  • 更好的理解
  • 更高的准确性
  • 需要更多内存
  • 推理更慢

大小指南

大小参数用例所需训练数据
Tiny< 50M移动应用、实时100s 示例
Small50M-150M标准应用1000s 示例
Base150M-500M生产系统10,000s 示例
Large500M-3B高准确性需求100,000s 示例
XL3B+最先进数百万示例

预训练 vs 从零开始

使用预训练模型

99% 的时间,从预训练模型开始:
  • 已经理解语言/图像
  • 需要更少的训练数据
  • 训练更快
  • 更好的结果

仅在以下情况从零训练

  • 使用独特数据类型
  • 特殊领域(医学、法律)
  • 自定义架构
  • 研究目的

Fine-tuning 策略

Full Fine-tuning

更新所有模型参数:
  • 最佳准确性
  • 需要更多内存
  • 过拟合风险

LoRA (Low-Rank Adaptation)

仅更新小适配器:
  • 减少 90% 内存
  • 训练更快
  • 准确性略低
  • 非常适合大模型

Prompt Tuning

仅训练 prompt embeddings:
  • 最小内存
  • 非常快
  • 适合 few-shot learning

Freeze 策略

冻结某些层:
  • Freeze early layers:保留一般特征
  • Freeze late layers:保留任务特定特征
  • Gradual unfreezing:从冻结开始,慢慢解冻

多任务模型

某些模型可以处理多个任务:

T5 系列

  • 文本摘要
  • 翻译
  • 问答
  • 分类
只需更改 prompt 前缀:
  • “summarize: …”
  • “translate English to French: …”
  • “question: … context: …”

FLAN 模型

在许多任务上预训练:
  • 更好的 zero-shot 性能
  • 更灵活
  • 良好的指令遵循

专门架构

Transformers

当前标准:
  • 并行处理
  • 长距离依赖
  • 大多数现代模型

CNNs (Convolutional Neural Networks)

仍然非常适合图像:
  • 高效
  • 易于理解
  • 适合边缘设备

RNNs (Recurrent Neural Networks)

较旧但仍然有用:
  • 顺序数据
  • 时间序列
  • 流式应用

收听:超越 LLMs - 深入探讨

关于语言模型之外模型类型的 45 分钟对话,涵盖视觉、表格和专门架构。

下一步

准备好开始训练了吗?