跳转到主要内容

进行对话

一旦模型加载完成,您就可以开始聊天了。

发送消息

  1. 在输入框中输入您的消息
  2. 按 Enter 或点击发送
  3. 等待模型响应
  4. 继续对话

对话上下文

聊天会维护对话历史:
  • 您发送的每条消息都包含之前的上下文
  • 模型”记住”您讨论过的内容
  • 更长的对话会使用更多内存

上下文窗口

模型有最大上下文长度:
模型上下文长度
Llama 3.2 (1B/3B)128K tokens
Llama 3.1128K tokens
Mistral 7B v0.332K tokens
Gemma 28K tokens
Qwen 2.5128K tokens
上下文长度因模型版本而异。请查看 Hugging Face 上的模型卡片以获取确切规格。
当上下文填满时,最旧的消息可能会被丢弃。

对话提示

测试微调模型

使用与训练数据相似的提示进行测试:
Training data: Customer support conversations
Test prompt: "I can't log into my account"

Training data: Code generation
Test prompt: "Write a Python function to sort a list"

评估质量

提出能揭示模型能力的问题:
  • 事实性:“What is the capital of France?”
  • 推理:“If A > B and B > C, is A > C?”
  • 创造性:“Write a haiku about programming”
  • 领域特定:来自您微调领域的问题

发现问题

测试边缘情况:
  • 非常短的输入 (“Hi”)
  • 非常长的输入
  • 异常字符或格式
  • 训练域外的问题
  • 试图混淆模型的尝试

清除历史

要重新开始:
  • 查找 “Clear” 或 “New Chat” 按钮
  • 或重新加载页面
这在以下情况下很有用:
  • 测试不同场景
  • 上下文变得太长
  • 开始新的演示

多轮对话

模型可以看到完整的对话:
User: What's 2 + 2?
Assistant: 4

User: And if we add 3 more?
Assistant: That would be 7 (4 + 3 = 7)
第二个回复使用了第一次交换的上下文。

常见模式

问答测试

User: [Question]
Assistant: [Answer]
User: Can you explain that differently?
Assistant: [Reformulated answer]

指令遵循

User: Write a poem about cats. Make it exactly 4 lines.
Assistant: [Poem]
User: Now make it about dogs instead
Assistant: [Modified poem]

角色扮演

User: You are a helpful customer service agent. A customer says: "My order is late"
Assistant: [Response in character]

下一步