进行对话
一旦模型加载完成,您就可以开始聊天了。
发送消息
- 在输入框中输入您的消息
- 按 Enter 或点击发送
- 等待模型响应
- 继续对话
对话上下文
聊天会维护对话历史:
- 您发送的每条消息都包含之前的上下文
- 模型”记住”您讨论过的内容
- 更长的对话会使用更多内存
上下文窗口
模型有最大上下文长度:
| 模型 | 上下文长度 |
|---|
| Llama 3.2 (1B/3B) | 128K tokens |
| Llama 3.1 | 128K tokens |
| Mistral 7B v0.3 | 32K tokens |
| Gemma 2 | 8K tokens |
| Qwen 2.5 | 128K tokens |
上下文长度因模型版本而异。请查看 Hugging Face 上的模型卡片以获取确切规格。
当上下文填满时,最旧的消息可能会被丢弃。
对话提示
测试微调模型
使用与训练数据相似的提示进行测试:
Training data: Customer support conversations
Test prompt: "I can't log into my account"
Training data: Code generation
Test prompt: "Write a Python function to sort a list"
评估质量
提出能揭示模型能力的问题:
- 事实性:“What is the capital of France?”
- 推理:“If A > B and B > C, is A > C?”
- 创造性:“Write a haiku about programming”
- 领域特定:来自您微调领域的问题
发现问题
测试边缘情况:
- 非常短的输入 (“Hi”)
- 非常长的输入
- 异常字符或格式
- 训练域外的问题
- 试图混淆模型的尝试
清除历史
要重新开始:
- 查找 “Clear” 或 “New Chat” 按钮
- 或重新加载页面
这在以下情况下很有用:
多轮对话
模型可以看到完整的对话:
User: What's 2 + 2?
Assistant: 4
User: And if we add 3 more?
Assistant: That would be 7 (4 + 3 = 7)
第二个回复使用了第一次交换的上下文。
常见模式
问答测试
User: [Question]
Assistant: [Answer]
User: Can you explain that differently?
Assistant: [Reformulated answer]
指令遵循
User: Write a poem about cats. Make it exactly 4 lines.
Assistant: [Poem]
User: Now make it about dogs instead
Assistant: [Modified poem]
角色扮演
User: You are a helpful customer service agent. A customer says: "My order is late"
Assistant: [Response in character]
下一步