Parâmetros de Geração
Ajuste essas configurações para controlar a saída do modelo.
Parâmetros Principais
Temperature
Controla a aleatoriedade nas respostas.
| Valor | Efeito | Caso de Uso |
|---|
| 0.0 - 0.3 | Muito consistente, determinístico | Respostas factuais, código |
| 0.5 - 0.7 | Equilibrado | Conversa geral |
| 0.8 - 1.0 | Mais variado, criativo | Escrita criativa |
| 1.0+ | Muito aleatório | Brainstorming |
Low temperature (0.3): "The capital of France is Paris."
High temperature (1.2): "Paris, the city of lights, serves as France's bustling capital!"
Max Tokens
Comprimento máximo da resposta.
| Valor | Uso Típico |
|---|
| 50-100 | Respostas curtas |
| 256 | Respostas padrão |
| 512-1024 | Explicações detalhadas |
| 2048+ | Conteúdo longo |
Max tokens maior = tempo de geração maior.
Top-p (Nucleus Sampling)
Limita a seleção de tokens a uma probabilidade cumulativa.
- 0.95 (padrão da UI) - Considere tokens até 95% da massa de probabilidade
- 0.9 - Ligeiramente mais focado
- 0.5 - Muito focado
Top-k
Limita aos k tokens mais prováveis.
- 50 (padrão) - Considere os 50 tokens principais
- 10 - Muito focado
- 100 - Mais variedade
Combinações de Parâmetros
Q&A Factual
temperature: 0.3
max_tokens: 256
top_p: 0.9
Respostas consistentes e precisas.
Escrita Criativa
temperature: 0.9
max_tokens: 1024
top_p: 0.95
Saída variada e criativa.
Geração de Código
temperature: 0.2
max_tokens: 512
top_p: 0.95
Código preciso e sintaticamente correto.
Conversa
temperature: 0.7
max_tokens: 256
top_p: 0.9
Respostas naturais e variadas.
Encontrando as Configurações Certas
As configurações padrão funcionam para a maioria dos casos:
- temperature: 0.7
- max_tokens: 256
- top_p: 0.95
- top_k: 50
- do_sample: true
Intervalos dos Sliders da UI
A interface de chat fornece estes intervalos de parâmetros:
| Parâmetro | Mín | Máx | Passo | Padrão |
|---|
| Temperature | 0 | 2 | 0.1 | 0.7 |
| Max Tokens | 50 | 2048 | 50 | 256 |
| Top P | 0 | 1 | 0.05 | 0.95 |
| Top K | 0 | 100 | 5 | 50 |
Ajuste Um de Cada Vez
- Se as respostas estão muito aleatórias → diminua a temperatura
- Se as respostas estão muito repetitivas → aumente a temperatura
- Se as respostas são cortadas → aumente max_tokens
- Se as respostas estão muito longas → diminua max_tokens
Teste Sistematicamente
Para aplicações importantes:
- Escolha 5-10 prompts de teste
- Teste cada configuração de parâmetro
- Compare as saídas
- Documente o que funciona
Parâmetros Avançados
Repetition Penalty
Reduz frases repetidas.
- 1.0 - Sem penalidade
- 1.1 - Penalidade leve (recomendado)
- 1.3+ - Penalidade forte
Stop Sequences
Termina a geração quando estes tokens aparecem.
- Útil para saída estruturada
- Exemplo:
["\n\n", "User:"]
Do Sample
Controla se deve usar amostragem ou decodificação gananciosa.
- true (padrão) - Use amostragem com temperature/top-p/top-k
- false - Decodificação gananciosa (sempre escolhe o token mais provável)
System Prompt
Defina uma mensagem do sistema para orientar o comportamento do modelo. Disponível no painel de configurações da interface de chat.
Exemplos de system prompts:
- “You are a helpful coding assistant. Provide concise code examples.”
- “You are a creative writing partner. Be imaginative and descriptive.”
- “You are a technical documentation expert. Be precise and thorough.”
O system prompt é pré-anexado ao contexto da conversa e influencia como o modelo responde durante toda a sessão.
Resumo dos Efeitos dos Parâmetros
| Parâmetro | Valor Baixo | Valor Alto |
|---|
| temperature | Consistente, focado | Aleatório, criativo |
| max_tokens | Respostas curtas | Respostas longas |
| top_p | Focado | Variado |
| top_k | Muito focado | Mais opções |
| repetition_penalty | Pode repetir | Evita repetição |
Próximos Passos