Pular para o conteúdo principal

Parâmetros de Geração

Ajuste essas configurações para controlar a saída do modelo.

Parâmetros Principais

Temperature

Controla a aleatoriedade nas respostas.
ValorEfeitoCaso de Uso
0.0 - 0.3Muito consistente, determinísticoRespostas factuais, código
0.5 - 0.7EquilibradoConversa geral
0.8 - 1.0Mais variado, criativoEscrita criativa
1.0+Muito aleatórioBrainstorming
Low temperature (0.3):  "The capital of France is Paris."
High temperature (1.2): "Paris, the city of lights, serves as France's bustling capital!"

Max Tokens

Comprimento máximo da resposta.
ValorUso Típico
50-100Respostas curtas
256Respostas padrão
512-1024Explicações detalhadas
2048+Conteúdo longo
Max tokens maior = tempo de geração maior.

Top-p (Nucleus Sampling)

Limita a seleção de tokens a uma probabilidade cumulativa.
  • 0.95 (padrão da UI) - Considere tokens até 95% da massa de probabilidade
  • 0.9 - Ligeiramente mais focado
  • 0.5 - Muito focado

Top-k

Limita aos k tokens mais prováveis.
  • 50 (padrão) - Considere os 50 tokens principais
  • 10 - Muito focado
  • 100 - Mais variedade

Combinações de Parâmetros

Q&A Factual

temperature: 0.3
max_tokens: 256
top_p: 0.9
Respostas consistentes e precisas.

Escrita Criativa

temperature: 0.9
max_tokens: 1024
top_p: 0.95
Saída variada e criativa.

Geração de Código

temperature: 0.2
max_tokens: 512
top_p: 0.95
Código preciso e sintaticamente correto.

Conversa

temperature: 0.7
max_tokens: 256
top_p: 0.9
Respostas naturais e variadas.

Encontrando as Configurações Certas

Comece com os Padrões

As configurações padrão funcionam para a maioria dos casos:
  • temperature: 0.7
  • max_tokens: 256
  • top_p: 0.95
  • top_k: 50
  • do_sample: true

Intervalos dos Sliders da UI

A interface de chat fornece estes intervalos de parâmetros:
ParâmetroMínMáxPassoPadrão
Temperature020.10.7
Max Tokens50204850256
Top P010.050.95
Top K0100550

Ajuste Um de Cada Vez

  1. Se as respostas estão muito aleatórias → diminua a temperatura
  2. Se as respostas estão muito repetitivas → aumente a temperatura
  3. Se as respostas são cortadas → aumente max_tokens
  4. Se as respostas estão muito longas → diminua max_tokens

Teste Sistematicamente

Para aplicações importantes:
  1. Escolha 5-10 prompts de teste
  2. Teste cada configuração de parâmetro
  3. Compare as saídas
  4. Documente o que funciona

Parâmetros Avançados

Repetition Penalty

Reduz frases repetidas.
  • 1.0 - Sem penalidade
  • 1.1 - Penalidade leve (recomendado)
  • 1.3+ - Penalidade forte

Stop Sequences

Termina a geração quando estes tokens aparecem.
  • Útil para saída estruturada
  • Exemplo: ["\n\n", "User:"]

Do Sample

Controla se deve usar amostragem ou decodificação gananciosa.
  • true (padrão) - Use amostragem com temperature/top-p/top-k
  • false - Decodificação gananciosa (sempre escolhe o token mais provável)

System Prompt

Defina uma mensagem do sistema para orientar o comportamento do modelo. Disponível no painel de configurações da interface de chat. Exemplos de system prompts:
  • “You are a helpful coding assistant. Provide concise code examples.”
  • “You are a creative writing partner. Be imaginative and descriptive.”
  • “You are a technical documentation expert. Be precise and thorough.”
O system prompt é pré-anexado ao contexto da conversa e influencia como o modelo responde durante toda a sessão.

Resumo dos Efeitos dos Parâmetros

ParâmetroValor BaixoValor Alto
temperatureConsistente, focadoAleatório, criativo
max_tokensRespostas curtasRespostas longas
top_pFocadoVariado
top_kMuito focadoMais opções
repetition_penaltyPode repetirEvita repetição

Próximos Passos