Parâmetros de Geração

Ajuste essas configurações para controlar a saída do modelo.

Parâmetros Principais

Temperature

Controla a aleatoriedade nas respostas.

Valor	Efeito	Caso de Uso
0.0 - 0.3	Muito consistente, determinístico	Respostas factuais, código
0.5 - 0.7	Equilibrado	Conversa geral
0.8 - 1.0	Mais variado, criativo	Escrita criativa
1.0+	Muito aleatório	Brainstorming

Low temperature (0.3):  "The capital of France is Paris."
High temperature (1.2): "Paris, the city of lights, serves as France's bustling capital!"

Max Tokens

Comprimento máximo da resposta.

Valor	Uso Típico
50-100	Respostas curtas
256	Respostas padrão
512-1024	Explicações detalhadas
2048+	Conteúdo longo

Max tokens maior = tempo de geração maior.

Top-p (Nucleus Sampling)

Limita a seleção de tokens a uma probabilidade cumulativa.

0.95 (padrão da UI) - Considere tokens até 95% da massa de probabilidade
0.9 - Ligeiramente mais focado
0.5 - Muito focado

Top-k

Limita aos k tokens mais prováveis.

50 (padrão) - Considere os 50 tokens principais
10 - Muito focado
100 - Mais variedade

Combinações de Parâmetros

Q&A Factual

temperature: 0.3
max_tokens: 256
top_p: 0.9

Respostas consistentes e precisas.

Escrita Criativa

temperature: 0.9
max_tokens: 1024
top_p: 0.95

Saída variada e criativa.

Geração de Código

temperature: 0.2
max_tokens: 512
top_p: 0.95

Código preciso e sintaticamente correto.

Conversa

temperature: 0.7
max_tokens: 256
top_p: 0.9

Respostas naturais e variadas.

Encontrando as Configurações Certas

Comece com os Padrões

As configurações padrão funcionam para a maioria dos casos:

temperature: 0.7
max_tokens: 256
top_p: 0.95
top_k: 50
do_sample: true

Intervalos dos Sliders da UI

A interface de chat fornece estes intervalos de parâmetros:

Parâmetro	Mín	Máx	Passo	Padrão
Temperature	0	2	0.1	0.7
Max Tokens	50	2048	50	256
Top P	0	1	0.05	0.95
Top K	0	100	5	50

Ajuste Um de Cada Vez

Se as respostas estão muito aleatórias → diminua a temperatura
Se as respostas estão muito repetitivas → aumente a temperatura
Se as respostas são cortadas → aumente max_tokens
Se as respostas estão muito longas → diminua max_tokens

Teste Sistematicamente

Para aplicações importantes:

Escolha 5-10 prompts de teste
Teste cada configuração de parâmetro
Compare as saídas
Documente o que funciona

Parâmetros Avançados

Repetition Penalty

Reduz frases repetidas.

1.0 - Sem penalidade
1.1 - Penalidade leve (recomendado)
1.3+ - Penalidade forte

Stop Sequences

Termina a geração quando estes tokens aparecem.

Útil para saída estruturada
Exemplo: ["\n\n", "User:"]

Do Sample

Controla se deve usar amostragem ou decodificação gananciosa.

true (padrão) - Use amostragem com temperature/top-p/top-k
false - Decodificação gananciosa (sempre escolhe o token mais provável)

System Prompt

Defina uma mensagem do sistema para orientar o comportamento do modelo. Disponível no painel de configurações da interface de chat. Exemplos de system prompts:

“You are a helpful coding assistant. Provide concise code examples.”
“You are a creative writing partner. Be imaginative and descriptive.”
“You are a technical documentation expert. Be precise and thorough.”

O system prompt é pré-anexado ao contexto da conversa e influencia como o modelo responde durante toda a sessão.

Resumo dos Efeitos dos Parâmetros

Parâmetro	Valor Baixo	Valor Alto
temperature	Consistente, focado	Aleatório, criativo
max_tokens	Respostas curtas	Respostas longas
top_p	Focado	Variado
top_k	Muito focado	Mais opções
repetition_penalty	Pode repetir	Evita repetição

Começando

Usando Chat

Parâmetros de Geração

Parâmetros de Geração

Parâmetros Principais

Temperature

Max Tokens

Top-p (Nucleus Sampling)

Top-k

Combinações de Parâmetros

Q&A Factual

Escrita Criativa

Geração de Código

Conversa

Encontrando as Configurações Certas

Comece com os Padrões

Intervalos dos Sliders da UI

Ajuste Um de Cada Vez

Teste Sistematicamente

Parâmetros Avançados

Repetition Penalty

Stop Sequences

Do Sample

System Prompt

Resumo dos Efeitos dos Parâmetros

Próximos Passos

Treinamento CLI

API Python

Começando

Usando Chat

​Parâmetros de Geração

​Parâmetros Principais

​Temperature

​Max Tokens

​Top-p (Nucleus Sampling)

​Top-k

​Combinações de Parâmetros

​Q&A Factual

​Escrita Criativa

​Geração de Código

​Conversa

​Encontrando as Configurações Certas

​Comece com os Padrões

​Intervalos dos Sliders da UI

​Ajuste Um de Cada Vez

​Teste Sistematicamente

​Parâmetros Avançados

​Repetition Penalty

​Stop Sequences

​Do Sample

​System Prompt

​Resumo dos Efeitos dos Parâmetros

​Próximos Passos

Treinamento CLI

API Python

Parâmetros de Geração

Parâmetros Principais

Temperature

Max Tokens

Top-p (Nucleus Sampling)

Top-k

Combinações de Parâmetros

Q&A Factual

Escrita Criativa

Geração de Código

Conversa

Encontrando as Configurações Certas

Comece com os Padrões

Intervalos dos Sliders da UI

Ajuste Um de Cada Vez

Teste Sistematicamente

Parâmetros Avançados

Repetition Penalty

Stop Sequences

Do Sample

System Prompt

Resumo dos Efeitos dos Parâmetros

Próximos Passos