Saltar al contenido principal

Parámetros de Generación

Ajusta estas configuraciones para controlar la salida del modelo.

Parámetros Clave

Temperature

Controla la aleatoriedad en las respuestas.
ValorEfectoCaso de Uso
0.0 - 0.3Muy consistente, determinísticoRespuestas factuales, código
0.5 - 0.7EquilibradoConversación general
0.8 - 1.0Más variado, creativoEscritura creativa
1.0+Muy aleatorioLluvia de ideas
Low temperature (0.3):  "The capital of France is Paris."
High temperature (1.2): "Paris, the city of lights, serves as France's bustling capital!"

Max Tokens

Longitud máxima de la respuesta.
ValorUso Típico
50-100Respuestas cortas
256Respuestas estándar
512-1024Explicaciones detalladas
2048+Contenido largo
Max tokens más largo = tiempo de generación más largo.

Top-p (Nucleus Sampling)

Limita la selección de tokens a una probabilidad acumulativa.
  • 0.95 (predeterminado de la UI) - Considera tokens hasta el 95% de la masa de probabilidad
  • 0.9 - Ligeramente más enfocado
  • 0.5 - Muy enfocado

Top-k

Limita a los k tokens más probables.
  • 50 (predeterminado) - Considera los 50 tokens principales
  • 10 - Muy enfocado
  • 100 - Más variedad

Combinaciones de Parámetros

Q&A Factual

temperature: 0.3
max_tokens: 256
top_p: 0.9
Respuestas consistentes y precisas.

Escritura Creativa

temperature: 0.9
max_tokens: 1024
top_p: 0.95
Salida variada y creativa.

Generación de Código

temperature: 0.2
max_tokens: 512
top_p: 0.95
Código preciso y sintácticamente correcto.

Conversación

temperature: 0.7
max_tokens: 256
top_p: 0.9
Respuestas naturales y variadas.

Encontrar la Configuración Correcta

Comienza con los Predeterminados

Las configuraciones predeterminadas funcionan para la mayoría de los casos:
  • temperature: 0.7
  • max_tokens: 256
  • top_p: 0.95
  • top_k: 50
  • do_sample: true

Rangos de Deslizadores de la UI

La interfaz de chat proporciona estos rangos de parámetros:
ParámetroMínMáxPasoPredeterminado
Temperature020.10.7
Max Tokens50204850256
Top P010.050.95
Top K0100550

Ajusta Uno a la Vez

  1. Si las respuestas son muy aleatorias → baja la temperatura
  2. Si las respuestas son muy repetitivas → sube la temperatura
  3. Si las respuestas se cortan → aumenta max_tokens
  4. Si las respuestas son muy largas → disminuye max_tokens

Prueba Sistemáticamente

Para aplicaciones importantes:
  1. Elige 5-10 prompts de prueba
  2. Prueba cada configuración de parámetro
  3. Compara las salidas
  4. Documenta lo que funciona

Parámetros Avanzados

Repetition Penalty

Reduce frases repetidas.
  • 1.0 - Sin penalización
  • 1.1 - Penalización leve (recomendado)
  • 1.3+ - Penalización fuerte

Stop Sequences

Termina la generación cuando aparecen estos tokens.
  • Útil para salida estructurada
  • Ejemplo: ["\n\n", "User:"]

Do Sample

Controla si usar muestreo o decodificación codiciosa.
  • true (predeterminado) - Usa muestreo con temperature/top-p/top-k
  • false - Decodificación codiciosa (siempre elige el token más probable)

System Prompt

Establece un mensaje del sistema para guiar el comportamiento del modelo. Disponible en el panel de configuración de la interfaz de chat. Ejemplos de system prompts:
  • “You are a helpful coding assistant. Provide concise code examples.”
  • “You are a creative writing partner. Be imaginative and descriptive.”
  • “You are a technical documentation expert. Be precise and thorough.”
El system prompt se antepone al contexto de la conversación e influye en cómo el modelo responde durante toda la sesión.

Resumen de Efectos de Parámetros

ParámetroValor BajoValor Alto
temperatureConsistente, enfocadoAleatorio, creativo
max_tokensRespuestas cortasRespuestas largas
top_pEnfocadoVariado
top_kMuy enfocadoMás opciones
repetition_penaltyPuede repetirEvita repetición

Próximos Pasos