Parámetros de Generación
Ajusta estas configuraciones para controlar la salida del modelo.
Parámetros Clave
Temperature
Controla la aleatoriedad en las respuestas.
| Valor | Efecto | Caso de Uso |
|---|
| 0.0 - 0.3 | Muy consistente, determinístico | Respuestas factuales, código |
| 0.5 - 0.7 | Equilibrado | Conversación general |
| 0.8 - 1.0 | Más variado, creativo | Escritura creativa |
| 1.0+ | Muy aleatorio | Lluvia de ideas |
Low temperature (0.3): "The capital of France is Paris."
High temperature (1.2): "Paris, the city of lights, serves as France's bustling capital!"
Max Tokens
Longitud máxima de la respuesta.
| Valor | Uso Típico |
|---|
| 50-100 | Respuestas cortas |
| 256 | Respuestas estándar |
| 512-1024 | Explicaciones detalladas |
| 2048+ | Contenido largo |
Max tokens más largo = tiempo de generación más largo.
Top-p (Nucleus Sampling)
Limita la selección de tokens a una probabilidad acumulativa.
- 0.95 (predeterminado de la UI) - Considera tokens hasta el 95% de la masa de probabilidad
- 0.9 - Ligeramente más enfocado
- 0.5 - Muy enfocado
Top-k
Limita a los k tokens más probables.
- 50 (predeterminado) - Considera los 50 tokens principales
- 10 - Muy enfocado
- 100 - Más variedad
Combinaciones de Parámetros
Q&A Factual
temperature: 0.3
max_tokens: 256
top_p: 0.9
Respuestas consistentes y precisas.
Escritura Creativa
temperature: 0.9
max_tokens: 1024
top_p: 0.95
Salida variada y creativa.
Generación de Código
temperature: 0.2
max_tokens: 512
top_p: 0.95
Código preciso y sintácticamente correcto.
Conversación
temperature: 0.7
max_tokens: 256
top_p: 0.9
Respuestas naturales y variadas.
Encontrar la Configuración Correcta
Comienza con los Predeterminados
Las configuraciones predeterminadas funcionan para la mayoría de los casos:
- temperature: 0.7
- max_tokens: 256
- top_p: 0.95
- top_k: 50
- do_sample: true
Rangos de Deslizadores de la UI
La interfaz de chat proporciona estos rangos de parámetros:
| Parámetro | Mín | Máx | Paso | Predeterminado |
|---|
| Temperature | 0 | 2 | 0.1 | 0.7 |
| Max Tokens | 50 | 2048 | 50 | 256 |
| Top P | 0 | 1 | 0.05 | 0.95 |
| Top K | 0 | 100 | 5 | 50 |
Ajusta Uno a la Vez
- Si las respuestas son muy aleatorias → baja la temperatura
- Si las respuestas son muy repetitivas → sube la temperatura
- Si las respuestas se cortan → aumenta max_tokens
- Si las respuestas son muy largas → disminuye max_tokens
Prueba Sistemáticamente
Para aplicaciones importantes:
- Elige 5-10 prompts de prueba
- Prueba cada configuración de parámetro
- Compara las salidas
- Documenta lo que funciona
Parámetros Avanzados
Repetition Penalty
Reduce frases repetidas.
- 1.0 - Sin penalización
- 1.1 - Penalización leve (recomendado)
- 1.3+ - Penalización fuerte
Stop Sequences
Termina la generación cuando aparecen estos tokens.
- Útil para salida estructurada
- Ejemplo:
["\n\n", "User:"]
Do Sample
Controla si usar muestreo o decodificación codiciosa.
- true (predeterminado) - Usa muestreo con temperature/top-p/top-k
- false - Decodificación codiciosa (siempre elige el token más probable)
System Prompt
Establece un mensaje del sistema para guiar el comportamiento del modelo. Disponible en el panel de configuración de la interfaz de chat.
Ejemplos de system prompts:
- “You are a helpful coding assistant. Provide concise code examples.”
- “You are a creative writing partner. Be imaginative and descriptive.”
- “You are a technical documentation expert. Be precise and thorough.”
El system prompt se antepone al contexto de la conversación e influye en cómo el modelo responde durante toda la sesión.
Resumen de Efectos de Parámetros
| Parámetro | Valor Bajo | Valor Alto |
|---|
| temperature | Consistente, enfocado | Aleatorio, creativo |
| max_tokens | Respuestas cortas | Respuestas largas |
| top_p | Enfocado | Variado |
| top_k | Muy enfocado | Más opciones |
| repetition_penalty | Puede repetir | Evita repetición |
Próximos Pasos