Servir Modelos
Sirve tus modelos entrenados para inferencia en producción.Interfaz de Chat
La forma más simple de probar e interactuar con modelos:http://localhost:7860/inference. El Chat UI te permite cargar cualquier modelo local o del Hub para pruebas interactivas.
Puerto Personalizado
Host Personalizado
Servidor de API
El servidor de API es un ejecutor de entrenamiento, no un servidor de inferencia. Expone endpoints mínimos para verificaciones de salud mientras ejecuta trabajos de entrenamiento.Iniciar Servidor de API
http://127.0.0.1:7860 por defecto.
Parámetros
| Parameter | Description | Default |
|---|---|---|
--port | Port to run the API on | 7860 |
--host | Host to bind to | 127.0.0.1 |
--task | Task to run (optional) | None |
Puerto/Host Personalizados
Variables de Entorno
El servidor de API lee la configuración de variables de entorno:| Variable | Description |
|---|---|
HF_TOKEN | Hugging Face token for authentication |
AUTOTRAIN_USERNAME | Username for training |
PROJECT_NAME | Name of the project |
TASK_ID | Task identifier |
PARAMS | Training parameters (JSON) |
DATA_PATH | Path to training data |
MODEL | Model to use |
Endpoints
| Endpoint | Description |
|---|---|
GET / | Returns training status message |
GET /health | Health check (returns “OK”) |
El servidor de API se apaga automáticamente cuando no hay trabajos de entrenamiento activos. Para inferencia en producción, usa vLLM o TGI en su lugar.
Despliegue en Producción
Usando vLLM
Para servir de nivel de producción con alto rendimiento:Usando Text Generation Inference (TGI)
API Compatible con OpenAI
Tanto vLLM como TGI proporcionan endpoints compatibles con OpenAI:Despliegue Docker
Ejemplo de Dockerfile
Con GPU
Prueba de Carga
Usando hey
Usando locust
Monitorización
Métricas Prometheus
Si usas vLLM o TGI, las métricas están disponibles en/metrics.
Logging
Próximos Pasos
Benchmarking
Mide el rendimiento del modelo
Interfaz de Chat
Pruebas interactivas