Servir Modelos
Sirva seus modelos treinados para inferência em produção.Interface de Chat
A forma mais simples de testar e interagir com modelos:http://localhost:7860/inference. O Chat UI permite carregar qualquer modelo local ou do Hub para testes interativos.
Porta Customizada
Host Customizado
Servidor de API
O servidor de API é um executor de treinamento, não um servidor de inferência. Expõe endpoints mínimos para verificações de saúde enquanto executa trabalhos de treinamento.Iniciar Servidor de API
http://127.0.0.1:7860 por padrão.
Parâmetros
| Parameter | Description | Default |
|---|---|---|
--port | Port to run the API on | 7860 |
--host | Host to bind to | 127.0.0.1 |
--task | Task to run (optional) | None |
Porta/Host Customizados
Variáveis de Ambiente
O servidor de API lê configuração de variáveis de ambiente:| Variable | Description |
|---|---|
HF_TOKEN | Hugging Face token for authentication |
AUTOTRAIN_USERNAME | Username for training |
PROJECT_NAME | Name of the project |
TASK_ID | Task identifier |
PARAMS | Training parameters (JSON) |
DATA_PATH | Path to training data |
MODEL | Model to use |
Endpoints
| Endpoint | Description |
|---|---|
GET / | Returns training status message |
GET /health | Health check (returns “OK”) |
O servidor de API desliga automaticamente quando não há trabalhos de treinamento ativos. Para inferência em produção, use vLLM ou TGI.
Deploy em Produção
Usando vLLM
Para servir de nível de produção com alta taxa de transferência:Usando Text Generation Inference (TGI)
API Compatível com OpenAI
Tanto vLLM quanto TGI fornecem endpoints compatíveis com OpenAI:Deploy Docker
Exemplo de Dockerfile
Com GPU
Teste de Carga
Usando hey
Usando locust
Monitoramento
Métricas Prometheus
Se usar vLLM ou TGI, métricas estão disponíveis em/metrics.
Logging
Próximos Passos
Benchmarking
Meça o desempenho do modelo
Interface de Chat
Testes interativos