Métricas de Avaliação
Você não pode melhorar o que não mede. Aqui está como dizer se seu modelo está realmente funcionando.Métricas de Classificação
Accuracy
A métrica mais simples - qual porcentagem você acertou?Precision & Recall
Precision: Das que você previu como positivas, quantas eram realmente positivas? Recall: De todas as positivas reais, quantas você encontrou? Exemplo para detecção de spam:- Precision: Dos emails marcados como spam, quantos eram realmente spam?
- Recall: De todos os emails spam, quantos você pegou?
F1 Score
Combina precision e recall em um número.Métricas de Geração
Perplexity
Quão surpreso o modelo está com os dados de teste. Menor é melhor.- Modelo bom: Perplexity = 10-50
- Modelo ruim: Perplexity = 100+
BLEU Score
Compara texto gerado com texto de referência. Usado para tradução, resumo.- BLEU = 0: Sem sobreposição
- BLEU = 1: Correspondência perfeita
- BLEU > 0.3: Geralmente decente
Avaliação Humana
Às vezes a melhor métrica é perguntar a humanos:- Esta resposta é útil?
- Este resumo captura os pontos principais?
- Esta tradução é natural?
Curvas de Loss
Training Loss vs Validation Loss
Acompanhe ambos durante o treinamento: Padrão bom:- Ambos diminuem
- Permanecem próximos
- Estabilizam eventualmente
- Training loss continua caindo
- Validation loss aumenta
- Gap se amplia
- Ambos permanecem altos
- Pouca melhoria
- Precisa de mais capacidade ou dados
Métricas Específicas por Tarefa
Image Classification
- Top-1 Accuracy: Classe correta é a previsão principal
- Top-5 Accuracy: Classe correta nas top 5 previsões
- Confusion Matrix: Veja quais classes ficam confusas
Object Detection
- mAP (mean Average Precision): Qualidade geral de detecção
- IoU (Intersection over Union): Quão bem as caixas se sobrepõem
NER/Token Classification
- F1 em nível de entidade: Entidades completas corretas
- Accuracy em nível de token: Tokens individuais corretos
Referência Rápida
| Tarefa | Métrica Principal | Boa Pontuação |
|---|---|---|
| Classificação Binária | F1 Score | > 0.8 |
| Classificação Multi-classe | Accuracy | > 0.9 |
| Geração | Perplexity | < 50 |
| Tradução | BLEU | > 0.3 |
| Resumo | ROUGE | > 0.4 |
| Q&A | Exact Match | > 0.7 |
Avaliação Aprimorada no AITraining
O AITraining suporta avaliação aprimorada com múltiplas métricas integradas e personalizadas.Habilitar Avaliação Aprimorada
Métricas Disponíveis
| Métrica | Descrição |
|---|---|
perplexity | Incerteza do modelo (menor é melhor) |
bleu | Sobreposição N-gram com referência |
rouge | Avaliação orientada a recall para resumo |
accuracy | Accuracy de classificação |
f1 | F1 score para classificação |
API Python
Métricas Personalizadas
Registre métricas personalizadas para avaliação especializada:Dicas Práticas
- Sempre use conjunto de validação - Nunca avalie em dados de treinamento
- Considere a tarefa - Accuracy nem sempre é melhor
- Acompanhe tendências - Melhorar é mais importante que números absolutos
- Múltiplas métricas - Nenhuma métrica única conta toda a história
Sinais de Alerta
- Accuracy de treinamento 100%, validação 60% → Overfitting
- Todas as métricas presas → Learning rate pode estar errado
- Métricas pulando ao redor → Batch size muito pequeno
- Pontuações perfeitas imediatamente → Vazamento de dados ou bug