Pular para o conteúdo principal

Métricas de Avaliação

Você não pode melhorar o que não mede. Aqui está como dizer se seu modelo está realmente funcionando.

Métricas de Classificação

Accuracy

A métrica mais simples - qual porcentagem você acertou?
Accuracy = Previsões Corretas / Total de Previsões
Exemplo: 90/100 corretas = 90% de accuracy Problema: Enganoso com dados desbalanceados. Se 95% dos emails não são spam, um modelo que sempre diz “não spam” obtém 95% de accuracy.

Precision & Recall

Precision: Das que você previu como positivas, quantas eram realmente positivas? Recall: De todas as positivas reais, quantas você encontrou? Exemplo para detecção de spam:
  • Precision: Dos emails marcados como spam, quantos eram realmente spam?
  • Recall: De todos os emails spam, quantos você pegou?

F1 Score

Combina precision e recall em um número.
F1 = 2 × (Precision × Recall) / (Precision + Recall)
Use quando você se importa igualmente com falsos positivos e falsos negativos.

Métricas de Geração

Perplexity

Quão surpreso o modelo está com os dados de teste. Menor é melhor.
  • Modelo bom: Perplexity = 10-50
  • Modelo ruim: Perplexity = 100+

BLEU Score

Compara texto gerado com texto de referência. Usado para tradução, resumo.
  • BLEU = 0: Sem sobreposição
  • BLEU = 1: Correspondência perfeita
  • BLEU > 0.3: Geralmente decente

Avaliação Humana

Às vezes a melhor métrica é perguntar a humanos:
  • Esta resposta é útil?
  • Este resumo captura os pontos principais?
  • Esta tradução é natural?

Curvas de Loss

Training Loss vs Validation Loss

Acompanhe ambos durante o treinamento: Padrão bom:
  • Ambos diminuem
  • Permanecem próximos
  • Estabilizam eventualmente
Overfitting:
  • Training loss continua caindo
  • Validation loss aumenta
  • Gap se amplia
Underfitting:
  • Ambos permanecem altos
  • Pouca melhoria
  • Precisa de mais capacidade ou dados

Métricas Específicas por Tarefa

Image Classification

  • Top-1 Accuracy: Classe correta é a previsão principal
  • Top-5 Accuracy: Classe correta nas top 5 previsões
  • Confusion Matrix: Veja quais classes ficam confusas

Object Detection

  • mAP (mean Average Precision): Qualidade geral de detecção
  • IoU (Intersection over Union): Quão bem as caixas se sobrepõem

NER/Token Classification

  • F1 em nível de entidade: Entidades completas corretas
  • Accuracy em nível de token: Tokens individuais corretos

Referência Rápida

TarefaMétrica PrincipalBoa Pontuação
Classificação BináriaF1 Score> 0.8
Classificação Multi-classeAccuracy> 0.9
GeraçãoPerplexity< 50
TraduçãoBLEU> 0.3
ResumoROUGE> 0.4
Q&AExact Match> 0.7

Avaliação Aprimorada no AITraining

O AITraining suporta avaliação aprimorada com múltiplas métricas integradas e personalizadas.

Habilitar Avaliação Aprimorada

aitraining llm --train \
  --model google/gemma-3-270m \
  --data-path ./data.jsonl \
  --project-name my-model \
  --use-enhanced-eval \
  --eval-metrics "perplexity,bleu"

Métricas Disponíveis

MétricaDescrição
perplexityIncerteza do modelo (menor é melhor)
bleuSobreposição N-gram com referência
rougeAvaliação orientada a recall para resumo
accuracyAccuracy de classificação
f1F1 score para classificação

API Python

from autotrain.trainers.clm.params import LLMTrainingParams

params = LLMTrainingParams(
    model="google/gemma-3-270m",
    data_path="./data.jsonl",
    project_name="my-model",

    use_enhanced_eval=True,
    eval_metrics=["perplexity", "bleu"],
)

Métricas Personalizadas

Registre métricas personalizadas para avaliação especializada:
from autotrain.metrics import register_metric

@register_metric("my_custom_metric")
def compute_custom_metric(predictions, references):
    # Sua lógica de pontuação personalizada
    score = ...
    return {"my_custom_metric": score}

# Então use no treinamento
params = LLMTrainingParams(
    ...
    use_enhanced_eval=True,
    eval_metrics=["perplexity", "my_custom_metric"],
)

Dicas Práticas

  1. Sempre use conjunto de validação - Nunca avalie em dados de treinamento
  2. Considere a tarefa - Accuracy nem sempre é melhor
  3. Acompanhe tendências - Melhorar é mais importante que números absolutos
  4. Múltiplas métricas - Nenhuma métrica única conta toda a história

Sinais de Alerta

  • Accuracy de treinamento 100%, validação 60% → Overfitting
  • Todas as métricas presas → Learning rate pode estar errado
  • Métricas pulando ao redor → Batch size muito pequeno
  • Pontuações perfeitas imediatamente → Vazamento de dados ou bug

Próximos Passos