Tipos de Tarefas de Treinamento
O AI Training suporta muitas tarefas diferentes. Cada tarefa é otimizada para tipos específicos de problemas que você quer resolver.Tarefas de Texto
Text Classification
O que faz: Classifica texto em categorias que você define. Exemplos do mundo real:- Detecção de spam em email
- Sentimento de feedback do cliente (feliz/infeliz)
- Roteamento de tickets de suporte
- Moderação de conteúdo
- Detecção de idioma
- Amostras de texto
- Rótulos de categoria para cada amostra
- Pelo menos 50 exemplos por categoria (mais é melhor)
Token Classification (NER)
O que faz: Rotula palavras ou frases específicas em texto. Exemplos do mundo real:- Extrair nomes, datas, localizações de documentos
- Identificar menções de produtos em avaliações
- Encontrar termos médicos em notas clínicas
- Destacar cláusulas importantes de contratos
- Marcar partes do discurso
- Texto com entidades marcadas
- Rótulos em formato BIO (Beginning, Inside, Outside)
- Centenas de exemplos anotados
Sequence to Sequence
O que faz: Transforma um texto em outro. Exemplos do mundo real:- Tradução de idiomas
- Resumo de texto
- Resposta a perguntas
- Correção de texto
- Paráfrase
- Texto de entrada
- Texto de saída desejado
- Pares de exemplos entrada-saída
Text Generation (LLM Fine-tuning)
O que faz: Ensina modelos de linguagem novos conhecimentos ou comportamentos. Exemplos do mundo real:- Chatbots personalizados
- Assistentes específicos de domínio
- Geração de código
- Escrita criativa
- Documentação técnica
- Exemplos de conversação ou pares instrução-resposta
- Opcional: Dados de preferência para RLHF
- Pode funcionar com apenas 100 exemplos
Tarefas de Imagem
Image Classification
O que faz: Identifica o que há em uma imagem. Exemplos do mundo real:- Inspeção de qualidade de produtos
- Diagnóstico de imagens médicas
- Identificação de vida selvagem
- Classificação de tipo de documento
- Reconhecimento de expressão facial
- Imagens (JPG, PNG)
- Rótulo de categoria para cada imagem
- Pelo menos 100 imagens por categoria
Object Detection
O que faz: Encontra e localiza múltiplos objetos em imagens. Exemplos do mundo real:- Contagem de inventário
- Monitoramento de segurança
- Condução autônoma
- Detecção de defeitos
- Contagem de pessoas
- Imagens com caixas delimitadoras
- Rótulos para cada caixa
- Anotações em formato COCO ou YOLO
Tarefas de Dados Estruturados
Tabular Classification
O que faz: Prevê categorias de dados tipo planilha. Exemplos do mundo real:- Previsão de churn de clientes
- Detecção de fraude
- Diagnóstico de doenças
- Aprovação de crédito
- Previsão de falha de equipamento
- CSV com features e rótulos
- Colunas numéricas e categóricas
- Dados limpos e pré-processados
Tabular Regression
O que faz: Prevê valores contínuos de dados estruturados. Exemplos do mundo real:- Previsão de preço de casas
- Previsão de vendas
- Estimativa de consumo de energia
- Previsão de preço de ações
- Estimativa de tempo de entrega
- CSV com features e valores alvo
- Coluna alvo numérica
- Dados históricos
Métodos Avançados de Treinamento
Supervised Fine-Tuning (SFT)
Treinamento padrão com exemplos e respostas corretas. Use quando: Você tem dados rotulados de boa qualidade.DPO (Direct Preference Optimization)
Treine modelos usando comparações de preferência. Use quando: Você tem exemplos de saídas boas vs ruins. Data format:ORPO (Odds Ratio Preference Optimization)
Similar ao DPO mas com treinamento mais estável. Use quando: Treinamento DPO está instável ou com overfitting.Reward Modeling
Treine um modelo para pontuar saídas. Use quando: Construindo um modelo de recompensa para RLHF.PPO (Proximal Policy Optimization)
Aprendizado por reforço a partir de feedback. Use quando: Você tem um modelo de recompensa e quer otimizar contra ele.Guia de Seleção de Tarefa
Com Base em Seus Dados
| Se você tem… | Escolha esta tarefa |
|---|---|
| Texto + categorias | Text Classification |
| Texto com rótulos de entidades | Token Classification |
| Pares texto entrada/saída | Sequence to Sequence |
| Conversas | LLM Fine-tuning |
| Imagens + rótulos | Image Classification |
| Dados de planilha | Tabular Classification/Regression |
Com Base em Seu Objetivo
| Se você quer… | Escolha esta tarefa |
|---|---|
| Classificar coisas em categorias | Classification |
| Extrair informações | Token Classification |
| Transformar texto | Sequence to Sequence |
| Criar um chatbot | LLM Fine-tuning |
| Prever números | Regression |
| Encontrar objetos | Object Detection |
Com Base em Dificuldade
Mais fácil para começar:- Text Classification
- Image Classification
- Tabular Classification
- Token Classification
- Sequence to Sequence
- LLM Fine-tuning (SFT)
- Treinamento DPO/ORPO
- Object Detection
- PPO/RLHF
Requisitos de Dados
Dados Mínimos Necessários
| Tarefa | Mínimo Absoluto | Bom Ponto de Partida | Qualidade de Produção |
|---|---|---|---|
| Text Classification | 50 por classe | 500 por classe | 5.000+ por classe |
| Token Classification | 100 documentos | 1.000 documentos | 10.000+ documentos |
| Seq2Seq | 100 pares | 1.000 pares | 10.000+ pares |
| LLM Fine-tuning | 50 exemplos | 500 exemplos | 5.000+ exemplos |
| Image Classification | 100 por classe | 1.000 por classe | 10.000+ por classe |
| Tabular | 500 linhas | 5.000 linhas | 50.000+ linhas |
Qualidade dos Dados Importa
Melhor ter 100 exemplos de alta qualidade que 1.000 ruins:- Rótulos precisos
- Formatação consistente
- Representativo do uso do mundo real
- Balanceado entre categorias
Treinamento Multi-Tarefa
Você pode treinar modelos para múltiplas tarefas simultaneamente:Benefícios
- Compartilhar conhecimento entre tarefas
- Uso mais eficiente de dados
- Implantação de modelo único
Exemplo
Treine um modelo para:- Classificar sentimento
- Extrair entidades
- Resumir texto
Configurações Específicas por Tarefa
Tarefas de Texto
- Max sequence length: Quanto texto processar
- Tokenizer: Como dividir texto em tokens
- Special tokens: Marcadores específicos da tarefa
Tarefas de Imagem
- Image size: Resolução a usar
- Augmentation: Rotação, inversão, corte
- Normalization: Escala de valores de pixel
Tarefas Tabulares
- Feature engineering: Criar novas colunas
- Scaling: Normalizar valores numéricos
- Encoding: Lidar com variáveis categóricas
Métricas de Avaliação
Diferentes tarefas usam diferentes métricas:| Tarefa | Métricas Comuns |
|---|---|
| Classification | Accuracy, F1, Precision, Recall |
| Token Classification | F1 em nível de entidade, Accuracy de token |
| Seq2Seq | BLEU, ROUGE, BERTScore |
| Generation | Perplexity, Avaliação humana |
| Regression | MSE, MAE, R² |
| Object Detection | mAP, IoU |
Combinando Tarefas
Abordagem de Pipeline
Encadeie tarefas:- Classification → Roteie para modelo especializado
- NER → Extraia entidades → Gere resposta
- Traduza → Resuma → Classifique sentimento
Tarefas Multi-Modais
Combine diferentes tipos de dados:- Imagem + Texto → Visual QA
- Áudio + Texto → Reconhecimento de fala
- Vídeo + Texto → Entendimento de vídeo