Treinamento ORPO
ORPO combina SFT e otimização de preferências em uma única fase de treinamento.O que é ORPO?
ORPO (Odds Ratio Preference Optimization) é uma alternativa mais simples ao DPO que não requer um modelo de referência. Ele otimiza preferências usando razões de chances diretamente, reduzindo o uso de memória e a complexidade do treinamento.Início Rápido
Python API
Formato dos Dados
O mesmo que DPO - pares de preferência:ORPO vs DPO
| Aspecto | ORPO | DPO |
|---|---|---|
| Modelo de referência | Não necessário | Não necessário com PEFT, obrigatório para fine-tuning completo |
| Uso de memória | Menor | Maior (se usar modelo de referência) |
| Velocidade de treinamento | Mais rápido | Mais lento |
| Fase SFT | Combinada | Separada |
| Complexidade | Mais simples | Mais opções |
Parâmetros
| Parâmetro | Descrição | Padrão |
|---|---|---|
trainer | Definir como "orpo" | Obrigatório |
dpo_beta | Peso da razão de chances | 0.1 |
max_completion_length | Máximo de tokens da resposta | None |
image_column | Coluna de imagens para treinamento de preferencia VLM | None |
VLM (Vision-Language) ORPO
ORPO suporta modelos de visao-linguagem como Qwen 3.5-VL para alinhamento de preferencia com imagem+texto. Definaimage_column para habilitar o modo VLM:
chosen/rejected com listas de mensagens, e uma coluna de imagem contendo as imagens. A coluna de imagem e automaticamente renomeada para images para compatibilidade com TRL.
Quando Usar ORPO
Escolha ORPO quando:- Memória é limitada (nenhum modelo de referência necessário)
- Você quer SFT + alinhamento combinado
- Pipeline de treinamento mais simples é preferido
- Começando de um modelo base (não ajustado para instruções)
- Você precisa de controle fino
- Trabalhando com modelos já ajustados para instruções
- Comportamento do modelo de referência é importante
Exemplo: Suporte ao Cliente
Próximos Passos
DPO Training
Método alternativo de alinhamento
Reward Modeling
Treinar modelos de recompensa