Entrenamiento ORPO

ORPO combina SFT y optimización de preferencias en una sola fase de entrenamiento.

¿Qué es ORPO?

ORPO (Odds Ratio Preference Optimization) es una alternativa más simple a DPO que no requiere un modelo de referencia. Optimiza preferencias usando razones de probabilidades directamente, reduciendo el uso de memoria y la complejidad del entrenamiento.

Inicio Rápido

aitraining llm --train \
  --model google/gemma-2-2b \
  --data-path ./preferences.jsonl \
  --project-name gemma-orpo \
  --trainer orpo \
  --prompt-text-column prompt \
  --text-column chosen \
  --rejected-text-column rejected \
  --peft

ORPO requiere --prompt-text-column y --rejected-text-column. El --text-column tiene por defecto "text", así que solo especifícalo si tu columna elegida tiene un nombre diferente.

Python API

from autotrain.trainers.clm.params import LLMTrainingParams
from autotrain.project import AutoTrainProject

params = LLMTrainingParams(
    model="google/gemma-2-2b",
    data_path="./preferences.jsonl",
    project_name="gemma-orpo",

    trainer="orpo",
    prompt_text_column="prompt",
    text_column="chosen",
    rejected_text_column="rejected",
    dpo_beta=0.1,  # Default: 0.1
    max_prompt_length=128,  # Default: 128
    max_completion_length=None,  # Default: None

    epochs=3,
    batch_size=2,
    lr=5e-5,

    peft=True,
    lora_r=16,
)

project = AutoTrainProject(params=params, backend="local", process=True)
project.create()

Formato de Datos

Igual que DPO - pares de preferencia:

{
  "prompt": "What is AI?",
  "chosen": "AI is artificial intelligence, a field of computer science focused on creating systems that can perform tasks requiring human intelligence.",
  "rejected": "AI is just robots."
}

ORPO vs DPO

Aspecto	ORPO	DPO
Modelo de referencia	No necesario	No necesario con PEFT, requerido para fine-tuning completo
Uso de memoria	Menor	Mayor (si usa modelo de referencia)
Velocidad de entrenamiento	Más rápido	Más lento
Fase SFT	Combinada	Separada
Complejidad	Más simple	Más opciones

Parámetros

Parámetro	Descripción	Por Defecto
`trainer`	Establecer como `"orpo"`	Requerido
`dpo_beta`	Peso de razón de probabilidades	`0.1`
`max_prompt_length`	Máximo de tokens del prompt	`128`
`max_completion_length`	Máximo de tokens de la respuesta	`None`

Cuándo Usar ORPO

Elige ORPO cuando:

La memoria es limitada (no se necesita modelo de referencia)
Quieres SFT + alineación combinado
Se prefiere un pipeline de entrenamiento más simple
Comenzando desde un modelo base (no ajustado para instrucciones)

Elige DPO cuando:

Necesitas control fino
Trabajando con modelos ya ajustados para instrucciones
El comportamiento del modelo de referencia es importante

Ejemplo: Soporte al Cliente

params = LLMTrainingParams(
    model="google/gemma-2-2b",
    data_path="./support_preferences.jsonl",
    project_name="support-bot",

    trainer="orpo",
    dpo_beta=0.15,

    epochs=3,
    batch_size=2,
    gradient_accumulation=4,
    lr=2e-5,

    peft=True,
    lora_r=32,
    lora_alpha=64,

    log="wandb",
)

Técnicas de Entrenamiento

Optimización

Desarrollo Personalizado

Evaluación

Investigación

Producción

Entrenamiento ORPO

Entrenamiento ORPO

¿Qué es ORPO?

Inicio Rápido

Python API

Formato de Datos

ORPO vs DPO

Parámetros

Cuándo Usar ORPO

Ejemplo: Soporte al Cliente

Próximos Pasos

DPO Training

Reward Modeling

Técnicas de Entrenamiento

Optimización

Desarrollo Personalizado

Evaluación

Investigación

Producción

​Entrenamiento ORPO

​¿Qué es ORPO?

​Inicio Rápido

​Python API

​Formato de Datos

​ORPO vs DPO

​Parámetros

​Cuándo Usar ORPO

​Ejemplo: Soporte al Cliente

​Próximos Pasos

DPO Training

Reward Modeling

Entrenamiento ORPO

¿Qué es ORPO?

Inicio Rápido

Python API

Formato de Datos

ORPO vs DPO

Parámetros

Cuándo Usar ORPO

Ejemplo: Soporte al Cliente

Próximos Pasos