Tarefas de Visão

Treine modelos para classificação de imagem, detecção de objetos e tarefas visão-linguagem.

Classificação de Imagem

Início Rápido

aitraining image-classification \
  --model google/vit-base-patch16-224 \
  --data-path ./images/ \
  --project-name image-classifier

Parameters

Parameter	Description	Default
`--model`	Base model	`google/vit-base-patch16-224`
`--data-path`	Path to image folder	None (required)
`--project-name`	Output directory	`project-name`
`--image-column`	Image column name	`image`
`--target-column`	Label column name	`target`
`--epochs`	Training epochs	`3`
`--batch-size`	Batch size	`8`
`--lr`	Learning rate	`5e-5`

Formato dos Dados

Estrutura de pastas:

images/
├── cat/
│   ├── cat1.jpg
│   └── cat2.jpg
├── dog/
│   ├── dog1.jpg
│   └── dog2.jpg

Or CSV with paths:

image,label
/path/to/cat1.jpg,cat
/path/to/dog1.jpg,dog

Exemplo: Classificador Customizado

aitraining image-classification \
  --model microsoft/resnet-50 \
  --data-path ./product_images/ \
  --project-name product-classifier \
  --epochs 10 \
  --batch-size 32 \
  --lr 5e-5

Regressão de Imagem

Para prever valores contínuos a partir de imagens.

Início Rápido

aitraining image-regression \
  --model google/vit-base-patch16-224 \
  --data-path ./images.csv \
  --image-column image \
  --target-column score \
  --project-name quality-scorer

Parameters

Parameter	Description	Default
`--model`	Base model	`google/vit-base-patch16-224`
`--data-path`	Path to data	None (required)
`--project-name`	Output directory	`project-name`
`--image-column`	Image column name	`image`
`--target-column`	Target value column	`target`
`--epochs`	Training epochs	`3`
`--batch-size`	Batch size	`8`
`--lr`	Learning rate	`5e-5`

Exemplo: Predição de Idade

aitraining image-regression \
  --model microsoft/resnet-50 \
  --data-path ./faces.csv \
  --image-column photo \
  --target-column age \
  --project-name age-predictor \
  --epochs 20

Detecção de Objetos

Início Rápido

aitraining object-detection \
  --model facebook/detr-resnet-50 \
  --data-path ./coco_format/ \
  --project-name detector

Data Format

COCO-style format:

{
  "image": "image.jpg",
  "objects": {
    "bbox": [[x, y, width, height], ...],
    "categories": [0, 1, ...]
  }
}

Parameters

Parameter	Description	Default
`--image-column`	Image column	`image`
`--objects-column`	Objects column	`objects`
`--image-square-size`	Square size for images	`600`

Exemplo: Detecção Customizada

aitraining object-detection \
  --model facebook/detr-resnet-50 \
  --data-path ./annotations/ \
  --project-name custom-detector \
  --epochs 50 \
  --batch-size 8

Modelos Visão-Linguagem (VLM)

Treine modelos que entendem tanto imagens quanto texto.

Início Rápido

aitraining vlm \
  --model google/paligemma-3b-pt-224 \
  --data-path ./image_captions.jsonl \
  --project-name vlm-model

Data Format

{
  "image": "image.jpg",
  "conversations": [
    {"role": "user", "content": "What's in this image?"},
    {"role": "assistant", "content": "A cat sitting on a couch."}
  ]
}

Parameters

Parameter	Description	Default
`--model`	Base model	`google/paligemma-3b-pt-224`
`--image-column`	Image column	`image`
`--text-column`	Text/answer column	`text`
`--prompt-text-column`	Prompt/prefix column	`prompt`
`--trainer`	Training mode (`vqa`, `captioning`, `segmentation`, `detection`)	`vqa`
`--epochs`	Training epochs	`3`
`--batch-size`	Batch size	`2`
`--lr`	Learning rate	`5e-5`
`--gradient-accumulation`	Gradient accumulation steps	`4`
`--peft`	Enable LoRA	`False`
`--lora-r`	LoRA rank	`16`
`--lora-alpha`	LoRA alpha	`32`

Exemplo: Legendagem de Imagem

aitraining vlm \
  --model Qwen/Qwen2-VL-2B-Instruct \
  --data-path ./captions.jsonl \
  --project-name captioner \
  --epochs 3 \
  --batch-size 2 \
  --peft \
  --lora-r 16

Modelos Comuns

Classificação de Imagem

Model	Parameters	Best For
`google/vit-base-patch16-224`	86M	General purpose
`microsoft/resnet-50`	25M	Fast inference
`facebook/convnext-base-224`	89M	High accuracy

Detecção de Objetos

Model	Parameters	Best For
`facebook/detr-resnet-50`	41M	General detection
`facebook/detr-resnet-101`	60M	Higher accuracy

Visão-Linguagem

Model	Parameters	Best For
`Qwen/Qwen2-VL-2B-Instruct`	2B	Balanced
`llava-hf/llava-1.5-7b-hf`	7B	High quality

Dicas de Memória GPU

Use tamanhos de batch menores para imagens grandes
Habilite gradient checkpointing para VLMs
Use LoRA para treinamento VLM:

aitraining vlm \
  --model Qwen/Qwen2-VL-2B-Instruct \
  --data-path ./data.jsonl \
  --project-name vlm \
  --peft \
  --lora-r 16 \
  --batch-size 1 \
  --gradient-accumulation 8

Básicos do CLI

Configuração

Comandos de Treinamento

Uso Avançado

Inferência

Tarefas de Visão

Tarefas de Visão

Classificação de Imagem

Início Rápido

Parameters

Formato dos Dados

Exemplo: Classificador Customizado

Regressão de Imagem

Início Rápido

Parameters

Exemplo: Predição de Idade

Detecção de Objetos

Início Rápido

Data Format

Parameters

Exemplo: Detecção Customizada

Modelos Visão-Linguagem (VLM)

Início Rápido

Data Format

Parameters

Exemplo: Legendagem de Imagem

Modelos Comuns

Classificação de Imagem

Detecção de Objetos

Visão-Linguagem

Dicas de Memória GPU

Próximos Passos

Tarefas de Texto

Dados Tabulares

Básicos do CLI

Configuração

Comandos de Treinamento

Uso Avançado

Inferência

​Tarefas de Visão

​Classificação de Imagem

​Início Rápido

​Parameters

​Formato dos Dados

​Exemplo: Classificador Customizado

​Regressão de Imagem

​Início Rápido

​Parameters

​Exemplo: Predição de Idade

​Detecção de Objetos

​Início Rápido

​Data Format

​Parameters

​Exemplo: Detecção Customizada

​Modelos Visão-Linguagem (VLM)

​Início Rápido

​Data Format

​Parameters

​Exemplo: Legendagem de Imagem

​Modelos Comuns

​Classificação de Imagem

​Detecção de Objetos

​Visão-Linguagem

​Dicas de Memória GPU

​Próximos Passos

Tarefas de Texto

Dados Tabulares

Tarefas de Visão

Classificação de Imagem

Início Rápido

Parameters

Formato dos Dados

Exemplo: Classificador Customizado

Regressão de Imagem

Início Rápido

Parameters

Exemplo: Predição de Idade

Detecção de Objetos

Início Rápido

Data Format

Parameters

Exemplo: Detecção Customizada

Modelos Visão-Linguagem (VLM)

Início Rápido

Data Format

Parameters

Exemplo: Legendagem de Imagem

Modelos Comuns

Classificação de Imagem

Detecção de Objetos

Visão-Linguagem

Dicas de Memória GPU

Próximos Passos