Visão geral
LoRA (Low-Rank Adaptation) é uma técnica de fine-tuning que ensina a um modelo de IA um novo estilo visual usando um pequeno conjunto de imagens de exemplo. Ela funciona injetando novos “pesos de estilo” em um modelo existente, tornando o treinamento rápido e eficiente. Este guia percorre o fluxo completo:Preparar imagens de treinamento
Faça a curadoria e upload de imagens de alta qualidade que representem o estilo desejado
Enviar job de treinamento
Envie uma requisição POST para
/styles/train com as URLs das imagens e a configuraçãoPreparar imagens de treinamento
Curando seu dataset
A qualidade das suas imagens de treinamento impacta diretamente os resultados. Diferentes tipos de treinamento têm requisitos distintos:| Tipo | Caso de uso | Dicas |
|---|---|---|
| Estilo | Estilos artísticos, estéticas visuais | Estilo consistente em assuntos variados |
| Personagem | Aparência pessoal, personagens consistentes | Poses, expressões e iluminação variadas |
| Objeto | Itens específicos, produtos | Múltiplos ângulos, objeto consistente |
Quantas imagens?
Qualidade importa muito mais que quantidade. Um pequeno conjunto de imagens excelentes vai superar um grande conjunto de imagens medianas.| Tamanho do dataset | Orientação |
|---|---|
| 5 imagens | Mínimo viável. Pode funcionar para estilos simples e consistentes |
| 10-30 imagens | Recomendado. Melhor equilíbrio entre qualidade e cobertura |
| 50+ imagens | Retornos decrescentes, a menos que o estilo tenha alta variação |
Datasets de exemplo
- Treinamento de personagem: fotos de uma pessoa com poses, expressões e condições de iluminação variadas. Evite incluir outras pessoas nas imagens.
- Treinamento de estilo: uma coleção de obras de arte em um estilo consistente. Por exemplo, o The Metropolitan Museum of Art Ukiyo-E Dataset fornece xilogravuras japonesas ideais para treinar um estilo artístico.
Fazer upload das imagens
Antes do treinamento, faça upload das suas imagens para obter URLs hospedadas. Use o endpoint/assets:
Treinar seu estilo
Exemplo básico de treinamento
Envie as URLs das suas imagens para iniciar o treinamento:Tipos de treinamento
O parâmetrotype define padrões inteligentes otimizados para seu caso de uso:
| Tipo | Melhor para |
|---|---|
Style | Estilos artísticos, estéticas visuais |
Character | Aparência pessoal, personagens consistentes |
Object | Itens específicos, produtos |
Default | Treinamento genérico |
Parâmetros
Parâmetros obrigatórios
Um nome descritivo para seu estilo personalizado.Exemplo:
"Ukiyo-E Style", "Product Photos"Array de URLs de imagens para treinar. Inclua mais imagens para melhores resultados.
Parâmetros opcionais
Modelo base para treinamento:Modelos de imagem:
flux_dev- Alta qualidade, versátilflux_schnell- Modelo em tempo real da BFLqwen- Modelo da Alibabaz-image- Modelo eficiente de imagem da Alibabawan22- Apenas geração de imagem
wan- Modelo de vídeo da Alibaba
Categoria de treinamento:
Style, Object, Character ou DefaultPalavra personalizada para ativar este estilo nos prompts. Quando não especificada, usa o nome do estilo.
Parâmetros avançados
Parâmetros avançados
Controla a intensidade do treinamento. Valores mais altos treinam mais rápido, mas podem causar overfitting.Faixa recomendada: 0.0001 - 0.001
Máximo de iterações de treinamento. Faixa: 1-2000
Imagens processadas simultaneamente. Lotes maiores = treinamento mais rápido, mas mais memória.
Ajustando parâmetros avançados
Comece com os padrões definidos pelo campotype — eles funcionam bem para a maioria dos casos. Ajuste-os apenas se você observar problemas específicos:
Learning rate
Learning rate
Controla o quão agressivamente o modelo se adapta às suas imagens de treinamento.
Sinais de que você precisa ajustar:
| Valor | Quando usar |
|---|---|
| 0.0001 (menor) | Problemas de overfitting, estilos complexos, datasets pequenos |
| 0.0003 (padrão) | Maioria dos casos |
| 0.0005-0.001 (maior) | Treinamento mais rápido |
- As saídas parecem idênticas às imagens de treinamento → reduza a taxa
- A influência do estilo está fraca após o treinamento → aumente a taxa levemente
Passos de treinamento
Passos de treinamento
Por quanto tempo o modelo treina nas suas imagens.
Sinais de que você precisa ajustar:
| Tamanho do dataset | Passos recomendados |
|---|---|
| 5-10 imagens | 300-500 passos |
| 15-30 imagens | 500-800 passos |
| 50+ imagens | 800-1500 passos |
- Saídas muito rígidas, ignorando os prompts → reduza os passos
- Influência do estilo fraca → aumente os passos
- Imagens geradas ficam exatamente iguais aos dados de treinamento → reduza os passos (overfitting)
Formato da resposta
Monitorar o progresso do treinamento
O treinamento normalmente leva de 5 a 15 minutos. Faça polling na Jobs API para verificar o status:Valores de status do job
Valores de status do job
Jobs de treinamento passam por estes estados:
- queued - Aguardando na fila
- processing - Treinamento ativo
- completed - Treinamento concluído com sucesso
- failed - Treinamento encontrou um erro
- cancelled - Job cancelado manualmente
Usar seu estilo treinado
Assim que o treinamento for concluído, aplique seu estilo à geração de imagens usando o parâmetrostyles:
Força do estilo
O parâmetrostrength (0.0-1.0) controla o quão fortemente seu estilo é aplicado:
| Força | Efeito |
|---|---|
| 0.5-0.7 | Influência sutil, mantém flexibilidade do prompt |
| 0.8-0.9 | Aplicação forte do estilo, ponto de partida recomendado |
| 0.95-1.0 | Aderência máxima ao estilo, pode reduzir responsividade ao prompt |
Combinando múltiplos estilos
Aplique vários estilos adicionando-os ao arraystyles:
Boas práticas
Seleção de imagens
Seleção de imagens
- Use quantas imagens de alta qualidade você tiver para melhores resultados
- Garanta estilo consistente em todas as imagens de treinamento
- Inclua variedade nos assuntos mantendo a coerência de estilo
- Evite marcas d’água, sobreposições de texto ou artefatos
- Use imagens com pelo menos 1024x1024 de resolução
Configuração de treinamento
Configuração de treinamento
- Comece com os parâmetros padrão usando o campo
type - Para estilos: 500-1000 passos costumam ser suficientes
- Learning rates menores (0.0001-0.0003) previnem overfitting
- Aumente os passos se o estilo não estiver forte o suficiente
- Diminua os passos se a saída estiver muito rígida
Palavras-gatilho
Palavras-gatilho
- Use a mesma palavra-gatilho se você planeja combinar múltiplos estilos
- As palavras-gatilho são injetadas automaticamente no prompt se você incluir o estilo
- Evite palavras comuns que aparecem em prompts típicos
- Use underscores para gatilhos com múltiplas palavras:
my_custom_style