Überblick
LoRA (Low-Rank Adaptation) ist eine Fine-Tuning-Technik, die einem KI-Modell einen neuen visuellen Stil anhand einer kleinen Menge von Beispielbildern beibringt. Sie funktioniert, indem neue „Style Weights“ in ein bestehendes Modell injiziert werden — das macht das Training schnell und effizient. Dieser Leitfaden führt dich durch den vollständigen Workflow:Trainingsbilder vorbereiten
Kuratiere und lade hochwertige Bilder hoch, die deinen gewünschten Stil repräsentieren
Trainings-Job einreichen
Sende eine POST-Anfrage an
/styles/train mit deinen Bild-URLs und der KonfigurationTrainingsbilder vorbereiten
Deinen Datensatz kuratieren
Die Qualität deiner Trainingsbilder wirkt sich direkt auf die Ergebnisse aus. Unterschiedliche Trainings-Typen haben unterschiedliche Anforderungen:| Typ | Anwendungsfall | Tipps |
|---|---|---|
| Style | Künstlerische Stile, visuelle Ästhetik | Konsistenter Stil über verschiedene Motive hinweg |
| Character | Persönliche Ähnlichkeit, konsistente Charaktere | Verschiedene Posen, Ausdrücke, Beleuchtung |
| Object | Bestimmte Gegenstände, Produkte | Mehrere Winkel, konsistentes Objekt |
Wie viele Bilder?
Qualität zählt weit mehr als Quantität. Ein kleiner Satz exzellenter Bilder übertrifft einen großen Satz mittelmäßiger Bilder.| Datensatzgröße | Empfehlung |
|---|---|
| 5 Bilder | Minimum. Kann für einfache, konsistente Stile funktionieren |
| 10–30 Bilder | Empfohlen. Bestes Verhältnis von Qualität und Abdeckung |
| 50+ Bilder | Nur bei sehr variantenreichen Stilen sinnvoll |
Beispiel-Datensätze
- Character-Training: Fotos einer Person in verschiedenen Posen, mit unterschiedlichen Ausdrücken und Lichtverhältnissen. Vermeide andere Personen in den Bildern.
- Style-Training: Eine Sammlung von Kunstwerken in einem konsistenten Stil. Zum Beispiel bietet The Metropolitan Museum of Art Ukiyo-E Dataset japanische Holzschnitte, die sich ideal für das Trainieren eines künstlerischen Stils eignen.
Bilder hochladen
Lade deine Bilder vor dem Training hoch, um gehostete URLs zu erhalten. Verwende den/assets-Endpoint:
Deinen Stil trainieren
Einfaches Trainingsbeispiel
Reiche deine Bild-URLs ein, um das Training zu starten:Trainingstypen
Dertype-Parameter setzt intelligente Standardwerte, die auf deinen Anwendungsfall optimiert sind:
| Typ | Am besten geeignet für |
|---|---|
Style | Künstlerische Stile, visuelle Ästhetik |
Character | Persönliche Ähnlichkeit, konsistente Charaktere |
Object | Bestimmte Gegenstände, Produkte |
Default | Allgemeines Training |
Parameter
Erforderliche Parameter
Ein sprechender Name für deinen benutzerdefinierten Stil.Beispiel:
"Ukiyo-E Style", "Product Photos"Array von Bild-URLs, mit denen trainiert werden soll. Mehr Bilder führen zu besseren Ergebnissen.
Optionale Parameter
Basismodell für das Training:Bildmodelle:
flux_dev– Hohe Qualität, vielseitigflux_schnell– BFLs Realtime-Modellqwen– Alibabas Modellz-image– Alibabas effizientes Bildmodellwan22– Nur Bildgenerierung
wan– Alibabas Videomodell
Trainingskategorie:
Style, Object, Character oder DefaultBenutzerdefiniertes Wort, um diesen Stil in Prompts zu aktivieren. Wenn nicht angegeben, wird der Stilname verwendet.
Erweiterte Parameter
Erweiterte Parameter
Steuert die Trainingsintensität. Höhere Werte trainieren schneller, können aber zu Overfitting führen.Empfohlener Bereich: 0.0001 – 0.001
Maximale Anzahl an Trainings-Iterationen. Bereich: 1–2000
Bilder, die gleichzeitig verarbeitet werden. Größere Batches = schnelleres Training, aber mehr Speicherbedarf.
Erweiterte Parameter tunen
Beginne mit den durch dastype-Feld gesetzten Standardwerten — sie funktionieren in den meisten Fällen gut. Passe diese nur an, wenn du konkrete Probleme siehst:
Learning Rate
Learning Rate
Steuert, wie aggressiv sich das Modell an deine Trainingsbilder anpasst.
Anzeichen, dass du anpassen solltest:
| Wert | Wann verwenden |
|---|---|
| 0.0001 (niedriger) | Overfitting-Probleme, komplexe Stile, kleine Datensätze |
| 0.0003 (Standard) | Die meisten Anwendungsfälle |
| 0.0005–0.001 (höher) | Schnelleres Training |
- Ausgaben sehen identisch zu Trainingsbildern aus → Rate senken
- Stileinfluss ist nach dem Training schwach → Rate leicht erhöhen
Trainings-Schritte
Trainings-Schritte
Wie lange das Modell auf deinen Bildern trainiert.
Anzeichen, dass du anpassen solltest:
| Datensatzgröße | Empfohlene Schritte |
|---|---|
| 5–10 Bilder | 300–500 Schritte |
| 15–30 Bilder | 500–800 Schritte |
| 50+ Bilder | 800–1500 Schritte |
- Ausgaben sind zu starr und ignorieren Prompts → Schritte reduzieren
- Stileinfluss ist schwach → Schritte erhöhen
- Generierte Bilder sehen exakt wie Trainingsdaten aus → Schritte reduzieren (Overfitting)
Antwortformat
Trainingsfortschritt überwachen
Das Training dauert typischerweise 5–15 Minuten. Polle die Jobs-API, um den Status zu prüfen:Job-Status-Werte
Job-Status-Werte
Trainings-Jobs durchlaufen diese Zustände:
- queued – Wartet in der Warteschlange
- processing – Aktives Training
- completed – Training erfolgreich abgeschlossen
- failed – Training ist auf einen Fehler gestoßen
- cancelled – Job manuell abgebrochen
Deinen trainierten Stil verwenden
Sobald das Training abgeschlossen ist, wendest du deinen Stil über denstyles-Parameter auf die Bildgenerierung an:
Stil-Stärke
Derstrength-Parameter (0.0–1.0) steuert, wie stark dein Stil angewendet wird:
| Stärke | Effekt |
|---|---|
| 0.5–0.7 | Subtiler Einfluss, behält Prompt-Flexibilität |
| 0.8–0.9 | Starke Stilanwendung, empfohlener Startwert |
| 0.95–1.0 | Maximale Stiltreue, kann Prompt-Empfänglichkeit reduzieren |
Mehrere Stile kombinieren
Wende mehrere Stile an, indem du sie demstyles-Array hinzufügst:
Best Practices
Bildauswahl
Bildauswahl
- Verwende so viele hochwertige Bilder wie möglich für optimale Ergebnisse
- Sorge für konsistenten Stil über alle Trainingsbilder hinweg
- Bringe Motiv-Vielfalt ein, ohne die Stilkonsistenz zu verlieren
- Vermeide Wasserzeichen, Text-Overlays oder Artefakte
- Verwende Bilder mit mindestens 1024x1024 Auflösung
Trainingskonfiguration
Trainingskonfiguration
- Starte mit den Standardparametern über das
type-Feld - Für Stile: 500–1000 Schritte reichen meist aus
- Niedrigere Learning Rates (0.0001–0.0003) verhindern Overfitting
- Erhöhe die Schritte, wenn der Stil nicht stark genug ist
- Reduziere die Schritte, wenn die Ausgabe zu starr ist
Trigger-Wörter
Trigger-Wörter
- Verwende dasselbe Trigger-Wort, wenn du planst, mehrere Stile zu kombinieren
- Trigger-Wörter werden automatisch in den Prompt eingefügt, wenn du den Stil verwendest
- Vermeide gängige Wörter, die in typischen Prompts vorkommen
- Verwende Unterstriche für mehrteilige Trigger:
my_custom_style