概要
LoRA (Low-Rank Adaptation) は、少数のサンプル画像を使って AI モデルに新しいビジュアルスタイルを教えるファインチューニング手法です。既存のモデルに新しい「スタイル重み」を注入することで、訓練を高速かつ効率的に行います。 このガイドでは、完全なワークフローを解説します:訓練画像を準備する
データセットのキュレーション
訓練画像の品質は結果に直接影響します。訓練タイプごとに異なる要件があります:| タイプ | 用途 | ヒント |
|---|---|---|
| Style | 芸術的スタイル、ビジュアル美学 | 多様な被写体で一貫したスタイル |
| Character | 個人の似姿、一貫したキャラクター | 多様なポーズ、表情、ライティング |
| Object | 特定のアイテム、製品 | 複数の角度、一貫したオブジェクト |
画像は何枚必要?
品質は量よりもはるかに重要です。優れた画像の少数セットは、平均的な画像の大量セットに勝ります。| データセットサイズ | ガイダンス |
|---|---|
| 5 枚 | 最小限。シンプルで一貫したスタイルに有効です |
| 10〜30 枚 | 推奨。品質とカバレッジの最良のバランス |
| 50 枚以上 | スタイルに高いバリエーションがない限り、効果は逓減します |
サンプルデータセット
- キャラクター訓練: さまざまなポーズ、表情、ライティング条件で撮影した人物の写真。他の人物が画像に写らないようにしてください。
- スタイル訓練: 一貫したスタイルのアートワーク集。例: The Metropolitan Museum of Art Ukiyo-E Dataset は、芸術的スタイルの訓練に最適な日本の木版画を提供しています。
画像をアップロードする
訓練の前に、画像をアップロードしてホストされた URL を取得します。/assets エンドポイントを使用します:
スタイルを訓練する
基本的な訓練例
訓練を開始するには、画像 URL を送信します:訓練タイプ
type パラメータは、用途に応じて最適化されたインテリジェントなデフォルトを設定します:
| タイプ | 最適用途 |
|---|---|
Style | 芸術的スタイル、ビジュアル美学 |
Character | 個人の似姿、一貫したキャラクター |
Object | 特定のアイテム、製品 |
Default | 汎用訓練 |
パラメータ
必須パラメータ
カスタムスタイルの分かりやすい名前。例:
"Ukiyo-E Style", "Product Photos"訓練に使用する画像 URL の配列。より多くの画像を含めるとより良い結果が得られます。
オプションパラメータ
訓練のベースモデル:画像モデル:
flux_dev- 高品質、汎用的flux_schnell- BFL のリアルタイムモデルqwen- Alibaba のモデルz-image- Alibaba の効率的な画像モデルwan22- 画像生成のみ
wan- Alibaba の動画モデル
訓練カテゴリ:
Style、Object、Character、または Defaultプロンプトでこのスタイルを起動するためのカスタム単語。指定されない場合、スタイル名が使用されます。
詳細パラメータ
詳細パラメータ
詳細パラメータのチューニング
type フィールドで設定されるデフォルトから始めることを推奨します — ほとんどの場合、うまく機能します。特定の問題が発生した場合のみ、以下を調整してください:
学習率
学習率
モデルが訓練画像にどれだけ強く適応するかを制御します。
調整が必要なサイン:
| 値 | 使用時期 |
|---|---|
| 0.0001 (低い) | 過学習の問題、複雑なスタイル、小さなデータセット |
| 0.0003 (デフォルト) | ほとんどの用途 |
| 0.0005-0.001 (高い) | より速い訓練 |
- 出力が訓練画像と同じに見える → 値を下げる
- 訓練後にスタイルの影響が弱い → 値を少し上げる
訓練ステップ数
訓練ステップ数
モデルが画像で訓練される期間。
調整が必要なサイン:
| データセットサイズ | 推奨ステップ数 |
|---|---|
| 5〜10 枚 | 300〜500 ステップ |
| 15〜30 枚 | 500〜800 ステップ |
| 50 枚以上 | 800〜1500 ステップ |
- 出力が硬直的で、プロンプトを無視する → ステップ数を減らす
- スタイルの影響が弱い → ステップ数を増やす
- 生成された画像が訓練データと完全に同じに見える → ステップ数を減らす(過学習)
レスポンス形式
訓練の進捗を監視する
訓練は通常 5〜15 分かかります。Jobs API をポーリングしてステータスを確認します:ジョブステータス値
ジョブステータス値
訓練ジョブは以下の状態を経て進行します:
- queued - キューで待機中
- processing - 訓練中
- completed - 訓練が正常に完了
- failed - 訓練でエラーが発生
- cancelled - ジョブが手動でキャンセル
訓練したスタイルを使用する
訓練が完了したら、styles パラメータを使って画像生成にスタイルを適用します:
スタイル強度
strength パラメータ(0.0〜1.0)は、スタイルがどれだけ強く適用されるかを制御します:
| 強度 | 効果 |
|---|---|
| 0.5〜0.7 | 控えめな影響、プロンプトの柔軟性を維持 |
| 0.8〜0.9 | 強いスタイル適用、推奨の開始点 |
| 0.95〜1.0 | 最大限のスタイル遵守、プロンプト応答性が低下する可能性 |
複数スタイルの組み合わせ
styles 配列に複数追加することで、複数のスタイルを適用できます:
ベストプラクティス
画像の選択
画像の選択
- 最適な結果のために、可能な限り多くの高品質画像を使用してください
- すべての訓練画像で一貫したスタイルを確保してください
- スタイルの一貫性を保ちつつ被写体に多様性を持たせてください
- ウォーターマーク、テキストオーバーレイ、アーティファクトは避けてください
- 少なくとも 1024x1024 の解像度の画像を使用してください
訓練の設定
訓練の設定
typeフィールドを使ってデフォルトパラメータから始めてください- スタイルの場合: 500〜1000 ステップで通常十分です
- 低い学習率(0.0001〜0.0003)は過学習を防ぎます
- スタイルの強さが不十分な場合はステップ数を増やしてください
- 出力が硬直的な場合はステップ数を減らしてください
トリガーワード
トリガーワード
- 複数のスタイルを組み合わせる予定がある場合は同じトリガーワードを使用してください
- スタイルを含めるとトリガーワードは自動的にプロンプトに挿入されます
- 典型的なプロンプトに現れる一般的な単語は避けてください
- 複数語のトリガーには下線を使用してください:
my_custom_style