Krea 2 深堀り:探索、スタイル参照、ムードボード
by The Krea Team
Krea 2 は、完全にゼロから構築された初の基盤モデルで、美学とクリエイティブコントロールに重点を置いています。
AIで画像を作成するときには、本質的に2つの質問があります:画像に何を望むか、そしてどのように見せたいか。
ほとんどのモデルは前者が得意です。複雑なプロンプトも難なく処理します。
しかしスタイルに関しては、洗練されて安全で少し一般的な、いわゆるAIっぽい見た目にデフォルトで落ち着きます。
以前にもそのAIっぽい見た目と、それが表現的または芸術的なものをモデルから引き出そうとするときに生じる障壁について話しました。Krea 2ではそれに真正面から取り組みました。
モデル自体と同じくらい、画像の見た目に注力しました。
目標は、ざらついたフィルム写真から最もクリーンなスタジオショット、映画のスチル、イラスト、デジタルペインティング、そしてより実験的な領域まで、ほぼあらゆるスタイルを描写できること。
そして同じくらい重要なのは、単にプロンプトを与えるだけでなく、操作できることです。
理由は重要です。
Kreaでこれまで作ってきた製品や機能は、常に利用可能なモデルに制限されてきました。
自分たちの研究所を立ち上げたことで、AIを実際のクリエイティブな媒体として扱う、未加工で柔軟、偏りのない技術をついに作れるようになりました。
壊してもいい、同じ数種類の見た目に静かに閉じ込められないものです。
この投稿では、Krea 2でそれを可能にする3つの要素、画像ツールでの自由な探索、スタイル参照、ムードボードについて解説します。
あいまいに始めて、モデルに探索させる
Krea 2は完全に形作られたアイデアを期待しません。
「自転車に乗る猫」のような簡単なプロンプトで画像ツールに入り、2〜3回生成を押すだけでいいのです。
返ってくるのは、単一の安全な解釈の4つのバリエーションではなく、そのコンセプトをまったく異なる方法で表現するモデルの思考です。
絵画、古いVHS写真、ミニマルなイラスト、独自の内的論理を持つ抽象形状など。
最初の生成は一種のムードスイープとなり、どのイメージがこのプロンプトの中に存在するかを確認し、どれかに決める前のリサーチになります。

これはほとんどの画像モデルが訓練する姿勢とは異なります。
詳細なブリーフを用意する必要はありません。
最初の3回の生成をリサーチとして使い、好きな方向性を見つけてから絞り込めます。
これは多くのAIツールが強いる書き方よりも、アートディレクターの仕事の仕方に近いです — 広く始めてから絞り込む。
プロンプトを少しだけ絞り込むと — 例えば「自転車に乗る猫、レトロな漫画イラスト」 — 多様性は残しつつもクラスターは狭まります。
すべてがレトロな漫画のように感じられ、そのスタイル内でのバリエーションが生まれます。
複雑なものもあればミニマルなものもありますが、すべてが明確にレトロ漫画です。
モデルは「レトロ漫画」の単一の正典的解釈を選んで4回印刷しているわけではなく、そのスタイル空間内を探索しています。

まったく異なるモードでも同様に機能します。
プロンプトを「自転車に乗る猫、夢のような映画的シーン」に変え、16:9で生成すると、その雰囲気に対する多様な解釈が得られます — 照明、カメラ言語、ムードが異なり、すべて「夢のような映画的」という傘の下に収まっています。

より洗練されていない方向にモデルを押したければ、それも可能です。
「非常にざらついたローファイVHSスチル」はまさにそれを与えます — 低解像度、色収差、ほとんどのモデルが積極的に除去しようとするテクスチャ。
ここでKrea 2の偏りのない部分を最もはっきり感じられます。
モデルは抑制せず、「上品」な方向に静かに誘導せず、求めた見た目のエッジをぼかしません。

スタイル参照:見た目を調整する
気に入った見た目が見つかったら — 探索ラウンドのどれかからでも、外部から持ち込んだものでも — スタイル参照を使うと、まったく異なるプロンプトにその見た目を持ち込めます。
スタイル転送システムには基盤モデルと同じくらい時間をかけました。
使い方は簡単です:任意の画像をプロンプトボックスの「スタイル転送として追加」と書かれたエリアにドラッグし、好きなプロンプトを書くだけ。
内部では、その画像の色、テクスチャ、構図の手がかり、絵画的か写真的かの感触などのスタイル要素を抽出し、新しい生成に適用します。
たとえば猫自転車の出力の絵画スタイルが気に入ったら、まったく異なる被写体で試せます。

ここで最も重要な調整は強さです。
強さはスタイルが基盤モデルにどれだけ影響を与えるかを制御します。
50%ではバランスの取れたブレンドで、スタイライズされているのがわかりますが、プロンプトがしっかり主導権を持っています。
極端な値で何が起きるかが面白いところです。
スライダーを**20%**に下げると、同じプロンプトと参照でもずっとリアルなものになります。
参照のヒントは残ります:色調の一部やかすかな絵画的質感。
しかし基盤モデルが優勢で、画像は写真寄りになります。
これはスタイルが支配的でなく、あくまで生成に影響を与える程度にしたいときに便利です — 参照の「かすかな香り」を求める場合です。

逆に**80%**に上げると関係が逆転します。
今度は参照が主導権を握ります。
同じパレット、同じ筆致、同じ構図言語で完全な絵画が得られます。
さらに強めると、モデルは参照の色を置く場所を探し始め、時には被写体自体を上書きしてスタイルに合わせます。
自転車の色を馬に移そうとして、馬の一部をその色で塗り始める出力でこれが見られます。
このような「破綻」は示唆的で、スタイル転送がどこに着地しようとしているかを教えてくれます。

もう一つできること — ここでスタイル参照が本当にクリエイティブな道具のように感じられます — は組み合わせです。
最大4つの参照を同時に重ねられ、それぞれに強さスライダーがあります。
70%のダークナイト参照と50%のイラスト参照を重ねると、両方のスタイル要素が同じ出力に共存し始めます。
ナイトのクローム感と暗さ、イラストの絵画的なゆらぎとゆるいタッチ。
馬は部分的にクローム、部分的に絵画的で、背景や照明は両方の世界から借りています。

同じ2つのバランスを変えると — イラストを75%、ナイトを57%にすると — 結果はイラスト寄りになります:絵画的なゆらぎが増え、馬の一部だけがクロームで全体ではありません。
スライダーがそれぞれ出力の異なる側面を引っ張っているのが実感できます。
3つ目の参照を加えると — 線画を80%、絵画を60%、ナイトを44%にすると — プロンプトを書くのではなく、クリエイティブツールの物理的なノブを回している感覚になります。
新しいテキストは不要で、スライダーを動かし、参照を入れ替え、一方を上げて他方を下げると、出力がそれに応じて変化します。
これが「AIツールに本当のクリエイティブコントロールを与えるにはどうするか」という問いに対する最も正直な答えだと考えています:視覚的な特性に対応する変数をユーザーに渡し、遊ばせることです。

ムードボード:より豊かな参照
スタイル参照は精密です。
特定の画像をモデルに渡し、スタイルを抽出し、その強さを制御します。
ムードボードはKrea 2のもう一つの新機能で、異なる軸で機能します。重要な違いは2つ:
- 4枚制限なし。 ムードボードには好きなだけ画像を入れられます。ムードボードは単一の参照ではなくセットであり、システムはセット全体を考慮します。
- アルゴリズムはスタイル転送以上のことをする。 ムードボードは内部でスタイル転送を使いますが、それに加えてカスタムLLMやクラスタリングを使い、コンセプト、繰り返されるキャラクター、表情、構図、雰囲気 — セットの実際のムードを捉えます。単なる視覚スタイルではありません。
ワークフローは簡単です。
画像ツールのサイドバーを開き、ムードボードをクリック、新しいボードを作成し、画像をまとめてドロップし、分析をクリック。
しばらくすると3つのカラムが返ってきます:
- テイストプロファイル。 アルゴリズムがムードボードで見つけたものの高レベルな説明。サニティチェックとしても、自分の好みが自分では書けなかった形で返ってくる鏡としても役立ちます。
- キーワード。 このボードで生成するときにシステムが内部で使うスタイルタグのセット。
- 避けるもの。 このボードで生成するときにシステムが積極的に避けるもの。これが意外に重要で、望まないものをエンコードできることは、望むものをエンコードするよりも役立つことが多いです。
あとは通常通り生成します。
カラフルなイラストのボードに対して「カエル」とプロンプトすると、パレットや線画を引き継いだカエルが得られ、時には参照の小さな星などの偶発的なディテールを拾ってシーンに織り込みます。
出力は「ムードボードのスタイルで描かれたカエル」ではなく、「この宇宙にカエルが存在したらどうなるか」です。
時にはカエルが自分の泡を不思議そうに見つめる観光客のようになることもあります。それが狙いです。

また、システムを試すためのプリセットも用意しました。
各プリセットは手作業でキュレーションされたムードボードで、独自のテイストプロファイル、キーワード、避けるものを持ちます。入れ替えて同じプロンプトをまったく異なる美学の宇宙でレンダリングできます。
レトロウェブはお気に入りの一つです。
同じカエルプロンプトに適用すると、ピクセル化され、ややカオスな3Dコラージュ領域になります — 90年代後半のウェブ美学の断片がレンダリングされたオブジェクトやステッカーと衝突します。
時にはリアル寄りの雰囲気で、ほぼ意味をなすコラージュのように、時には完全にパイプと3Dの塊に。どちらも正解です。

表現的マーカーは同じプロンプトをキャラクター領域に振ります。
参照セットは表現豊かで少しおどけたイラストキャラクターの集合で、システムはそれを一貫したムードとして生成に反映します。
カエルは少し面白く、少しスタイライズされ、明らかにキャラクターであり、単なるスタイルのオブジェクトではありません。
これはムードボードがスタイル参照だけではできない部分です:見た目だけでなく態度を転送します。

私たちにとって最も合っているメンタルモデルはこうです:スタイル参照は精密に見た目を転送するもので、ムードボードはモデルにムードを渡してどう反応するかを見るものです。\
試してみよう
Krea 2は探索の余地と美学のコントロールを豊富に提供します。
探索モードで望むものを見つけ、
スタイル参照で特定の見た目をプロンプト間で持ち運び強さを調整し、
ムードボードでモデルにまるごとのクリエイティブな宇宙を渡してその中で生成させます。
これらは一緒に使うよう設計されています — 探索から始め、スタイル参照で洗練し、ムードボードで美学の宇宙を確定 — しかしそれぞれ単独でも機能します。
違いを感じる最良の方法は、画像ツールを開いて操作を始めることです。
よくある質問
Krea 2は初の基盤画像モデルで、美学とクリエイティブコントロールに重点を置き、ゼロから構築されました。一般的で洗練されたAI風の見た目に陥らず、幅広いスタイルを描写できます。
スタイル参照は最大4枚の画像の視覚スタイルを転送し、画像ごとに強さを調整できる精密で外科的なツールです。ムードボードはより多くの画像を受け入れ、クラスタリングとカスタムLLMを使ってコンセプトやキャラクター、表情、全体のムードを捉え、より広範で生成的な宇宙をモデルに渡します。
最大4枚で、それぞれに強さスライダーがあります。2〜3枚重ねると面白い効果が出ます。
画像ツールのサイドバーを開きます。ムードボードは2番目の項目です。
ムードボードを分析すると3つのカラムが返されます。テイストプロファイルは高レベルな説明、キーワードは内部で使うスタイルタグ、避けるものは生成時に積極的に避ける要素です。
はい。Kreaには無料プランがあり、画像ツール、スタイル参照、ムードボードを試せます。