気に入った画像と同じ雰囲気を AI で出すには? ZOOOP スタイル解析の使い方

AI 画像生成を使ったことがある人なら、誰でも一度は経験があるはずだ。Pinterest や友人のポートフォリオで「光、色、雰囲気、これだ」と思える 1 枚に出会い、ジェネレーターを開くと十分経っても言葉にならず、空のプロンプト欄をただ眺めている。

ZOOOP はこの一手間を省く小さな仕組みをリリースした —— スタイル解析だ。参考画像を 1 枚アップロードし、数秒待つだけで、整った英語プロンプトが返ってくる。そのまま入力欄に貼り付けてもいいし、2、3 のフレーズを書き換えてから使ってもいい。

スタイル解析が実際にやっていること

ひと言で言うと:画像を、モデルが読めるプロンプトに翻訳する。

スタイル解析は画像をいくつかの軸に分解する:

Subject(被写体) — フレームに何が写っているか:人物、物、シーンそのもの
Composition(構図) — アングル、距離、フレーミング、レイアウト
Style(スタイル) — 写真、イラスト、油彩、3D レンダー、フィルム調など
Lighting(ライティング) — 硬い光か柔らかい光か、順光か逆光か、暖色か寒色か
Palette(配色) — 主調色、色の関係、彩度
Mood(ムード) — 感情のトーン:静か、緊張、温かい、孤独

そして、すべてを 120 語以内の英語の段落にまとめる。なぜ英語かというと、現在の画像モデルは英語プロンプトに対してはるかに精緻にチューニングされているからだ。日本語で丁寧に書いても、内部の翻訳ステップで何かが薄まる。モデルが直接話せる言語で渡すと、出力がぐっと安定する。

解析結果の見た目

軸の話だけでは抽象的すぎるので、実際の画像で 1 周してみよう。たとえば「黄昏時の東京、黒い傘を差した一人の人物が雨に濡れた道を歩き、水たまりにネオンが映り込んでいる」写真をアップロードしたとする。返ってくる構造化されたテキストはおおむねこんな感じだ:

Subject — a lone figure with a black umbrella walking down a rain-slicked street
Composition — low-angle shot, centered subject, leading lines from neon signs
Style — cinematic photography, subtle film grain, anamorphic flare
Lighting — rim lighting from neon, soft ambient fill, cool dominant with warm accents
Palette — deep teal and magenta, warm amber highlights from puddles
Mood — melancholic, contemplative, urban solitude
Camera — 35mm anamorphic lens, shallow depth of field

その下に Overall Description が続く。上の軸を自然な英語の連続したプロンプトに編み込んだものだ。実際に生成器の入力欄に入るのはこの段落で、上の軸はいわば「なぜこのプロンプトがそう書かれているか」の説明にあたる。だから、好きな部分だけ拾って編集できる。

こう見える化されている利点は、軸を 1 つずつロックできる点にある。たとえば構図とムードはそのままに、ライティングだけを朝の柔らかい光に置き換えたい —— Lighting の行を書き換え、Overall Description の対応する一文を書き換えれば、残りはそのままでいい。ゼロから書き直すよりずっと速い。

どこにあるか

スタイル解析は ZOOOP の中で 2 か所に出てくる:

どのジェネレーターでもプロンプト入力欄の上 —— AI 画像生成や AI 動画生成のツールを開き、参考画像をアタッチすると、入力欄の上に「Describe style」ボタンが現れる。
キャンバスの中 —— 生成式キャンバスのプロンプトバーにも同じボタンがある。マルチショットのワークフローで便利だ。参考画像 1 枚を解析し、その記述を 10 ショット全部で使い回せる。

クリックして数秒待つと、プロンプト欄が自動で埋まる。そのまま送信してもいいし、1 フレーズだけ書き換えてから送信してもいい。出発点であって、終点ではない。

どんなときに使うか(と、使わないか)

向いている場面:

気に入った参考画像があるけれど、なぜ気に入ったのか言葉にできない —— 解析に言わせる。
連作のショットで一貫したルックを保ちたい —— 最初の参考画像を解析し、同じ記述を残りに貼り付ける。
プロンプトを書く手が止まったとき、別の切り口で打開したい。
写真や絵画のビジュアル言語を、別の被写体に移したい —— たとえば、ある映画スチルのムードを自分のキャラクターシーンに当てはめる。

向いていない場面:

1:1 の完全再現。スタイル解析は スタイル転写 であり 正確な複製 ではない。既存画像に忠実な編集を加えたいなら AI 画像編集を使う。
文字が多く写っている画像。解析は画像内のテキストを意図的に文字起こししない —— 看板、ポスター、キャプションはすべて無視される。誤読を避けるための仕様だ。
識別可能な実在の人物。プライバシー保護のため固有名は出力されず、「30 代の長い直毛の女性」のような観察可能な特徴のみが記述される。

ちょっとした使いこなしのコツ

プロンプトを書くのは料理に似ている。レシピ通りに作る人もいれば、味見しながら調整する人もいる。解析はレシピを手渡してくる —— どこまで忠実に従うかはあなた次第だ。

そのまま貼らずに編集する。出力は一続きの記述になっている。ざっと読んで「これは違う」と感じた節は削る。解析が「at dusk」と書いていても、あなたが「at dawn」を望むなら、その 1 語を変えればいい。

組み合わせたいときは別々に解析する。A 画像のライティングと B 画像の構図が欲しい場合、1 枚ずつ解析し、文を手で組み合わせる。両方を同時に見せるよりずっとコントロールしやすい。

英語の結果を日本語に訳し戻さない。モデルは英語を直接受け取るほうが性能が出る。意味を確認したいなら翻訳ツールで眺める程度でいい。日本語に書き換えてから送信する必要はない。

補足

スタイル解析は 1 回ごとにごくわずかなクレジットを消費するだけ(気軽に何度でも試せる軽さ)で、失敗時には自動で返金される。動かしているのは AI 画像生成や AI 動画生成と同じ基盤なので、速度と安定性は本体ツールに準じる。

正直なところを言うと、AI 画像制作のボトルネックは多くの場合モデル本体ではなく、「自分が何を欲しいのか」をうまく言葉にできないことだ。スタイル解析はちょうどそこを助けてくれる。曖昧な「好き」を具体的な記述に変換し、あとはモデルに任せる。

次に同じ雰囲気を出したい 1 枚に出会ったら、言葉に詰まる前に AI 画像生成か生成式キャンバスに放り込んでボタンを押してみるといい。