
AI エージェントに画像・動画・音声を作らせる —— ZOOOP skill の導入ガイド
ドキュメントを書いていて、「ここに画像が欲しいな」と気づく瞬間がある。
これまでの流れ:ブラウザを開く、AI 生成サイトを選ぶ、ログイン、プロンプトを貼る、パラメータを調整、待つ、ダウンロード、ファイルをプロジェクトに戻す。8 回 9 回コンテキストを切り替えて、その間に通知が一つや二つ割り込んでくる。
ZOOOP skill は、この一連の流れを、いつも会話している AI エージェントの中に押し込んでしまう仕組みだ。Claude Code、Cursor、Codex、Gemini CLI、その他どんな AI エージェントでも、「このセクションにカバー画像を追加、横長、暗めの背景、真ん中に小さなマスコットを浮かせて」と伝えるだけで、エージェントが裏で ZOOOP を呼び出す。一分もせず、画像がチャットに返ってくる。
なぜ AI 生成を AI エージェントに任せるのか
AI エージェントはすでに、コードを書く・コピーを書くという作業の大半を引き受けている。でも画像・動画・ボイスが必要になった瞬間、私たちはまたブラウザに戻る。このコンテキストスイッチが、いまの AI 制作ワークフローでいちばん壊れている部分だ。
ZOOOP skill の発想はシンプルだ:AI エージェントがすでに隣にいるなら、生成もそのまま任せてしまえばいい。新しいツールを覚える必要も、ウィンドウを切り替える必要もない。欲しいものを伝えるだけで、エージェントが ZOOOP のクレジットを使って作ってくれる。
ZOOOP skill で AI エージェントができること
インストールすると、ZOOOP が提供するほぼすべての生成機能にエージェントからアクセスできるようになる。
- AI 画像生成:テキストから画像、参照画像でスタイル転送、キャラクターを保ったまま複数枚
- AI 画像編集:消す、置き換える、塗り足す、アウトペイント
- AI 動画生成:テキストから動画、Veo 3.1、Kling V3、Seedance 2、Nanobanana……をサポート
- 始点・終点フレームから動画:静止画にモーションを加える
- リップシンク:音声トラックで人物の口を動かす
- テキスト読み上げ と音声クローン:TTS や特定の声の再現
- AI 音楽 と効果音:BGM や環境音
要するに、コンテンツ制作で AI 生成が出てくるほぼすべての場面を、エージェントへの一文で済ませられる。
一度入れれば、主要な AI エージェント全部で使える
ZOOOP skill は特定のエージェントに縛られていない。Claude Code、Codex、Cursor、Gemini CLI、その他 skill / MCP 規格に対応したクライアントなら、一度のインストールで使い回せる。
流れはこう:
-
zooop.ai で API key を作り、プロジェクトに紐づけ、ついでに 1 日のクレジット上限も設定。
-
自分のターミナルで、key を環境変数
ZOOOP_API_KEYに書き込む(エージェントのチャットには貼らない)。 -
skill をインストール。いちばん簡単なのは、GitHub リンク github.com/zooopai/skill-zooop を AI エージェントに渡して、README を読んでインストールしてもらうこと。最近のエージェントなら「このリポジトリを入れて」と言えば通じる。
-
自分でコマンドを打ちたいなら、エージェント横断の方法は:
npx skills add zooopai/skill-zooopClaude Code、Cursor、Codex、Gemini CLI、GitHub Copilot、Windsurf、その他多数のクライアントが認識する。特定のエージェントだけに入れたいときは
-aをつける:npx skills add zooopai/skill-zooop -a claude-code -a cursorClaude Code ユーザーはネイティブのコマンドも使える:
claude install github:zooopai/skill-zooop -
エージェントを再起動して、新しい環境変数を読み込ませる。
ここまで五分かからない。しかも AI エージェントは API ドキュメントを読み込む必要がない —— 「どんな場面でどの生成タイプを選ぶか」「パラメータをどう埋めるか」「エラーが出たときどうするか」が skill にあらかじめ書き込まれているからだ。
最初の一回:エージェントに画像を頼む
いちばん簡単な入り口は、ふつうに話しかけるだけ:
ブログのカバー画像を作って。横長、暗めの色調、真ん中にオレンジの小さなマスコットが浮かんでいる感じ。
エージェントがモデルを選び、パラメータを埋め、ZOOOP を呼び、結果を待つ。画像はプロジェクトフォルダに保存されるか、チャットに返ってくる。気に入らなければ「右側にもう少し余白」と言えばイテレートしてくれる。フォームを埋め直す必要も、パラメータをまた探す必要もない。
ブラウザで AI 画像生成 を直接開くのと比べた利点は、コンテキストが切れないこと。エージェントは今書いているセクション、記事のトーン、どんなビジュアルが合うかをまだ覚えている。
もう一歩:動画 + 日本語ナレーション
動画とボイスも同じ流れ。よくある場面は、簡単なプロダクトデモを作るとき:
さっきの画像を始点フレームにして 5 秒の動画、ゆっくりズームイン。そしてこの日本語のセリフを、柔らかい女性の声で読み上げて。
エージェントは二つに分けて呼び出す:動画モデル(指示に応じて Veo 3.1、Kling V3、Seedance 2 から選ぶ)、それから音声モデル(ElevenLabs、Suno など)。両方のファイルが、取り出せる場所に置かれる。
もっと複雑なこともできる —— 6 カットの絵コンテ、全カットで同じキャラクターをリップシンク、共通の BGM —— Web の生成式キャンバスで動くのと同じ仕組みが、チャットからも呼べる。
生成物はいつでも ZOOOP.ai から取り出せる
意外と見過ごされるが、ZOOOP skill のいちばん安心できるところはここだ:API key で生成されたすべての画像・動画・音声は、その key が紐づいた ZOOOP プロジェクトに自動同期される。
つまり:
- エージェントが途中で一時ファイルを片付けてしまった?zooop.ai のプロジェクト履歴ページから何でも再ダウンロードできる。
- 先週エージェントに作らせたカットを絵コンテにしたい?ブラウザの 生成式キャンバス にドラッグすればそのまま続きを作れる。
- 別の PC やスマホで続きを見たい?ZOOOP にログインすれば、そのプロジェクトでエージェントが生成したすべてが見える。
- どれくらいクレジットを使ったか、どのモデルをよく使うかも、プロジェクト履歴とアカウント使用量のページから確認できる。
つまり、AI エージェントが入口で、ZOOOP.ai がアーカイブ。両方のビューが同期しているから、デバイスを変えても、エージェントを変えても、作品が消えることはない。
目立たないけど大事なガードレール
- トークンはチャットに出ない。ZOOOP skill は環境変数から key を読む。エージェントは見えないし、見る必要もない。トークンが会話履歴・スクショ・学習データに紛れ込むことはない。
- 1 日あたりのクレジット上限。key を作るときに 1 日の上限を設定できる。万が一 key が漏れても、被害はその日の上限まで。失効と再発行はクリック一つ。
- プロジェクト単位の分離。一つの key は、紐づいたプロジェクトにしか書き込めない。ワークフローごとに別 key にすれば干渉しない。
これらは後付けではなく、skill の設計初日からそうなっている。AI エージェントに任せるのはいいが、知らないうちにアカウントを荒らされるのは別の話だ。
向いている人 / 向いていない人
向いている:ターミナルと IDE で生活している開発者、AI 生成を自動化スクリプトに組み込みたいエンジニア、大量のコンテンツ(ブログのカバー、サムネ、デモ動画)を回したいクリエイター、すでに AI エージェントに反復作業を任せている人。
あまり向いていない:1 フレームずつドラッグして微調整したいビジュアル系のクリエイター —— その場合は ZOOOP.ai を直接開くほうが早い。あと AI エージェントをまったく使わない人 —— ZOOOP skill を入れる必要はない、Web 版で十分。
すでに Claude Code、Cursor、Codex のような AI エージェントで何かを書いているなら、五分かけて ZOOOP skill を入れる価値はある。生成したものは ZOOOP.ai でちゃんと待っている —— これは最初から決まっていたことだ。