Veo 3 JSON プロンプトジェネレーター:構造化プロンプト完全ガイド & テンプレート(2026)

Veo 3 の良い結果を願うのはやめて、設計しよう。JSON プロンプトの完全ガイド 2026:フィールド構造、コピペできる 4 テンプレート、image-to-video、一貫性のコツ。

Emma Chen · 2 min read · Jun 25, 2026

多くの人は Veo 3 に一文だけ入力し、祈るような気持ちで、モデルが意図を汲み取ってくれることを期待します。うまくいくこともあります。しかし、たいていの場合はカメラがずれ、ショットごとに照明が変わり、キャラクターのジャケットの色が突然変わり、音声は思い描いていたものとはまるで違うものになります。2026 年に上級クリエイターがたどり着いた解決策は、より長い文章ではなく、JSON プロンプトです。一続きの段落の代わりに、被写体・アクション・カメラ・レンズ・照明・色・音声・スタイルといった各ダイヤルを個別に名前付けした構造化オブジェクトを Veo 3 に渡します。モデルは推測するのをやめ、指示に従い始めます。

このガイドは、Veo 3 における JSON プロンプトの完全リファレンスであり、そのままコピーして使えます。JSON プロンプトとは実際に何なのか、なぜ構造化された形式がプレーンテキストよりも一貫した結果を生むのか、Veo 3 のプロンプトオブジェクトの全フィールドを一つずつ解説し、今日すぐ Veo 3 に貼り付けて使える 4 つの即用テンプレートを手に入れられます。まだプロンプトを段落で書いているなら、これこそが的中率を最も大きく変える唯一のアップグレードです。プロンプト自体が初めてですか? まず Veo 3 プロンプトエンジニアリングガイドにざっと目を通し、それからここに戻って構造化プロンプトへ進みましょう。

JSON プロンプトとは何か?

JSON(JavaScript Object Notation)は、構造化されたデータをキーと値のペアとして書く、シンプルで読みやすい方法です。Veo 3 向けの JSON プロンプトは、ふだん一文に詰め込むのと同じ発想を、名前付きのフィールドに分解します。

{
  "shot": "medium close-up",
  "subject": "a barista with curly red hair and a green apron",
  "action": "steams milk, then looks up and smiles at the camera",
  "setting": "a sunlit specialty coffee shop, morning",
  "camera": "slow push-in on a 50mm lens, shallow depth of field",
  "lighting": "warm window light from the left, soft shadows",
  "audio": "hiss of the steam wand, low cafe chatter, no music",
  "style": "photorealistic, cinematic, 35mm film grain"
}

これを段落版と比べてみましょう。「赤い巻き毛で緑のエプロンをつけたバリスタが、陽光あふれるコーヒーショップでミルクをスチームし、それから顔を上げて微笑む。50mm レンズでゆっくりと寄りながら、左からの暖かい窓明かりで撮影され、スチームワンドの音と低いカフェのざわめきが入る」。どちらも同じシーンを描写しています。しかし JSON 版ではすべての指示が分離されているため、モデルは「左からの暖かい窓明かり」を被写体の説明に溶け込ませることがなく、長い文章の末尾に埋もれた音声の指示を忘れることもありません。各キーは意図を伝えるクリーンなチャンネルなのです。

Veo 3 は形式的なスキーマを要求しません——モデルはオブジェクト内の自然言語の値を読み取ります——が、構造化するという行為そのものが、本来なら曖昧なままにしていたことを明示するよう促します。その明確さこそが品質の飛躍を生むのです。

なぜ JSON プロンプトは Veo 3 でより効くのか

構造化プロンプトが段落に勝る具体的な理由は 3 つあります。特に、映像と native audio を一度のパスで生成する Veo 3 のようなモデルではなおさらです。

1. 何も失われない。 長い文章では、モデルは最初と最後に見た語を最も強く重み付けします。段落の中ほどに押し込まれた音声の指示、レンズの選択、カラーグレーディングは日常的に無視されます。JSON では各指示が同じ重みで自分専用のフィールドに収まるため、audio と lighting のフィールドも被写体と同じだけの注意を受けます。

2. ショット間の一貫性。 これが最大のポイントです。subject・style・lighting のフィールドを複数の生成にわたって同一に保ち、action と camera だけを変えれば、ショットごとに見分けのつく一貫したキャラクターと統一されたルックが得られます。これは複数ショットをより長いシーケンスへつなぐための基礎です——Veo 3 を 8 秒を超えて延長する方法の解説をご覧ください。そこでは、安定した JSON ブロックこそが、途中でキャラクターが「崩れる」のを防いでいます。

3. 再現性と反復。 プロンプトが構造化されているため、一度に一つの変数だけを変えて、各フィールドが何をするのかを実際に学べます。lighting を「暖かい」から「ハイキー」に上げて再生成する。camera を「固定」から「ゆっくり寄る」に変えて再生成する。段落全体を書き直してどの語が効いたのかを悩む代わりに、制御されたフィードバックループを築けるのです。

Veo 3 の JSON プロンプトの構造

これは 2026 年に Veo 3 で確実に機能する完全なフィールドセットです。すべてのプロンプトにすべてのフィールドが必要なわけではなく、ショットが必要とするものを使えばよいのですが、これが目的別にまとめた完全なリストです。

コアシーン

shot — フレーミング:extreme wide、wide、medium、medium close-up、close-up、macro。
subject — 誰または何かを、具体的で持続する視覚的ディテール(髪、衣装、年齢、体格)で描写します。一貫性のため、そのまま再利用します。
action — 何が起こるかを時系列で。「まず…次に…」のような順序の語を使います。
setting — 場所に加え、時間帯と天候。

カメラとレンズ

camera — 動き:static、slow push-in、dolly-out、handheld、crane up、orbit。語彙の全体はカメラ制御プロンプトガイドにあります。
lens — 18mm wide、35mm、50mm、85mm portrait、加えて shallow または deep depth of field。

光と色

lighting — 方向、質、光源:「右からの柔らかいキーライト、背後のリムライト、実用的なネオン」。
color / color_grade — パレットと雰囲気:「ティールとオレンジ」「くすんだパステル」「高コントラストのノワール」。

音声(Veo 3 の最大の武器)

audio — ミックス全体を描写します:環境音、効果音、音楽を別々に。無音や音楽なしにしたいときは明示します。
dialogue — 引用符で囲んだ正確なセリフ。Veo 3 がリップシンクします。8 秒のショットではセリフを短く保ちます。native audio プロンプトガイドがこのフィールドを掘り下げています。

スタイルと仕上げ

style — 全体的な美学:photorealistic、cinematic、documentary、claymation、anime、35mm film。
aspect_ratio — 16:9、縦型は 9:16、1:1。
negative — 避けたいもの:「テキストの重ね表示なし、歪んだ手なし、余分な指なし」。詳しくはネガティブプロンプトガイドを。

コピーして使える 4 つの JSON テンプレート

これらは完全で、そのまま機能する出発点です。一つを Veo 3 に貼り付け、値を自分のシーンに合わせて入れ替えてください。

1. 製品のお披露目(EC / 広告)

{
  "shot": "macro to medium pull-back",
  "subject": "a matte-black wireless earbud case on a wet slate surface",
  "action": "the lid slowly opens, the earbuds glow, then the camera pulls back to reveal the full product",
  "setting": "minimalist studio, dark background",
  "camera": "slow dolly-out on a 100mm macro lens, rack focus",
  "lighting": "single soft top light, subtle blue rim light",
  "color_grade": "high-contrast, cool blues and silver",
  "audio": "a soft mechanical click as the lid opens, a low ascending synth swell, no voiceover",
  "style": "premium commercial, photorealistic, glossy reflections",
  "aspect_ratio": "16:9",
  "negative": "no text, no logos, no hands"
}

2. 映画的な対話(リップシンク)

{
  "shot": "medium close-up",
  "subject": "a weary detective in a damp trench coat, 50s, stubble",
  "action": "he leans against a brick wall, exhales, and speaks directly to camera",
  "setting": "a rain-soaked alley at night, neon signs reflecting in puddles",
  "camera": "slow handheld push-in on an 85mm lens, shallow depth of field",
  "lighting": "magenta and cyan neon practicals, hard rim light, deep shadows",
  "dialogue": "\"Everybody in this city is running from something. Tonight, it's my turn.\"",
  "audio": "steady rain, distant traffic, a low ominous drone, no music bed",
  "style": "neo-noir, cinematic, 35mm film grain",
  "aspect_ratio": "16:9"
}

3. 縦型ソーシャルクリップ(TikTok / Reels)

{
  "shot": "medium",
  "subject": "an energetic fitness coach in bright activewear",
  "action": "demonstrates a kettlebell swing with perfect form, then points at the camera and gives a thumbs up",
  "setting": "a sunlit home gym with plants",
  "camera": "static tripod, eye level, then a quick snap zoom on the thumbs up",
  "lighting": "bright natural daylight, clean and high-key",
  "audio": "upbeat energetic background music, a rhythmic exhale on each swing",
  "dialogue": "\"Three sets of fifteen — let's go!\"",
  "style": "vibrant, modern, social-media polish",
  "aspect_ratio": "9:16",
  "negative": "no warped equipment, no extra limbs"
}

4. キャラクターが一貫したシリーズショット

subject・style・lighting を固定し、生成の間は action と camera だけを変えます。

{
  "shot": "medium",
  "subject": "Mira, a young astronaut with a buzzcut and a scar over her left eyebrow, wearing a worn orange flight suit",
  "action": "checks a wrist console, frowns, then looks off-screen toward an alarm",
  "setting": "the cramped cockpit of a derelict spaceship, red emergency lighting",
  "camera": "slow orbit to the right on a 35mm lens",
  "lighting": "pulsing red emergency light, faint blue glow from the console",
  "audio": "low hum of failing systems, an intermittent alarm beep, tense ambient drone",
  "style": "sci-fi, cinematic, photorealistic, film grain",
  "aspect_ratio": "16:9"
}

参照画像を使った JSON プロンプト(image-to-video)

JSON の構造化は、純粋なテキストではなく画像から始めるときにも同じくらい威力を発揮します。参照フレームをアップロードすると、その画像がすでに被写体の見た目・衣装・舞台を固定するので、subject と setting の重い説明を省き、フィールドを動きとカメラに充てられます。画像が「どう見えるか」を担い、JSON が「何をするか」を担うのです。

{
  "input": "uploaded reference image of the character",
  "action": "the character turns their head toward the window, then breaks into a slow smile",
  "camera": "gentle handheld drift, slight push-in on a 50mm lens",
  "lighting": "match the soft window light in the reference image",
  "audio": "quiet room tone, a soft inhale, distant birdsong, no music",
  "style": "preserve the photographic style of the reference image",
  "negative": "do not change the character's face, hair, or clothing"
}

lighting と style がシーンを描写し直すのではなく match と preserve と言っている点に注目してください——これにより Veo 3 はあなたの画像に固定され、勝手に作り直しません。アイデンティティを守る働きをする negative フィールド(「顔を変えない」)は、image-to-video のために書ける最も効果の高い一行の一つです。参照画像の完全なワークフローは、Veo 3 の image-to-video ガイドをご覧ください。

上級:フィールドの順序とグループ化

まずまずの JSON プロンプトを優れたものにする洗練が 2 つあります。第一に、フィールドの順序は緩やかなシグナルです——最も重要な指示を上に置きます。キャラクターのアイデンティティが最重要なら subject から始め、カメラの動きがショットの主役なら camera から始めます。第二に、複雑なシーンでは、関連する値をネストしたオブジェクトにグループ化して、各クラスタがすっきり読めるようにできます。

{
  "subject": "a street violinist, late 20s, fingerless gloves",
  "action": "plays an energetic solo, eyes closed",
  "camera": { "movement": "slow arc left", "lens": "35mm", "depth_of_field": "shallow" },
  "lighting": { "key": "golden hour backlight", "fill": "soft bounce from the right" },
  "audio": { "music": "a fast, emotional solo violin", "ambient": "city street, faint applause", "sfx": "none" }
}

Veo 3 はネストした値も問題なく読み、グループ化によって、何を指定し何をモデルに委ねたかが一目で分かります。シンプルなショットにはフラットなフィールドを使い、ネストしたオブジェクトは、あるセクションに本当に複数のサブ値があるときだけ使いましょう——シンプルなプロンプトを過剰にネストすると、ノイズが増えるだけです。

Veo 3 で JSON プロンプトを使う方法

特別なモードは要りません。Veo 3 は、文章を打ち込むのと同じプロンプト欄に、JSON オブジェクトをそのまま受け付けます。

veo3ai.io の Veo 3 を開きます(ストーリーボード表示が好みなら Google Flow でも構いません)。
完全な JSON オブジェクトをプロンプト欄に貼り付けます。有効な JSON を保ちます——対応する括弧、引用符で囲んだ値、フィールド間のカンマ。
インターフェースがクリップの長さとアスペクト比を別々に提供しているなら設定します。そうでなければ、JSON 内の aspect_ratio フィールドが仕事をします。
生成し、確認し、それから 一度に一つのフィールド を変えて反復します。
シーケンスを作るには、JSON を複製し、subject/style/lighting を凍結したまま、次のショットのために action と camera だけを編集します。

まさにこの「凍結ブロック」の規律こそが、複数ショットの動画を通じてキャラクターを「役柄どおり」に保つことを可能にし、それが単一クリップより長いものすべての前提条件なのです。

JSON プロンプトジェネレーター:必要ですか?

2026 年には、無料の「Veo 3 JSON プロンプトジェネレーター」ツールの波が現れました——ショット、カメラ、ライトのドロップダウン付きフォームを提供し、JSON を代わりに書き出してくれます。波括弧を手で書きたくない初心者や、既製のプロンプトライブラリを眺めるのに便利です。しかし、上記のフィールド構造を理解すれば、JSON を自分で書く方が、他人のフォームをクリックするより速く、はるかに柔軟です。このガイドのスキーマこそがジェネレーターです——タブで開いておき、自分のショットに最も近いテンプレートをコピーし、値を編集してください。本当のスキルはツールではなく、どのフィールドがどのダイヤルを動かすかを知ることであり、それは今あなたが手にしたものです。

JSON プロンプトでよくある間違い

無効な JSON。 カンマの欠落や対応しない括弧があると、モデルはオブジェクトを雑なテキストとして読む方に逆戻りすることがあります。不安なら、生成前にオブジェクトを無料の JSON バリデーターに貼り付けましょう。
一つのフィールドに詰め込みすぎる。 action の中に段落を書かないこと。異なるアイデアは適切なキーに振り分けます——動きは camera、雰囲気は lighting と color_grade へ。
音声を忘れる。 Veo 3 の native audio は旧モデルに対する最大の強みです。空の、あるいは欠けた audio フィールドはそれを無駄にします。常に環境音、効果音、そして音楽が欲しいかどうかを指定しましょう。
対話が長すぎる。 8 秒のクリップには、おおよそ短い文 1〜2 つ分のセリフが収まります。独白を詰め込むと、リップシンクが早口になったり途切れたりします。
一度にすべてを変える。 結果が惜しいけれど完璧でないとき、オブジェクト全体を書き直さないこと。一つのフィールドを変え、再生成し、そこから学びます。

JSON 対プレーンテキスト:いつどちらを使うか

テキストプロンプトは、正確な制御を気にしない、素早くてシンプルな単一ショットのアイデアには今でも申し分ありません——「夕暮れのビーチを走るゴールデンレトリバー」はどちらでも見事に見えます。精度(特定のレンズ、ライト、色)、一貫性(複数クリップで同じキャラクターやルック)、あるいは再現可能な反復(一度に一変数を変える)が必要なときは JSON に手を伸ばしましょう。実践的には、テキストで気軽に試し、勝ちパターンのアイデアを JSON オブジェクトに固定して、確実に再現・延長できるようにします。JSON に変換するためのテキストアイデアのより広いライブラリは、Veo 3 のベストプロンプトガイドをご覧ください。

よくある質問

Veo 3 は JSON プロンプトを公式にサポートしていますか? Veo 3 は形式的な JSON スキーマを強制しませんが、各フィールド内の自然言語の値こそモデルが読み取るものなので、構造化された JSON オブジェクトを確実に解析します。構造はあなたのためにあり——明示的で分離された指示を強制し——実際には段落よりもはるかに制御しやすい結果を生みます。

JSON プロンプトは詳細な一文より優れていますか? 複雑、あるいは再現可能なショットにはイエスです。この形式は指示が失われるのを防ぎ、クリップ間の一貫性をはるかに容易にします。一度きりのシンプルなアイデアには、よい一文で十分です。

一貫性に最も重要なフィールドは? subject・style・lighting です。この 3 つを生成間で同一に保ち、action と camera だけを変えれば、キャラクターとルックがショットごとに「役柄どおり」に保たれます。

縦型の TikTok や Reels の動画に JSON プロンプトを使えますか? はい——オブジェクト内に "aspect_ratio": "9:16" を設定します。上記のテンプレート 3 が、そのまま使える縦型の出発点です。

JSON プロンプトジェネレーターは必要ですか? いいえ。このガイドのテンプレートとフィールド一覧は、ジェネレーターが出力するものをカバーしています。フィールドさえ分かれば、テンプレートを手で編集する方が速く、柔軟です。

画像から始めるときに JSON プロンプトを使えますか? はい、それがしばしば最もクリーンなワークフローです。アップロードした画像に見た目と舞台を定義させ、JSON フィールドは action、camera、そしてキャラクターのアイデンティティを守る negative の行に使います。上記の image-to-video テンプレートをご覧ください。

JSON プロンプトの対話はどのくらいの長さにできますか? セリフは短く保ちます——標準的な 8 秒クリップで、おおよそ短い文 1〜2 つ分です。長いセリフはリップシンクを早口にしたり途切れさせたりします。もっと対話が必要なら、subject ブロックを凍結したまま、連続するクリップに分けましょう。

同じ JSON プロンプトは常に同じ動画を生みますか? 厳密にはノーです——Veo 3 は生成間で依然としてばらつきを生みます。しかし、よく構造化されたプロンプトはそのばらつきを劇的に狭め、subject・style・lighting を凍結すれば、クリップをつなぎ合わせられる程度には十分にルックが一貫します。

構造をもってプロンプトを始めよう

JSON プロンプトは、Veo 3 の良い結果を「願う」ことと「設計する」ことの違いです。自分のショットに最も近いテンプレートを選び、Veo 3 に貼り付け、しっくりくるまで一度に一つのフィールドを変えていきましょう。フィールド構造を自在に扱えるようになれば、長い段落と格闘する日々には二度と戻りません——そして、キャラクター、ライト、音声が、ようやく置いたとおりの場所にとどまります。次のレベルへは、映画的プロンプトガイドと組み合わせ、本当にまとまりを保つ複数ショットのシーケンスを作り始めましょう。

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video