- Blog
- Veo 3 JSON-Prompt-Generator: Leitfaden für strukturierte Prompts & Vorlagen (2026)
Veo 3 JSON-Prompt-Generator: Leitfaden für strukturierte Prompts & Vorlagen (2026)
Hören Sie auf, auf gute Veo-3-Ergebnisse zu hoffen – konstruieren Sie sie. Der vollständige 2026-Leitfaden zum JSON-Prompting: Feld-Anatomie, 4 Vorlagen zum Kopieren, Image-to-Video und der Konsistenz-Trick.
Emma Chen · 11 min read · Jun 25, 2026

Die meisten Menschen tippen einen einzigen Satz in Veo 3, drücken die Daumen und hoffen, dass das Modell errät, was sie gemeint haben. Manchmal trifft es ins Schwarze. Häufiger driftet die Kamera ab, das Licht ändert sich von Einstellung zu Einstellung, die Jacke der Figur wechselt plötzlich die Farbe, und der Ton klingt ganz anders als vorgestellt. Die Lösung, auf die sich fortgeschrittene Creator 2026 verständigt haben, ist kein längerer Satz – es ist ein JSON-Prompt. Statt eines einzigen langen Absatzes übergeben Sie Veo 3 ein strukturiertes Objekt, das jeden Regler separat benennt: Subjekt, Aktion, Kamera, Objektiv, Licht, Farbe, Ton und Stil. Das Modell hört auf zu raten und beginnt, Anweisungen zu befolgen.
Dieser Leitfaden ist die vollständige Referenz zum JSON-Prompting in Veo 3, die Sie direkt kopieren und einsetzen können. Sie erfahren, was ein JSON-Prompt wirklich ist, warum das strukturierte Format konsistentere Ergebnisse liefert als Fließtext, lernen die vollständige Anatomie eines Veo-3-Prompt-Objekts Feld für Feld kennen und erhalten vier sofort einsetzbare Vorlagen, die Sie noch heute direkt in Veo 3 einfügen können. Wenn Sie Prompts noch als Absätze schreiben, ist dies das eine Upgrade, das Ihre Trefferquote am stärksten verändert. Ganz neu im Prompting? Überfliegen Sie zuerst unseren Leitfaden zum Prompt-Engineering für Veo 3 und kommen Sie dann hierher zurück, um auf strukturierte Prompts umzusteigen.
Was ist ein JSON-Prompt?
JSON (JavaScript Object Notation) ist eine einfache, gut lesbare Art, strukturierte Daten als Schlüssel-Wert-Paare zu schreiben. Ein JSON-Prompt für Veo 3 nimmt dieselbe Idee, die Sie normalerweise in einen einzigen Satz zwängen, und zerlegt sie in benannte Felder:
{
"shot": "medium close-up",
"subject": "a barista with curly red hair and a green apron",
"action": "steams milk, then looks up and smiles at the camera",
"setting": "a sunlit specialty coffee shop, morning",
"camera": "slow push-in on a 50mm lens, shallow depth of field",
"lighting": "warm window light from the left, soft shadows",
"audio": "hiss of the steam wand, low cafe chatter, no music",
"style": "photorealistic, cinematic, 35mm film grain"
}
Vergleichen Sie das mit der Absatzversion: „Eine Barista mit roten Locken und grüner Schürze schäumt Milch in einem sonnendurchfluteten Café auf, blickt dann nach oben und lächelt, aufgenommen mit einem 50-mm-Objektiv mit langsamer Heranfahrt und warmem Fensterlicht, mit dem Zischen der Dampfdüse und leisem Café-Gemurmel.“ Beide beschreiben dieselbe Szene. Aber in der JSON-Version ist jede Anweisung getrennt, sodass das Modell „warmes Fensterlicht von links“ nicht mit der Subjektbeschreibung verschmilzt und den am Ende eines langen Satzes vergrabenen Tonhinweis nicht vergisst. Jeder Schlüssel ist ein sauberer Kanal der Absicht.
Veo 3 verlangt kein formales Schema – das Modell liest die natürlichsprachlichen Werte innerhalb des Objekts –, aber der Akt des Strukturierens zwingt Sie dazu, das explizit zu machen, was Sie sonst vage lassen würden. Aus dieser Eindeutigkeit entsteht der Qualitätssprung.
Warum JSON-Prompts in Veo 3 besser funktionieren
Drei konkrete Gründe, warum strukturierte Prompts Absätze schlagen, besonders bei einem Modell wie Veo 3, das Bild und nativen Ton in einem einzigen Durchlauf erzeugt:
1. Nichts geht verloren. In einem langen Satz gewichtet das Modell die zuerst und zuletzt gesehenen Wörter am stärksten. Tonhinweise, Objektivwahl und Farbkorrektur, die in die Mitte eines Absatzes geschoben werden, gehen regelmäßig unter. In JSON sitzt jede Anweisung in ihrem eigenen Feld mit gleichem Gewicht, sodass Ihre Felder audio und lighting dieselbe Aufmerksamkeit erhalten wie das Subjekt.
2. Konsistenz über mehrere Einstellungen. Das ist der entscheidende Punkt. Wenn Sie die Felder subject, style und lighting über mehrere Generierungen hinweg identisch halten und nur action und camera ändern, erhalten Sie eine wiedererkennbar konsistente Figur und einen einheitlichen Look von Einstellung zu Einstellung. Das ist die Grundlage, um Einstellungen zu einer längeren Sequenz zusammenzufügen – siehe unsere Anleitung dazu, wie man Veo 3 über 8 Sekunden hinaus verlängert, wo genau stabile JSON-Blöcke verhindern, dass die Figur auf halbem Weg „verschwimmt“.
3. Wiederholbarkeit und Iteration. Da der Prompt strukturiert ist, können Sie jeweils eine Variable ändern und tatsächlich lernen, was jedes Feld bewirkt. Heben Sie lighting von „warm“ auf „High-Key“ und starten Sie neu. Wechseln Sie camera von „statisch“ auf „langsame Heranfahrt“ und starten Sie neu. Sie bauen eine kontrollierte Feedback-Schleife auf, statt einen ganzen Absatz neu zu schreiben und zu rätseln, welches Wort den Ausschlag gab.
Die Anatomie eines Veo-3-JSON-Prompts
Hier ist der vollständige Feldsatz, der 2026 zuverlässig mit Veo 3 funktioniert. Sie brauchen nicht jedes Feld in jedem Prompt – nutzen Sie, was die Einstellung erfordert –, aber dies ist die vollständige Liste, nach Zweck gruppiert.
Kern-Szene
shot– Bildausschnitt:extreme wide,wide,medium,medium close-up,close-up,macro.subject– Wer oder was, mit konkreten, beständigen visuellen Details (Haare, Kleidung, Alter, Statur). Wortwörtlich wiederverwenden für Konsistenz.action– Was passiert, in zeitlicher Reihenfolge. Verwenden Sie Reihenfolge-Wörter: „zuerst … dann …“.setting– Ort plus Tageszeit und Wetter.
Kamera und Objektiv
camera– Bewegung:static,slow push-in,dolly-out,handheld,crane up,orbit. Das vollständige Vokabular finden Sie in unserem Leitfaden zu Kamera-Steuerungs-Prompts.lens–18mm wide,35mm,50mm,85mm portrait, plusshallowoderdeep depth of field.
Licht und Farbe
lighting– Richtung, Qualität und Quelle: „weiches Führungslicht von rechts, Kantenlicht hinten, praktisches Neon“.color/color_grade– Palette und Stimmung: „Türkis und Orange“, „gedämpftes Pastell“, „kontrastreiches Noir“.
Ton (die Superkraft von Veo 3)
audio– Beschreiben Sie den gesamten Mix: Umgebungsgeräusche, Soundeffekte und Musik separat. Geben Sie ausdrücklich an, wenn Sie Stille oder keine Musik wollen.dialogue– Die exakte gesprochene Zeile in Anführungszeichen. Veo 3 erstellt die Lippensynchronisation. Halten Sie Zeilen für eine 8-Sekunden-Einstellung kurz. Unser Leitfaden zum nativen Ton geht bei diesem Feld in die Tiefe.
Stil und Finish
style– Gesamte Ästhetik:photorealistic,cinematic,documentary,claymation,anime,35mm film.aspect_ratio–16:9,9:16für Hochformat,1:1.negative– Was zu vermeiden ist: „kein Texteinblendung, keine verzerrten Hände, keine zusätzlichen Finger“. Mehr dazu im Leitfaden zu Negativ-Prompts.
Vier JSON-Vorlagen zum Kopieren
Dies sind vollständige, funktionierende Ausgangspunkte. Fügen Sie eine in Veo 3 ein und tauschen Sie dann die Werte für Ihre Szene aus.
1. Produktpräsentation (E-Commerce / Werbung)
{
"shot": "macro to medium pull-back",
"subject": "a matte-black wireless earbud case on a wet slate surface",
"action": "the lid slowly opens, the earbuds glow, then the camera pulls back to reveal the full product",
"setting": "minimalist studio, dark background",
"camera": "slow dolly-out on a 100mm macro lens, rack focus",
"lighting": "single soft top light, subtle blue rim light",
"color_grade": "high-contrast, cool blues and silver",
"audio": "a soft mechanical click as the lid opens, a low ascending synth swell, no voiceover",
"style": "premium commercial, photorealistic, glossy reflections",
"aspect_ratio": "16:9",
"negative": "no text, no logos, no hands"
}
2. Kinematografischer Dialog (lippensynchron)
{
"shot": "medium close-up",
"subject": "a weary detective in a damp trench coat, 50s, stubble",
"action": "he leans against a brick wall, exhales, and speaks directly to camera",
"setting": "a rain-soaked alley at night, neon signs reflecting in puddles",
"camera": "slow handheld push-in on an 85mm lens, shallow depth of field",
"lighting": "magenta and cyan neon practicals, hard rim light, deep shadows",
"dialogue": "\"Everybody in this city is running from something. Tonight, it's my turn.\"",
"audio": "steady rain, distant traffic, a low ominous drone, no music bed",
"style": "neo-noir, cinematic, 35mm film grain",
"aspect_ratio": "16:9"
}
3. Vertikaler Social-Clip (TikTok / Reels)
{
"shot": "medium",
"subject": "an energetic fitness coach in bright activewear",
"action": "demonstrates a kettlebell swing with perfect form, then points at the camera and gives a thumbs up",
"setting": "a sunlit home gym with plants",
"camera": "static tripod, eye level, then a quick snap zoom on the thumbs up",
"lighting": "bright natural daylight, clean and high-key",
"audio": "upbeat energetic background music, a rhythmic exhale on each swing",
"dialogue": "\"Three sets of fifteen — let's go!\"",
"style": "vibrant, modern, social-media polish",
"aspect_ratio": "9:16",
"negative": "no warped equipment, no extra limbs"
}
4. Serieneinstellung mit konsistenter Figur
Fixieren Sie subject, style und lighting; ändern Sie zwischen den Durchläufen nur action und camera.
{
"shot": "medium",
"subject": "Mira, a young astronaut with a buzzcut and a scar over her left eyebrow, wearing a worn orange flight suit",
"action": "checks a wrist console, frowns, then looks off-screen toward an alarm",
"setting": "the cramped cockpit of a derelict spaceship, red emergency lighting",
"camera": "slow orbit to the right on a 35mm lens",
"lighting": "pulsing red emergency light, faint blue glow from the console",
"audio": "low hum of failing systems, an intermittent alarm beep, tense ambient drone",
"style": "sci-fi, cinematic, photorealistic, film grain",
"aspect_ratio": "16:9"
}
JSON-Prompts mit einem Referenzbild (Image-to-Video)
Die JSON-Strukturierung glänzt genauso, wenn Sie von einem Bild statt von reinem Text ausgehen. Wenn Sie ein Referenzbild hochladen, legt das Bild bereits Aussehen, Kleidung und Umgebung des Subjekts fest – Sie können also die schwere Beschreibung in subject und setting weglassen und Ihre Felder für Bewegung und Kamera verwenden. Das Bild übernimmt das „Wie es aussieht“; das JSON übernimmt das „Was es tut“.
{
"input": "uploaded reference image of the character",
"action": "the character turns their head toward the window, then breaks into a slow smile",
"camera": "gentle handheld drift, slight push-in on a 50mm lens",
"lighting": "match the soft window light in the reference image",
"audio": "quiet room tone, a soft inhale, distant birdsong, no music",
"style": "preserve the photographic style of the reference image",
"negative": "do not change the character's face, hair, or clothing"
}
Beachten Sie, wie lighting und style match und preserve sagen, statt die Szene neu zu beschreiben – das verankert Veo 3 an Ihrem Bild, statt es neu zu erfinden. Das Feld negative, das die Identität schützt („ändere das Gesicht nicht“), ist eine der wirkungsvollsten Zeilen, die Sie für Image-to-Video schreiben können. Den vollständigen Referenzbild-Workflow finden Sie in unserem Leitfaden zu Image-to-Video in Veo 3.
Fortgeschritten: Reihenfolge und Gruppierung der Felder
Zwei Verfeinerungen unterscheiden ordentliche JSON-Prompts von großartigen. Erstens ist die Feldreihenfolge ein weiches Signal – setzen Sie die wichtigste Anweisung nach oben. Wenn die Identität der Figur am wichtigsten ist, beginnen Sie mit subject; wenn die Kamerabewegung der Held der Einstellung ist, beginnen Sie mit camera. Zweitens können Sie für komplexe Szenen verwandte Werte gruppieren, indem Sie verschachtelte Objekte verwenden, sodass jeder Cluster sauber lesbar ist:
{
"subject": "a street violinist, late 20s, fingerless gloves",
"action": "plays an energetic solo, eyes closed",
"camera": { "movement": "slow arc left", "lens": "35mm", "depth_of_field": "shallow" },
"lighting": { "key": "golden hour backlight", "fill": "soft bounce from the right" },
"audio": { "music": "a fast, emotional solo violin", "ambient": "city street, faint applause", "sfx": "none" }
}
Veo 3 liest die verschachtelten Werte problemlos, und die Gruppierung macht auf einen Blick klar, was Sie angegeben und was Sie dem Modell überlassen haben. Verwenden Sie flache Felder für einfache Einstellungen und verschachtelte Objekte nur dann, wenn ein Abschnitt wirklich mehrere Unterwerte hat – ein einfaches Prompt zu stark zu verschachteln fügt nur Rauschen hinzu.
So verwenden Sie einen JSON-Prompt in Veo 3
Sie brauchen keinen speziellen Modus. Veo 3 akzeptiert das JSON-Objekt direkt im selben Prompt-Feld, in das Sie einen Satz tippen würden:
- Öffnen Sie Veo 3 auf veo3ai.io (oder Google Flow, wenn Sie die Storyboard-Ansicht bevorzugen).
- Fügen Sie Ihr vollständiges JSON-Objekt in das Prompt-Feld ein. Halten Sie das JSON gültig – passende Klammern, Werte in Anführungszeichen, Kommas zwischen den Feldern.
- Legen Sie Cliplänge und Seitenverhältnis fest, falls die Oberfläche sie separat anbietet; andernfalls erledigt das Feld
aspect_ratioinnerhalb des JSON die Arbeit. - Generieren, prüfen, dann iterieren, indem Sie jeweils ein Feld ändern.
- Um eine Sequenz aufzubauen, duplizieren Sie das JSON, halten Sie
subject/style/lightingeingefroren und bearbeiten Sie nuractionundcamerafür die nächste Einstellung.
Genau diese Disziplin der eingefrorenen Blöcke ermöglicht es Creatorn, eine Figur über ein Video mit mehreren Einstellungen hinweg „im Charakter“ zu halten, was die Voraussetzung für alles ist, was länger als ein einzelner Clip ist.
JSON-Prompt-Generatoren: Brauchen Sie einen?
2026 erschien eine Welle kostenloser „Veo-3-JSON-Prompt-Generator“-Tools – sie bieten ein Formular mit Dropdown-Menüs für Einstellung, Kamera und Licht und exportieren dann das JSON für Sie. Sie sind praktisch für Anfänger, die keine geschweiften Klammern von Hand schreiben wollen, und zum Durchstöbern vorgefertigter Prompt-Bibliotheken. Aber sobald Sie die obige Feldanatomie verstanden haben, ist das eigene Schreiben des JSON schneller und weitaus flexibler als das Klicken durch das Formular eines anderen. Das Schema in diesem Leitfaden ist der Generator – halten Sie es in einem Tab offen, kopieren Sie die Vorlage, die Ihrer Einstellung am nächsten kommt, und bearbeiten Sie die Werte. Die eigentliche Fähigkeit ist nicht das Tool; es ist das Wissen, welche Felder welche Regler bewegen, und das haben Sie jetzt.
Häufige Fehler beim JSON-Prompting
- Ungültiges JSON. Ein fehlendes Komma oder eine nicht passende Klammer kann dazu führen, dass das Modell zurückfällt und das Objekt als unsauberen Text liest. Fügen Sie Ihr Objekt im Zweifel vor dem Generieren in einen beliebigen kostenlosen JSON-Validator ein.
- Ein Feld überladen. Schreiben Sie keinen Absatz in
action. Verteilen Sie unterschiedliche Ideen auf die richtigen Schlüssel – Bewegung kommt incamera, Stimmung inlightingundcolor_grade. - Den Ton vergessen. Der native Ton von Veo 3 ist sein größter Vorteil gegenüber älteren Modellen. Ein leeres oder fehlendes
audio-Feld verschenkt ihn. Geben Sie immer Umgebungsgeräusche, Effekte und an, ob Sie Musik wollen. - Dialog zu lang. In einen 8-Sekunden-Clip passen ungefähr ein bis zwei kurze Sätze Sprache. Quetschen Sie einen Monolog hinein, und die Lippensynchronisation hetzt oder bricht ab.
- Alles auf einmal ändern. Wenn ein Ergebnis nah dran, aber nicht perfekt ist, schreiben Sie nicht das ganze Objekt neu. Ändern Sie ein Feld, starten Sie neu, lernen Sie daraus.
JSON vs. Fließtext: Wann was verwenden
Text-Prompts sind nach wie vor völlig in Ordnung für schnelle, einfache Ideen mit einer Einstellung, bei denen Ihnen exakte Kontrolle egal ist – „ein Golden Retriever rennt bei Sonnenuntergang am Strand“ sieht so oder so großartig aus. Greifen Sie zu JSON, wenn Sie Präzision (bestimmtes Objektiv, Licht, Farbe), Konsistenz (dieselbe Figur oder denselben Look über mehrere Clips) oder wiederholbare Iteration (Ändern jeweils einer Variable) brauchen. In der Praxis: Experimentieren Sie locker mit Text und fixieren Sie dann Ihre Gewinneridee in einem JSON-Objekt, damit Sie sie zuverlässig reproduzieren und verlängern können. Eine größere Bibliothek von Text-Ideen zum Umwandeln in JSON finden Sie in unserem Leitfaden zu den besten Veo-3-Prompts.
Häufig gestellte Fragen
Unterstützt Veo 3 JSON-Prompts offiziell? Veo 3 erzwingt kein formales JSON-Schema, parst aber zuverlässig strukturierte JSON-Objekte, weil die natürlichsprachlichen Werte innerhalb jedes Feldes genau das sind, was das Modell liest. Die Struktur ist zu Ihrem Nutzen da – sie erzwingt explizite, getrennte Anweisungen – und liefert in der Praxis deutlich besser steuerbare Ergebnisse als Absätze.
Ist JSON-Prompting besser als ein detaillierter Satz? Für komplexe oder wiederholbare Einstellungen ja. Das Format verhindert, dass Anweisungen verloren gehen, und macht Konsistenz über mehrere Clips weitaus einfacher. Für eine einmalige einfache Idee genügt ein guter Satz.
Welche Felder sind für Konsistenz am wichtigsten?
subject, style und lighting. Halten Sie diese drei über Generierungen hinweg identisch und ändern Sie nur action und camera, damit Figur und Look von Einstellung zu Einstellung „im Charakter“ bleiben.
Kann ich JSON-Prompts für vertikale TikTok- und Reels-Videos verwenden?
Ja – setzen Sie "aspect_ratio": "9:16" innerhalb des Objekts. Vorlage 3 oben ist ein fertiger vertikaler Ausgangspunkt.
Brauche ich einen JSON-Prompt-Generator? Nein. Die Vorlagen und die Feldliste in diesem Leitfaden decken ab, was die Generatoren ausgeben. Eine Vorlage von Hand zu bearbeiten ist schneller und flexibler, sobald Sie die Felder kennen.
Kann ich JSON-Prompts verwenden, wenn ich von einem Bild ausgehe?
Ja, und das ist oft der sauberste Workflow. Lassen Sie das hochgeladene Bild Aussehen und Umgebung festlegen und verwenden Sie Ihre JSON-Felder für action, camera und eine negative-Zeile, die die Identität der Figur schützt. Siehe die Image-to-Video-Vorlage oben.
Wie lang darf der Dialog in einem JSON-Prompt sein?
Halten Sie gesprochene Zeilen kurz – etwa ein bis zwei kurze Sätze für einen normalen 8-Sekunden-Clip. Längere Zeilen zwingen die Lippensynchronisation zum Hetzen oder Abbrechen. Wenn Sie mehr Dialog brauchen, teilen Sie ihn über aufeinanderfolgende Clips mit einem eingefrorenen subject-Block auf.
Erzeugt derselbe JSON-Prompt immer dasselbe Video?
Nicht ganz – Veo 3 bringt zwischen den Durchläufen weiterhin Variation ein. Aber ein gut strukturierter Prompt verengt diese Variation drastisch, und das Einfrieren von subject, style und lighting hält den Look konsistent genug, um Clips zusammenzufügen.
Beginnen Sie, mit Struktur zu prompten
JSON-Prompting ist der Unterschied zwischen dem Hoffen auf ein gutes Veo-3-Ergebnis und dem Engineering eines solchen. Wählen Sie die Vorlage, die Ihrer Einstellung am nächsten kommt, fügen Sie sie in Veo 3 ein und ändern Sie jeweils ein Feld, bis es stimmig ist. Sobald Sie die Feldanatomie fließend beherrschen, kehren Sie nie wieder zum Ringen mit langen Absätzen zurück – und Ihre Figuren, Ihr Licht und Ihr Ton bleiben endlich genau dort, wo Sie sie platziert haben. Für die nächste Stufe kombinieren Sie dies mit unserem Leitfaden zu kinematografischen Prompts und beginnen Sie, Sequenzen mit mehreren Einstellungen zu bauen, die wirklich zusammenhalten.
Related Articles
Continue with more blog posts in the same locale.

Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)
Veo 3 brennt verzerrte Untertitel in Dialog-Clips ein. Das komplette 2026-Playbook: verhindern bei der Generierung und entfernen in der Nachbearbeitung.
Read article
Massen-KI-Videogenerator: Veo-3-Videos im Batch und im Maßstab erstellen (2026)
So erstellen Sie mit einem Massen-KI-Videogenerator-Workflow Dutzende konsistente Veo-3-Videos im Batch — Master-Prompts, Variablen-Sheets, Seed-Kontrolle, Playbooks, Kostenkontrolle und QA.
Read article
Veo 3 Figurenkonsistenz: Dieselbe Figur über alle Clips beibehalten (2026)
Schluss mit driftenden Figuren zwischen Veo-3-Clips. Ein komplettes System: Figuren-Bibel-Vorlage, Referenzbilder, Verkettung über Scene Builder und Frames-to-Video, Prompt-Struktur gegen das Driften.
Read article