- Blog
- Veo 3 Prompt-Leitfaden: Wie man Prompts für Googles KI-Video schreibt (2026)
Veo 3 Prompt-Leitfaden: Wie man Prompts für Googles KI-Video schreibt (2026)
Vollständiger Leitfaden zum Schreiben effektiver Prompts für Veo 3 von Google. Prompt-Strukturen, Beispiele nach Inhaltskategorien, Audio-Techniken und fortgeschrittene Iterationsstrategien.
Emma Chen · 8 min read · Apr 2, 2026

Das Schreiben effektiver Prompts für Veo 3 ist sowohl einfacher als auch komplexer, als viele neue Nutzer erwarten. Das zugrundeliegende Prinzip ist simpel: Veo 3 ist sehr gut darin, Szenenbeschreibungen zu visualisieren, die auf den Konventionen der Kinematografie, Fotografie und Videoproduktion basieren. Die Prompt-Sprache, die die besten Ergebnisse liefert, schöpft aus diesem Vokabular — der Sprache von Regisseuren, Kameramännern und bildenden Künstlern — und nicht aus der Sprache technischer Befehle.
Dieser Leitfaden bietet ein vollständiges Framework für das Schreiben von Veo 3 Prompts in allen wichtigen Inhaltskategorien, mit konkreten Beispielen und der Begründung, warum bestimmte Ansätze besser funktionieren als andere.
Die grundlegende Prompt-Struktur
Effektive Veo 3 Prompts folgen unabhängig von der Inhaltskategorie einer konsistenten Struktur:
[Subjekt/Aktion] + [Umgebung/Setting] + [Kamera/Aufnahmetyp] + [Beleuchtung/Atmosphäre] + [Stil/Qualität] + [Audio] + [Dauer]
Nicht jedes Element muss in jedem Prompt enthalten sein, aber das Verständnis der Rolle jedes Elements hilft Ihnen zu wissen, was für ein bestimmtes inhaltliches Ziel einzubeziehen oder wegzulassen ist.
Subjekt/Aktion beschreibt, was der primäre visuelle Fokus ist und was es tut. Seien Sie präzise: „ein Golden Retriever, der über nassen Sand läuft" wird wahrscheinlicher ein nützliches Ergebnis liefern als „ein Hund, der am Strand läuft." Die Präzision gibt dem Modell eine klare Richtung für den gewünschten visuellen Output.
Umgebung/Setting etabliert, wo die Szene stattfindet und die relevanten Eigenschaften dieser Umgebung. Fügen Sie Details hinzu, die die visuelle Qualität beeinflussen: „ein modernes Glasbüro mit raumhohen Fenstern mit Blick auf eine Stadt bei Nacht" gibt dem Modell viel mehr zu verarbeiten als „ein Büro."
Kamera/Aufnahmetyp wird von Anfängern oft übersehen, beeinflusst das Ergebnis aber erheblich. Kinematografisches Vokabular — Establishing Shot, Nahaufnahme, Mittlere Einstellung, Tracking Shot, Luftdrohnenansicht, Handkamera — erzeugt kontrolliertere Ergebnisse als wenn die Kamerakomposition unspezifiziert bleibt.
Beleuchtung/Atmosphäre ist einer der wirkungsvollsten Hebel beim Schreiben von Veo 3 Prompts. Spezifische Beleuchtungsbeschreibungen — goldene Stunde, diffuses bewölktes Licht, hartes Mittagslicht, Innenambiente mit Akzentbeleuchtung, blaue Stunde, Neonreflexionen auf nassem Asphalt — erzeugen dramatisch unterschiedliche visuelle Qualitäten, selbst bei identischen Subjektbeschreibungen.
Stil/Qualität — Modifikatoren helfen, die gesamte Ästhetik zu steuern: fotorealistisch, kinematografisch, Dokumentarstil, kommerzieller Fotostil, redaktionell, Filmkorn, sauber und modern, warm und intim. Diese Modifikatoren beeinflussen die gesamte visuelle Behandlung.
Audio ist einzigartig für Veo 3 unter den wichtigsten KI-Videowerkzeugen. Das Einbeziehen von Audiobeschreibungen liefert bessere Audioergebnisse, als es der Schlussfolgerung zu überlassen: „das Meeresrauschen," „leichtes Jazz-Klavier," „Stadtlärm in der Ferne," „knisterndes Feuer."
Prompts nach Inhaltskategorien
Natur- und Landschaftsinhalte
Natur- und Landschaftsinhalte sind Veo 3s stärkste Kategorie. Das Modell liefert außergewöhnliche Ergebnisse für Umweltszenen, und die Audiogenerierung ist besonders gut für natürliche Umgebungen.
Gute Vorlage für Natur-Prompts: „[Spezifisches Landschaftsmerkmal] zu [Tageszeit], [Wetter/atmosphärische Bedingungen], [Kameraführung und -bewegung], [spezifische Naturelemente vorhanden], [Beleuchtungsqualität], kinematografischer Naturdokumentarstil, [Audiobeschreibung]"
Beispiel: „Ein Wasserfall, der über mit Moos bedeckte Felsen in einem gemäßigten Regenwald stürzt, geflecktes Sonnenlicht filtert durch das Blätterdach, langsamer Zoom aus mittlerer Distanz, grüne Farne im Vordergrund, nebelige atmosphärische Tiefe, kinematografischer Naturdokumentarstil, das Geräusch von rauschenden Wassern und entferntem Vogelgesang, 8 Sekunden"
Was das funktionieren lässt: Der Prompt gibt spezifische visuelle Details (Moos-bedeckte Felsen, Farne, nebelige Tiefe) anstelle von generischen Beschreibungen. Die Kamerabewegung (langsamer Vorwärtszoom) wird angegeben. Das Audio wird beschrieben. Die Stilreferenz (Naturdokumentation) etabliert einen ästhetischen Rahmen, den das Modell umsetzen kann.
Urbane und architektonische Inhalte
Urbane Inhalte profitieren am meisten von spezifischer Aufmerksamkeit für Beleuchtungsbedingungen, die die Stimmung von Stadtaufnahmen vollständig verändern.
Gutes Beispiel am Tag: „Eine belebte Tokioter Kreuzung mittags, Ströme von Fußgängern überqueren unter hellem Mittagslicht, weite Vogelperspektive von oben, geometrische Schattenmuster von Gebäuden, lebhafte Energie, fotorealistischer urbaner Dokumentarstil, Menschenmenge und entfernter Verkehr"
Abendbeispiel: „Eine leere Kopfsteinpflasterstraße in einer europäischen Altstadt zur blauen Stunde, warmes Fensterlicht aus Cafés spiegelt sich in den nassen Steinen, langsam bewegte Handkamera auf Straßenniveau, intim und atmosphärisch, europäischer Filmstil, ruhige Nachtgeräusche mit entfernter Musik"
Produkt- und Werbeinhalte
Produktinhalte erfordern eine Balance zwischen visueller Qualität und kontrollierten Umgebungen, die das Produkt angemessen in den Vordergrund stellen.
Beispiel: „Eine hochwertige Lederbrieftasche auf einer Marmoroberfläche in einem minimalistischen Homeoffice, natürliches Nachmittagslicht von einem großen Fenster erzeugt weiche Schatten, Nahaufnahme, die das Produkt langsam aus einem Winkel enthüllt, saubere und moderne Ästhetik mit geringer Schärfentiefe, die den Hintergrund unscharf macht, kommerzieller Fotostil, ruhige Raumatmosphäre"
Inhalte mit menschlichen Charakteren und Lifestyle
Menschliche Charakterinhalte sind die schwierigste Kategorie für alle aktuellen KI-Videowerkzeuge, einschließlich Veo 3. Gesichtsdetails, Handdarstellung und komplexe Bewegungen können Artefakte erzeugen. Der Ansatz, der am besten funktioniert:
- Reduzieren Sie die Sichtbarkeit von Gesichtern — Mittlere und weitere Einstellungen produzieren weniger Artefakte
- Verwenden Sie Silhouetten und Bewegung — Kontente, die Form und Bewegung einer Person betonen
- Vermeiden Sie spezifische Identitätsbeschreibungen — Generische Beschreibungen funktionieren besser
Beispiel: „Eine junge Berufsfrau geht selbstbewusst durch eine Glas-und-Stahl-Unternehmenslobby, mittlere Einstellung von hinten, die zielgerichtete Bewegung zeigt, helles Morgenlicht durch hohe Fenster, saubere Unternehmensarchitektur, zeitgenössischer Geschäftsstil, Lobbygeräusche, 8 Sekunden"
Abstrakte und atmosphärische Inhalte
Abstrakte und atmosphärische Inhalte sind sehr zuverlässig und hervorragend für Hintergrundvideos, Meditations-Apps, Social-Media-Atmosphäre und kreative Projekte.
Beispiel: „Nordlichter füllen den Nachthimmel mit fließenden Vorhängen aus grünem und violettem Licht über einer dunklen arktischen Landschaft, extrem langsame flüssige Bewegung, Sterne sichtbar in den dunkleren Bereichen, traumhafte und erhabene Qualität, still außer einem schwachen kalten Wind"
Audio-Prompt-Techniken
Da Veo 3 einzigartig darin ist, synchronisiertes Audio zu generieren, verdienen Audio-Prompt-Techniken besondere Aufmerksamkeit.
Umgebungsbeschreibungen liefern die zuverlässigsten und natürlichsten Ergebnisse:
- „das Geräusch von Regen auf einer Stadtstraße bei Nacht"
- „Morgenvögel und leichte Brise in einem Kiefernwald"
- „entfernte Meereswellen und Möwen"
- „belebtes Café-Ambiente mit klirrenden Tassen und gedämpften Gesprächen"
Musikstilbeschreibungen funktionieren mit mäßiger Zuverlässigkeit:
- „sanftes Jazz-Klavier" → erzeugt normalerweise piano-betonten Ambient-Jazz
- „sanfte akustische Gitarre" → erzeugt normalerweise leichtes Fingerpicking
- „minimalistisches Ambient-Elektronik" → erzeugt normalerweise spärliche elektronische Textur
Iterationsstrategien
Modifizieren Sie jeweils ein Element. Wenn eine Generierung nicht das liefert, was Sie wollen, identifizieren Sie das einzelne Element, das am meisten für die Lücke verantwortlich ist, und ändern Sie nur dieses.
Testen Sie zuerst Beleuchtungsvariationen. Beleuchtung ist oft der wirkungsvollste Hebel für visuelle Qualität. Wenn eine Generierung flach oder generisch aussieht, versuchen Sie eine spezifischere und ausdrucksvollere Beleuchtungsbeschreibung.
Speichern Sie funktionierende Prompts. Wenn Sie einen Clip generieren, der Ihre Qualitätsanforderungen erfüllt, speichern Sie den vollständigen Prompt. Erstellen Sie eine Bibliothek bewährter Prompts, die nach Inhaltskategorien organisiert sind.
Generieren Sie mehrere Optionen. Anstatt einen einzelnen Prompt zu perfektionieren, generieren Sie 3–5 Variationen eines vielversprechenden Prompts und wählen Sie die beste aus.
Qualitätsmodifikatoren, die funktionieren
- „cinematic quality" — verschiebt in Richtung filmischer Darstellung
- „photorealistic" — erhöht die visuelle Genauigkeit für realistischen Inhalt
- „sharp focus throughout" — reduziert Fokus-Drift-Artefakte
- „professional photography quality" — nützlich für Produkt- und Werbeinhalte
- „National Geographic style" — ausgezeichnet für Natur- und Dokumentarinhalte
- „editorial photography style" — saubere, zeitgemäße Ästhetik für Lifestyle-Inhalte
- „moody and atmospheric" — erhöht Tiefe und visuelle Dramatik
Prompts für spezifische Plattformformate
TikTok / Instagram Reels: Vertikale Komposition, hohe Energie, schnelles visuelles Interesse in den ersten 2 Sekunden. „sofortige visuelle Wirkung, vertikal komponiert, hohe Energie"
YouTube Shorts: Ähnlich wie TikTok, aber etwas mehr Raum für langsamere Entwicklungen. „von erstem Frame an fesselnd, vertikales Format, dynamische visuelle Qualität"
LinkedIn: Professionelle, saubere Ästhetik. „Corporate-professionelles Setting, saubere moderne visuelle Qualität"
Website-Hintergrundvideo: Subtile Bewegung, keine ablenkenden Elemente, funktioniert gut ohne Ton. „langsame subtile Bewegung, minimale Ablenkung, geeignet als Hintergrundvideo"
Häufig gestellte Fragen
Wie lang sollten Veo 3 Prompts sein? Effektive Prompts reichen von 50 bis 200 Wörtern. Kürzere Prompts geben dem Modell mehr kreative Freiheit; längere Prompts bieten spezifischere Orientierung.
Spielt die Prompt-Reihenfolge eine Rolle? Die wichtigsten Elemente sollten früh im Prompt erscheinen. Subjekt und Setting am Anfang, Qualitäts- und Stilmodifikatoren am Ende.
Kann ich denselben Prompt zweimal verwenden und dasselbe Ergebnis erhalten? Nein — Veo 3 Generierung beinhaltet Zufälligkeit, daher erzeugt derselbe Prompt jedes Mal unterschiedliche Ausgaben.
Was ist die beste kostenlose Alternative zu Veo 3 für Prompt-Experimente? Seedance 2.0 bietet täglich kostenlose Credits ohne Wasserzeichen und ausgezeichnete Generierungsqualität. Das Prompt-Framework aus diesem Leitfaden gilt auch für Seedance 2.0.
Erweiterte Techniken: Prompt-Chaining und Szenenerstellung
Für Kreative, die mehrklippige Videoinhalte produzieren, liefert die Technik des Prompt-Chainings — das Entwerfen einer Reihe verwandter Prompts, die visuell kohärente Clips erzeugen — deutlich ausgefeiltere Ergebnisse.
Einen visuellen Stil etablieren bedeutet, Beleuchtung, Umgebung und Stil für eine Clip-Serie in einem konsistenten Prompt-Framework zu definieren. Wenn Ihr Projekt Goldstunden-Beleuchtung mit warmen desaturierten Farben verwendet, fügen Sie diese Elemente konsistent in jeden Clip der Serie ein.
Umgebungsverankerung ist die Praxis, ein spezifisches Setting zu definieren und in mehreren Clips darauf zurückzugreifen. Ihre Serie könnte eine spezifische Küstenklippe im Eröffnungsclip etablieren, dann folgende Clips produzieren — Nahaufnahme von Wellen, weite Landschaftsansicht, atmosphärischer Himmel — die alle dieselbe Umgebung referenzieren.
Charakterkontinuität ist die schwierigste Herausforderung beim Multi-Clip-Chaining, da Veo 3 Charaktere in jedem Clip unabhängig generiert. Die praktische Lösung besteht darin, die Rolle erkennbarer menschlicher Charaktere in Clip-Serien zu minimieren und sich stattdessen auf Teilkörper-Inhalte (Hände, Silhouetten, Bewegung) zu konzentrieren.
Übergangsbewusstes Prompting berücksichtigt, von welchem und zu welchem visuellen Element der Clip schneiden wird. Ein Clip, der auf eine Action-Sequenz folgt, könnte mit einer spannungsaufbauenden visuellen Qualität enden — Kamera bewegt sich auf das Subjekt zu, Licht intensiviert sich.
Eine Aufnahmeliste erstellen, bevor man Prompts schreibt, ist eine der effektivsten strukturellen Techniken. Planen Sie den vollständigen Satz benötigter Clips, bevor Sie Prompts schreiben: welche visuellen Informationen jeder Clip vermittelt, wie er in die Sequenz passt und wie er zum nächsten Clip übergeht.
Diese fortgeschrittenen Techniken sind der Unterschied zwischen der Verwendung von Veo 3 als zufälligem Content-Generator und der Verwendung als diszipliniertem visuellen Produktionswerkzeug.
Related Articles
Continue with more blog posts in the same locale.

Veo 3 Reisevideo-Leitfaden 2026
Veo 3 Reisevideo-Leitfaden 2026
Read article
Veo 3 für Fashion-Video 2026
Veo 3 für Fashion-Video 2026
Read article
Veo 3 Lebensmittel- und Getränkevideo-Leitfaden 2026
Veo 3 Lebensmittel- und Getränkevideo-Leitfaden 2026
Read article