- Blog
- Veo 3 POV-Video-Prompts: So erzeugst du First-Person-Aufnahmen (2026)
Veo 3 POV-Video-Prompts: So erzeugst du First-Person-Aufnahmen (2026)
So schreibst du POV-Prompts für Veo 3 für immersive Ich-Perspektiven: eine 5-teilige Formel, 12 sofort nutzbare Beispiele, synchronisierter Ton und ein Hochformat-Workflow für TikTok und Shorts.
Emma Chen · 16 min read · Jun 28, 2026


POV-Videos (Point of View, Ich-Perspektive) gehören gerade zu den fesselndsten Formaten auf TikTok, Reels und YouTube Shorts. Der Zuschauer beobachtet die Szene nicht – er ist die Szene. Er geht durch die Tür, hält das Messer, umfasst das Lenkrad, lugt um die Ecke. Genau dieses Gefühl von „Ich bin mitten in diesem Moment" macht POV-Content so unwiderstehlich – und genau das liefert Veo 3 wie kaum ein anderes Tool.
Da Veo 3 zu jedem Clip nativen, synchronisierten Ton erzeugt, wirkt eine Ich-Perspektive nicht nur immersiv – sie klingt auch immersiv. Schritte landen, der Atem stockt, Regen prasselt auf die Motorhaube, eine Stimme murmelt direkt neben „deinem" Ohr. Diese Verbindung von Bild und Ton ist der Unterschied zwischen einem Clip, der sich wie eine Kamera anfühlt, und einem Clip, der sich wie du selbst anfühlt.
Dieser Leitfaden erklärt genau, wie du POV-Prompts für Veo 3 schreibst: die Prompt-Formel, das Kameravokabular, das das Modell versteht, 12 sofort einsetzbare Prompt-Beispiele für die beliebtesten POV-Genres, wie du synchronisierten Ton einfügst und wie du die Fehler behebst, die die Ich-Illusion zerstören.
Was „POV" für Veo 3 wirklich bedeutet
In der Filmsprache zeigt eine POV-Aufnahme (Point of View, Ich-Perspektive) die Welt so, wie eine Figur sie sieht. Die Kamera ersetzt die Augen einer Person. Du siehst die Person nicht – du siehst, was vor ihr liegt, oft mit ihren Händen, Armen oder Füßen, die ins Bild ragen.
Veo 3 erkennt „POV shot" und „first-person perspective" als ausdrückliche Kameraanweisungen. Laut Googles eigenen Prompting-Empfehlungen und den filmischen Referenzen, mit denen das Modell trainiert wurde, steuert die Angabe eines Aufnahmetyps – Nahaufnahme, Tracking-Shot, Over-the-Shoulder, Luftaufnahme oder POV – wie Veo die Szene kadriert. Wenn du „POV shot, first-person perspective" schreibst, senkt das Modell die Kamera auf Augenhöhe, entfernt die zentrale Figur aus dem Bild und lässt Hände und Umgebung die Geschichte erzählen.
Das ist wichtig, denn Veo 3 erzeugt standardmäßig eine statische oder nur dezent freihändige Bewegung, wenn du die Kamera nicht beschreibst. POV ist kein Standard – du musst es anfordern, und zwar präzise. Die gute Nachricht: Sobald du die Formel verstanden hast, lässt sie sich beliebig wiederholen.
Warum sich Veo 3 gut für POV-Content eignet
Einige Kernfähigkeiten von Veo 3 passen fast perfekt zu dem, was Ich-Perspektiven brauchen:
- Nativer synchronisierter Ton. Veo 3 erzeugt den Ton gemeinsam mit dem Bild – Umgebungsgeräusche, Schritte, das Hantieren mit Objekten, Atem und Dialog – alles passend zur Handlung getimt. POV lebt von Immersion, und Immersion besteht zur Hälfte aus Ton. Du musst keine Geräusche separat beschaffen.
- Filmische Kamerasteuerung über Sprache. Aufnahmetypen, Objektivgefühl und Bewegung lassen sich in normalem Deutsch beschreiben. POV ist einer der Kameravokabular-Begriffe, die das Modell direkt versteht.
- 1080p-Ausgabe. Clips rendern in bis zu 1080p (mit höher auflösenden Optionen bei Veo 3.1), scharf genug, dass die ins Bild ragende Hand als echte Haut wirkt und nicht als Schmiere.
- Hochformat-Unterstützung 9:16. POV-Content ist überwiegend mobil. Veo 3 erzeugt echte Hochformat-Clips, sodass du keine Querformat-Aufnahme zuschneiden und dabei die immersiven Ränder verlieren musst.
- Basis-Clips von 8 Sekunden. Eine einzelne Generierung läuft bis zu etwa 8 Sekunden – die natürliche Länge für einen POV-„Moment". Längere Erzählungen werden aus mehreren Beats zusammengesetzt (mehr dazu unten).
Die Anatomie eines Veo-3-POV-Prompts
Die stärksten POV-Prompts folgen einem einheitlichen Gerüst. Stell es dir als fünf Felder vor, die du ausfüllst:

- Aufnahme-Deklaration – lege sofort die Ich-Kadrierung fest. „POV shot, first-person perspective…"
- Wer du bist und was dein Körper tut – die Hände, Arme oder Füße, die ins Bild ragen, und die Handlung. „…meine Hände umfassen einen Holzlöffel und rühren in einem Topf mit blubberndem rotem Curry…"
- Umgebung und Licht – wo du bist und wie es aussieht. „…in einer warmen, dampfigen Wohnküche, weiches Nachmittagslicht durchs Fenster…"
- Kameraverhalten – wie der „Kopf" sich bewegt. „…die Kamera neigt sich hinunter zum Topf, dann hinauf zum Herd, leichtes natürliches Kopfwippen…"
- Ton – der synchronisierte Klang, den du willst. „…Geräusche von brutzelndem Öl, ein Löffel, der an den Topfrand klopft, sanftes Blubbern."
Zusammengesetzt ergibt das einen klaren, immersiven 8-Sekunden-Beat. Der häufigste Fehler: Man schreibt nur Feld 1 und 3 („POV-Aufnahme in einer Küche") und wundert sich, warum das Ergebnis generisch wirkt. Die Hände und der Ton verkaufen die Ich-Perspektive.
POV-Kameravokabular, das Veo 3 versteht
Du kannst diese Begriffe im Prompt kombinieren, um das Gefühl zu steuern:
- „First-person perspective" – betont, dass die Kamera die Augen der Figur ist.
- „Eye-level camera" – hält die Kadrierung auf natürlicher menschlicher Höhe.
- „Slight head-bob" / „natural handheld sway" – fügt die feine Bewegung hinzu, die eine Aufnahme verkörpert statt stativfest wirken lässt.
- „Hands enter frame from the bottom" – lädt den Körper ausdrücklich ins Bild ein, der wichtigste POV-Hinweis.
- „The camera tilts down / pans left / looks up" – steuert, wohin der „Kopf" sich dreht.
- „Shallow depth of field" / „background softly blurred" – ahmt nach, wie sich der menschliche Fokus auf das verengt, was du hältst.
- „GoPro-style wide angle" – verleiht Action- und Sport-POV das brustmontierte Fisheye-Gefühl.
Du brauchst nicht alle. Wähle die zwei oder drei, die zum Moment passen.
12 sofort einsetzbare Veo-3-POV-Prompts
Kopiere sie, tausche die Details aus und generiere. Jeder ist als ein 8-Sekunden-Beat mit bereits eingebautem synchronisierten Ton geschrieben.
1. POV: Kochen
Ich-Perspektive in einer Wohnküche: Deine Hände schneiden eine Tomate zum Klang rhythmischen Hackens.
POV shot, first-person perspective. My hands hold a chef's knife, slicing a ripe red tomato on a wooden board in a bright home kitchen. Warm morning light through a window, steam rising from a pot in the soft-focus background. The camera tilts down to the board, slight natural head-bob. Audio: rhythmic chopping on wood, a pot gently bubbling, quiet kitchen ambience.
2. POV: Reise, Stadtspaziergang
Ein Gang durch eine nächtliche Gasse mit Neonschildern und Spiegelungen auf nassem Asphalt.
POV shot, first-person perspective walking through a narrow Tokyo alley at night. Neon signs glow pink and blue, reflections on wet pavement after rain. My shadow stretches ahead, slight head-bob with each step. Camera looks left toward a glowing ramen shop, then forward. Audio: footsteps on wet concrete, distant city hum, a sliding door, soft rain.
3. POV: Autofahren
Blick vom Fahrersitz auf einer Küstenstraße zur goldenen Stunde, die Hände am Lenkrad.
POV shot, first-person perspective from the driver's seat of a car on a coastal highway at golden hour. My hands rest on the steering wheel, the ocean glittering to the right through the windshield. Subtle handheld sway. Audio: engine hum, wind against the window, a faint song on the radio, the rhythmic click of a turn signal.
4. POV: Gaming / Esport-Reaktion
Am Gaming-Tisch in einem dunklen Raum mit Tastatur-Leuchten und angespanntem Vorlehnen.
POV shot, first-person perspective sitting at a gaming desk in a dark room lit by RGB keyboard glow. My hands rest on a mechanical keyboard and mouse, a glowing monitor in front. The camera leans slightly forward with tension. Audio: rapid mechanical key clicks, mouse clicks, a low desk-fan hum, an excited exhale.
5. POV: Morgenroutine („ein Tag in meinem Leben")
Eine Hand stellt den Wecker aus und zieht die Vorhänge zur Morgensonne auf.
POV shot, first-person perspective. My hand reaches out to silence a phone alarm on a nightstand, then pulls open soft white curtains to bright morning sun. The camera pans across a cozy bedroom. Slight natural sway. Audio: alarm tone cut short, curtain rings sliding on a rod, birds outside, a quiet yawn.
6. POV: Horror / Thriller
Ein langsamer Gang durch den dunklen Flur eines alten Hauses mit zitterndem Taschenlampenstrahl.
POV shot, first-person perspective slowly walking down a dim hallway in an old house, a flashlight beam trembling against peeling wallpaper. My hand grips the flashlight in the lower frame. The camera creeps forward, slight unsteady sway, then stops at a half-open door. Audio: slow footsteps on creaking wood, shallow nervous breathing, a distant thud, ringing silence.
7. POV: Wandern in der Natur
Der Aufstieg auf einem Waldpfad am Morgen, die Stiefel über bemooste Steine und Wurzeln.
POV shot, first-person perspective hiking up a forest trail in the morning. My boots step over mossy rocks and roots, the camera tilts down to the path then up to sunlight breaking through tall pines. Natural head-bob with each stride. Audio: crunching gravel and leaves, steady breathing, birdsong, a light breeze through branches.
8. POV: Barista / Kaffee
Hinter dem Café-Tresen: Die Hände stampfen Espresso und stellen die Tasse unter den Auslauf.
POV shot, first-person perspective behind a cafe counter. My hands tamp espresso grounds into a portafilter, lock it into a gleaming machine, and place a white cup beneath the spout. Warm cafe lighting, soft-focus pastries in the background. Camera tilts to follow each action. Audio: the grind of beans, a hiss of steam, espresso trickling into the cup, low cafe chatter.
9. POV: Unboxing
An einem aufgeräumten Schreibtisch öffnen die Hände einen Karton und heben neue Kopfhörer heraus.
POV shot, first-person perspective at a clean desk. My hands cut the tape on a brown cardboard box, fold open the flaps, and lift out a sleek pair of white headphones in tissue paper. Bright, even product lighting. The camera looks straight down at the box. Audio: a box cutter slicing tape, crinkling tissue paper, a soft click as the lid opens.
10. POV: Fitness / Fitnessstudio
Im Studio umfassen die eingekreideten Hände die Hantel vor einem konzentrierten Heben.
POV shot, first-person perspective in a gym, gripping a loaded barbell on the floor. My chalked hands tighten around the bar, the camera looks down at the weights then forward to a mirror. Slight tension and sway as I prepare to lift. Audio: a deep focused exhale, the clink of metal plates, muffled gym music, a faint grunt of effort.
11. POV im ASMR-Stil aus der Ich-Perspektive
Die Hände ziehen langsam die Folie von einem neuen Notizbuch und blättern durch leere Seiten.
POV shot, first-person perspective at a desk in soft warm light. My hands slowly peel the plastic wrap off a new notebook, run fingers across the textured cover, and flip through crisp blank pages. Shallow depth of field. Audio: crinkling plastic, the soft crackle of pages, a gentle tap on the cover, quiet room tone.
12. POV: Abenteuer / Action im GoPro-Stil
Eine Weitwinkelaufnahme im GoPro-Stil: die Abfahrt mit dem Mountainbike auf einem staubigen Pfad.
POV shot, first-person perspective, GoPro-style wide angle, mountain biking down a dusty forest trail. The handlebars and my gloved hands fill the lower frame, trees rushing past, dappled sunlight flickering. Fast natural motion and bumps. Audio: tires crunching dirt, wind rushing, the rattle of the bike frame, rapid breathing.
Synchronisierten Ton in POV einfügen (der Teil, den man überspringt)
Genau hier zieht Veo 3 speziell für POV davon. Da das Modell den Ton im selben Durchgang erzeugt, kannst du die Klangkulisse beschreiben – und sie landet im Takt mit dem Bild: Schritte passen zu jedem Schritt, ein Messerklopfen zu jedem Hieb.

Ein paar Regeln, die den POV-Ton zuverlässig verbessern:
- Beschreibe Ton in Schichten, nicht als einen Klumpen. Nenne einen Vordergrundklang (Schritte), einen mittleren Klang (das Objekt, das du hantierst) und eine Hintergrundkulisse (Stadtsummen, Raumton). Drei Schichten lesen sich als „echter Raum".
- Verknüpfe Ton mit der Handlung. „Messer hackt auf einem Holzbrett" schlägt „Küchengeräusche". Konkreter, an Handlung verankerter Ton synchronisiert besser.
- Setze Atem sparsam, aber kraftvoll ein. Ein einzelnes „leises nervöses Atmen" oder „konzentriertes Ausatmen" zementiert sofort die Ich-Perspektive, denn Atem hörst nur du. Nicht übertreiben – ein Atemhinweis pro Clip.
- Vermeide Musik im Prompt für echtes POV. Reale Ich-Momente kommen selten mit Soundtrack. Erzeuge sauberen diegetischen Ton und füge die Musik danach im Editor hinzu, wenn du willst. (Willst du doch Musik in der Szene – ein Radio, ein Club – beschreibe sie als von einer Quelle kommend: „ein leises Lied im Radio".)
Mehr zu sauberem diegetischem Ton findest du in unserem Beitrag zum nativen Audio-Prompting von Veo 3 und in der Erklärung, wie die Audiogenerierung von Veo 3 funktioniert.
Häufige POV-Fehler (und die Lösung)
Fehler: Die Figur erscheint im Bild. Du hast POV verlangt, aber das Ergebnis zeigt eine Person von außen. Lösung: Sag es zweimal – „POV shot, first-person perspective" vorn und „die Kamera zeigt nur meine Hände und was vor mir liegt" später. Die zentrale Figur zu entfernen ist der ganze Sinn.
Fehler: Keine Hände, also wirkt es wie eine Drohne. Eine Ich-Aufnahme ohne Körper im Bild sieht aus wie eine schwebende Kamera. Lösung: Nimm immer Hände/Arme/Füße ins Bild auf und was sie tun. Der Körper ist das POV.
Fehler: Die Kamera ist zu glatt. Perfekt stabilisierte Bewegung liest sich als Gimbal, nicht als menschlicher Kopf. Lösung: Füge „slight natural head-bob" oder „subtle handheld sway" hinzu. Für Action geh weiter: „fast bumps, GoPro-style".
Fehler: Generischer Ton. „Küchengeräusche" erzeugt vagen Matsch. Lösung: Verankere jeden Klang an einer konkreten Handlung und stapele drei Schichten.
Fehler: Eine Geschichte in 8 Sekunden zwängen. POV funktioniert als ein lebendiger Moment, nicht als Handlung. Lösung: Ein Ort, eine Handlung, ein Beat pro Clip. Baue Sequenzen durch Zusammenschneiden (nächster Abschnitt).
Längere POV-Sequenzen bauen
Eine einzelne Veo-3-Generierung endet bei etwa 8 Sekunden, was für einen POV-Beat reicht. Um eine längere „POV-Geschichte" zu erzählen – POV: ein Tag als Barista, POV: im Regen nach Hause gehen – schneidest du mehrere Beats zusammen:
- Storyboarde die Beats. Schreibe 3–5 separate POV-Prompts, jeder ein eigener Moment (Tür öffnen → Mantel aufhängen → Kaffee starten → ans Fenster setzen).
- Halte das „Du" konsistent. Verwende dieselbe Handbeschreibung, Kleidung und denselben Lichtstil in allen Prompts, damit der Zuschauer glaubt, es sei eine durchgehende Person. Formulierungen wie „meine Hände mit einer schwarzen Uhr am linken Handgelenk" tragen die Identität von Clip zu Clip.
- Generiere jeden Beat und füge sie dann im Editor in Erzählreihenfolge zusammen.
- Verlängere bei Bedarf. Veo 3.1 unterstützt das Verlängern eines Clips und das Verketten von Szenen für längere durchgehende Aufnahmen – nützlich, wenn eine Handlung mehr als 8 Sekunden braucht. Siehe unseren Leitfaden zum Verlängern von Veo-3-Videos über 8 Sekunden hinaus.
- Lege einen Musikteppich unter die gesamte Sequenz in der Nachbearbeitung, wenn das Format es verlangt, und halte den diegetischen Ton darunter.
Da POV-Beats kurz und in sich geschlossen sind, geht dieser Schnitt-Workflow schnell – und genau so werden die viralen „POV: …"-Sequenzen auf TikTok und Shorts gebaut.
POV fürs Hochformat: TikTok, Reels und Shorts
Fast aller POV-Content wird hochkant konsumiert, und Veo 3 erzeugt native 9:16-Clips, also solltest du Hochformat ausdrücklich anfordern. Füge „vertical 9:16 framing" zu jedem der obigen Prompts hinzu, und das Modell komponiert für das hohe Bild – die Hände und die Schlüsselhandlung bleiben dort zentriert, wo ein Handybildschirm sie zeigt. Generiere kein Querformat zum Zuschneiden; du verlierst die immersiven linken und rechten Ränder, die die Ich-Perspektive weit und präsent machen. Den vollständigen Überblick findest du in unserem Leitfaden zum Hochformat-Video von Veo 3.
Eine kurze Checkliste für Hochformat-POV, das funktioniert:
- Hook in der ersten Sekunde – die markanteste Handlung nach oben (die greifende Hand, die sich öffnende Tür).
- Halte das wichtige Objekt im mittleren Drittel des Bildes.
- Nutze auch den synchronisierten Ton als Hook; ein befriedigender Klang im ersten Beat stoppt das Scrollen.
- Ende auf einem „schleifenfreundlichen" Moment, damit der Clip sauber neu startet.
Wie sich Veo 3 speziell für POV schlägt
Viele KI-Videotools können eine Ich-Aufnahme rendern, aber POV ist ungewöhnlich anspruchsvoll beim Ton – und das ist Veo 3s Vorteil. Der native, synchronisierte Soundtrack bedeutet, dass ein POV-Kochclip mit bereits ans Bild gekoppeltem Hacken und Brutzeln ankommt, während viele konkurrierende Modelle stummes Video ausgeben, das du danach von Hand vertonen musst. Veo 3s starkes Verständnis filmischen Vokabulars (es parst zuverlässig „POV shot", „eye-level", „head-bob") bedeutet auch, dass du weniger Zeit mit dem Kampf gegen die Kamera und mehr mit Iterationen am Moment verbringst. Wenn du Optionen abwägst, stellt unser Vergleich der besten KI-Videogeneratoren Veo 3 neben das Feld.
Häufig gestellte Fragen
Versteht Veo 3 „POV" tatsächlich? Ja. POV (Point of View, Ich-Perspektive) ist ein filmischer Standardbegriff und einer der Aufnahmetypen, auf die Veo 3 direkt reagiert. Kombiniere ihn mit „first-person perspective" und einer ausdrücklichen Beschreibung der ins Bild ragenden Hände für das zuverlässigste Ergebnis.
Warum zeigt mein POV-Clip die Figur immer noch von außen? Das Modell wechselt bei mehrdeutigen Prompts gelegentlich zur Außenansicht. Verstärke die Ich-Perspektive zweimal, beschreibe nur die Hände/Körperteile, die erscheinen sollen, und sag ausdrücklich, dass die Kamera „was vor mir liegt" zeigt. Hält es an, generiere neu – Variation zwischen Durchläufen ist normal.
Wie lasse ich die Kamera wie einen echten Kopf wirken, nicht wie ein Stativ? Füge Bewegungshinweise hinzu: „slight natural head-bob", „subtle handheld sway" oder für Action „GoPro-style, fast bumps". Ohne Bewegungsbeschreibung tendiert Veo 3 zu statischer oder nur dezenter Bewegung.
Bekomme ich synchronisierte Schritte und Atem? Ja – das ist eine Kernstärke von Veo 3. Beschreibe den Ton in Schichten und verankere jeden Klang an einer Handlung („Schritte auf nassem Beton", „leises nervöses Atmen"). Der Ton wird synchron zum Bild im selben Durchgang erzeugt.
Wie lang darf ein POV-Clip sein? Eine einzelne Generierung läuft bis zu etwa 8 Sekunden. Für längere POV-Geschichten generiere mehrere Beats und schneide sie zusammen oder nutze die Verlängerungsfunktion von Veo 3.1, um Szenen zu verketten.
Soll ich POV hochkant oder quer generieren? Hochkant (9:16) für TikTok, Reels und Shorts – fordere es ausdrücklich im Prompt an, statt einen Querformat-Clip zuzuschneiden. Querformat nur, wenn das Endziel das Querformat-YouTube oder eine Website ist.
Kann ich dieselbe „Person" über mehrere Clips halten? Verwende gleichbleibende Körper- und Kleidungshinweise – dieselben Hände, Uhr, Ärmelfarbe und dasselbe Licht – in jedem Prompt. Diese Kontinuität überzeugt die Zuschauer, dass es eine Person über die gesamte zusammengeschnittene Sequenz ist.
Beginne, durch die Augen eines anderen zu filmen
POV ist eines der reichweitenstärksten Formate im Kurzvideo, und Veo 3 ist dafür ungewöhnlich gut gerüstet: Es versteht die Sprache der Ich-Kamera, es bringt deine Hände ins Bild und – entscheidend – es erzeugt den synchronisierten Ton, der Immersion glaubwürdig macht. Starte mit einem der 12 Prompts oben, setze deine eigene Szene ein, fordere Hochformat an und lege den Ton in drei Schichten. Dann schneide ein paar Beats zu einer „POV: …"-Sequenz zusammen – und du hast scroll-stoppenden Content, in Minuten gebaut.
Der schnellste Weg zu lernen, was funktioniert, ist generieren, anschauen, eine Variable ändern und neu generieren. Öffne Veo 3, wirf einen POV-Prompt hinein und setze deinen Zuschauer direkt hinter deine Augen.
Related Articles
Continue with more blog posts in the same locale.

Anime-Videos mit Veo 3 erstellen (Prompts & Workflow 2026)
Ein vollständiges System für Anime- und stilisierte Cartoon-Videos mit Veo 3: Prompt-Framework, Stil-Vokabular, fünf fertige Prompts, Figurenkonsistenz, Ton und eine QA-Checkliste.
Read article
Veo 3 negative Prompts: So entfernst du unerwünschte Elemente und Artefakte (2026)
Mit negativen Prompts in Veo 3 entfernst du Wasserzeichen, Text, Artefakte und CGI-Drift. Die Formulierungsregel, die sie wirksam macht, plus eine kopierfertige Bibliothek.
Read article
Veo 3 Text-to-Speech: Voiceover und Erzählerstimme zu Videos hinzufügen (2026)
Voiceover und Erzählung mit Text-to-Speech zu Veo-3-Videos hinzufügen: Prompt-Struktur, Beispiele, Timing, Stimmsteuerung und QA-Checkliste.
Read article