- Blog
- Veo 3.1 Frames to Video: Aus erstem und letztem Bild nahtlose KI-Clips (2026)
Veo 3.1 Frames to Video: Aus erstem und letztem Bild nahtlose KI-Clips (2026)
Veo 3.1 Frames to Video verbindet Start- und Endbild zu einem nahtlosen KI-Clip. Workflow, Prompt-Vorlagen und Anwendungsfälle für 2026.
Emma Chen · 14 min read · Jun 25, 2026

Veo 3.1 Frames to Video ist die Funktion, die KI-Übergänge endlich gezielt statt zufällig macht. Du gibst dem Modell ein Startbild und ein Endbild, schreibst einen kurzen Prompt, der die Bewegung dazwischen beschreibt, und Veo 3.1 erzeugt einen einzigen nahtlosen Clip, der vom ersten Frame zum letzten reist. Kein Rätselraten, wo die Aufnahme landet, kein Generieren von zehn Varianten in der Hoffnung, dass eine zum Storyboard passt – du legst beide Endpunkte fest und lässt das Modell die Brücke bauen.
Diese Anleitung ist ein praktischer Schritt-für-Schritt-Durchlauf, wie du Frames to Video in Veo 3.1 nutzt: was die Funktion genau tut, wie sie sich von „Ingredients to Video" und „Extend" unterscheidet, ein wiederholbarer Workflow, den du heute in Google Flow, der Gemini-App oder auf veo3ai.io starten kannst, kopierfertige Prompt-Vorlagen für die häufigsten Übergangstypen, die besten Anwendungsfälle und die Qualitätsprüfungen, die einen sauberen Morph von einem fehlerhaften Durcheinander trennen.
Kurze Antwort: Was Frames to Video in Veo 3.1 macht
Frames to Video nimmt zwei Standbilder – einen Start-Frame und einen End-Frame – und erzeugt ein 8-sekündiges Video, das beide nahtlos verbindet. Veo 3.1 interpoliert die Bewegung, das Licht und die Kamerafahrt, die nötig sind, um von Bild A zu Bild B zu gelangen, und mit dem Update vom Oktober 2025 fügt es dieser Brücke nun auch nativen, synchronisierten Ton hinzu.
Nutze es, wenn du bereits weißt, wie eine Aufnahme beginnen und enden soll, und das Modell die Mitte füllen lassen willst: ein Produkt, das sich von vorne nach hinten dreht, eine Figur, die sich vom Profil zur Frontalansicht wendet, eine Landschaft, die von der Morgendämmerung zur Abenddämmerung wechselt, oder zwei unzusammenhängende Szenen, die für einen stilisierten Schnitt ineinander übergehen. Weil du beide Enden verankerst, gibt dir Frames to Video weit mehr Kontrolle über Erzählung und Kontinuität als eine blinde Text-to-Video-Generierung – genau deshalb ist es zum Standardwerkzeug für Übergänge, Enthüllungen und Storyboard-getriebene Sequenzen geworden.
Wenn du nur willst, dass ein Clip von einem Bild startet, ist das gewöhnliches Image-to-Video. Frames to Video ist speziell der Zwei-Bild-Workflow mit Anfang und Ende.
Was Veo 3.1 Frames to Video wirklich ist
Veo 3.1 ist Google DeepMinds neuestes Videogenerierungsmodell, und „Frames to Video" ist eine von drei kreativen Fähigkeiten, die Google zusammen mit dem Modell-Update in Flow gebracht hat. Die Idee ist einfach: Du lieferst ein erstes und ein letztes Bild, und das Modell erzeugt ein Video, das beide für „kunstvolle und epische Übergänge" verbindet, wie es Googles eigene Ankündigung beschreibt.
Mechanisch führt das Modell eine geführte Interpolation durch. Reine Interpolation (die Art, die ältere Werkzeuge für Zeitlupe nutzten) mischt nur Pixel zwischen zwei Frames und sieht aus wie eine Überblendung. Veo 3.1 versteht stattdessen beide Bilder als Szenen – es liest die Motive, die Tiefe, das Licht und die implizite Physik – und erzeugt dann eine plausible Zwischenbewegung. Das bedeutet, eine Person im Start-Frame kann auf dem Weg zum End-Frame tatsächlich den Kopf drehen, einen Schritt machen oder den Ausdruck ändern, statt durch eine Auflösung zu „geistern".
Ein paar Details, die du vor dem Start kennen solltest:
- Cliplänge: Veo 3.1 erzeugt 8-Sekunden-Clips. Für längere Inhalte verkettest du Clips oder nutzt Extend (mehr dazu unten).
- Auflösung: Die Ausgabe ist je nach Zugangsstufe und Plattform in 720p, 1080p und 4K verfügbar.
- Audio: Das Update 2025–2026 brachte erstmals nativen Ton zu Frames to Video, Ingredients to Video und Extend. Dein Brücken-Clip kann nun mit Umgebungsgeräuschen, Foley oder Effekten ankommen, die im selben Durchgang erzeugt wurden.
- Wasserzeichen: Jede Veo-3.1-Ausgabe trägt ein unsichtbares SynthID-Wasserzeichen, das sie als KI-generiert kennzeichnet. Das ist unvermeidlich und gilt für alle Funktionen.
- Wo es läuft: Frames to Video lebt in Google Flow (dem dedizierten Filmemacher-Werkzeug), und Veo 3.1 selbst ist über die Gemini-App, die Gemini-API für Entwickler und Vertex AI für Unternehmen verfügbar. Dienste wie veo3ai.io bieten einen reibungsärmeren Weg zur Veo-3-Ausgabe, ohne API-Schlüssel verwalten zu müssen.
Warum das für Kreative wichtig ist: Kontinuität. Das Schwierigste am Zusammenfügen von KI-Clips war immer, dass jede Generierung leicht anders landet – anderer Bildausschnitt, anderes Licht, eine Figur, deren Jacke die Farbe gewechselt hat. Indem du beide Endpunkte fixieren kannst, entfernt Frames to Video den größten Teil dieser Drift aus der Gleichung.
Frames to Video vs. Ingredients to Video vs. Extend
Diese drei Veo-3.1-Funktionen werden ständig verwechselt, weil Google sie zusammen veröffentlicht hat. Sie lösen unterschiedliche Probleme:
| Funktion | Was du eingibst | Was entsteht | Wofür nutzen |
|---|---|---|---|
| Frames to Video | Ein Start- + ein Endbild | Ein 8-s-Clip, der beide verbindet | Übergänge, Enthüllungen, Morphs, Storyboard-Beats mit bekannten Endpunkten |
| Ingredients to Video | Mehrere Referenzbilder (Figuren, Objekte, Stil) | Eine neue Szene, die diese Elemente kombiniert | Figuren-/Produktkonsistenz über Aufnahmen, art-direktierte Szenen |
| Extend | Einen vorhandenen Clip | Eine längere Fortsetzung des Clips | Über die 8-Sekunden-Grenze hinaus, eine gemochte Aufnahme verlängern |
Eine einfache Eselsbrücke: Frames steuert, wo eine Aufnahme beginnt und endet, Ingredients steuert, was in der Aufnahme erscheint, und Extend steuert, wie lange die Aufnahme dauert. Sie lassen sich gut kombinieren – du kannst mit Ingredients eine Szene bauen, um deine Figur zu fixieren, mit Frames einen Übergang erzeugen und dann das Ergebnis mit Extend strecken. Für einen tieferen Einblick in die anderen beiden siehe unseren Veo 3 Bildreferenz-Workflow für Konsistenztechniken und unsere Anleitung zum Verlängern von Veo-3-Videos über 8 Sekunden.
So nutzt du Veo 3.1 Frames to Video, Schritt für Schritt
Hier ist ein wiederholbarer Workflow. Beim ersten Mal dauert er etwa fünfzehn Minuten; wenn er zur Gewohnheit wird, erzeugst du einen Übergang in ein paar Minuten.
Schritt 1 – Bereite deine zwei Frames vor
Deine Ausgabe ist nur so gut wie deine Endpunkte, also stecke hier echte Mühe hinein. Start- und Endbild sollten eine konsistente Welt teilen: ähnliche Lichtrichtung, ähnliches Objektivgefühl und ein Motiv, zwischen dessen Zuständen sich das Modell plausibel bewegen kann. Du kannst Frames auf drei Wegen beschaffen:
- Zwei Fotos oder Standbilder, die du bereits besitzt – ideal für Produktaufnahmen, reale Orte oder Marken-Assets.
- Zwei KI-generierte Standbilder – erzeuge sie zuerst (Text-to-Image oder aus früheren Veo-Clips entnommen), damit sie bereits einen Stil teilen.
- Ein reales Frame plus ein generiertes – nützlich für „Verwandle dieses reale Produkt in eine stilisierte Version"-Enthüllungen.
Gleiche die Seitenverhältnisse beider Frames an. Ein 16:9-Start und ein 9:16-Ende zwingen das Modell zum Beschneiden oder Auffüllen, was die Brücke meist trübt.
Schritt 2 – Lade Start- und Endbild hoch
Wähle in Flow die Fähigkeit Frames to Video, lade dann dein erstes Bild in den Start-Slot und dein zweites in den End-Slot. Die Reihenfolge zählt: Das Modell reist immer von Start zu Ende, also tausche sie, wenn dein Übergang rückwärts läuft. In der Gemini-App findest du Video-Werkzeuge unter dem Werkzeugsymbol in der Prompt-Leiste; auf veo3ai.io wählst du die Frame-/Bildeingaben und hängst beide an.
Schritt 3 – Schreibe den Brücken-Prompt
Hier liefern die meisten zu wenig. Die zwei Bilder definieren die Endpunkte, aber der Prompt definiert die Reise dazwischen – die Kamerafahrt, das Tempo, die Art der Bewegung und die Stimmung. Ein vager Prompt wie „Übergang zwischen diesen Bildern" überlässt dem Modell den Weg; ein konkreter sagt ihm genau, wie es reisen soll. Beschreibe:
- Die Bewegung – fährt die Kamera heran, umkreist, zieht zurück oder hält still, während sich das Motiv bewegt?
- Das Tempo – langsam und filmisch oder ein schneller Schnipp?
- Die Logik der Veränderung – ist es eine physische Bewegung, eine Zeitverschiebung, ein Morph oder ein Match Cut?
- Audio, falls gewünscht – ein Umgebungsteppich, ein Whoosh am Übergang, ein bestimmter Soundeffekt.
Kopierfertige Formulierungen findest du in unseren Veo-3-Prompt-Beispielen und im Leitfaden für native Audio-Prompts; die Vorlagen im nächsten Abschnitt sind speziell auf Frame-Brücken abgestimmt.
Schritt 4 – Generieren und prüfen
Erzeuge den Clip, sieh ihn dir dann in voller Geschwindigkeit an und noch einmal Bild für Bild am Mittelpunkt, wo sich Interpolationsartefakte verstecken. Prüfe drei Dinge: Bleibt die Identität des Motivs erhalten (gleiches Gesicht, gleiches Produkt, gleiche Farben)? Ist die Bewegung physisch plausibel oder verzerrt/geistert etwas? Landet der Clip wirklich auf deinem End-Frame oder driftet er ab? Wenn etwas davon scheitert, passe den Prompt vor dem erneuten Generieren an – meist ist die Lösung eine klarere Bewegungsbeschreibung, nicht ein anderes Bild.
Schritt 5 – Audio hinzufügen, verlängern oder exportieren
Wenn du mit nativem Audio generiert hast, mische es unter deinen Hauptsoundtrack statt darüber. Wenn 8 Sekunden nicht reichen, lass das Ergebnis durch Extend laufen. Wenn die Brücke sauber ist, exportiere in 1080p (oder 4K, wo verfügbar) und ziehe sie in deinen Schnitt. Für Mehrfach-Aufnahmen-Sequenzen erzeuge jeden Übergang als eigenen Frames-to-Video-Clip und füge sie auf einer Timeline zusammen – so baust du längere Erzählungen ohne Kontinuitätsverlust.
Prompt-Beispiele und Vorlagen für Frames to Video
Die zwei Bilder tragen den Inhalt; diese Prompts tragen die Bewegung. Kopiere und passe an.
Produkt-Enthüllung (vorne nach hinten):
Langsame 180-Grad-Umkreisung des Produkts vom ersten zum zweiten Frame, Studiolicht bleibt konstant, eine sanfte Reflexion wandert über die Oberfläche, geringe Schärfentiefe, edel und sauber. Weicher Raumton, ein sanfter Whoosh, wenn die Drehung abschließt.
Tageszeitwechsel (Morgen- zu Abenddämmerung):
Statische weite Landschaftsaufnahme. Das Licht wechselt sanft von der kühlen Morgendämmerung des ersten Frames zur warmen Abenddämmerung des zweiten, Wolken ziehen langsam, lange Schatten dehnen sich über die Szene. Ruhiger Umgebungswind und ferne Vögel.
Figurendrehung (Profil zu Frontalansicht):
Das Motiv dreht sich natürlich aus der Profilpose des ersten Frames in die Frontalpose des zweiten, behält identische Frisur, Kleidung und Beleuchtung. Kamera hält ruhig, Blickkontakt am Ende, filmische geringe Schärfentiefe. Leiser Raumton.
Match Cut / Szenen-Morph:
Match-Cut-Übergang: Das runde Objekt des ersten Frames verwandelt sich nahtlos in das runde Objekt des zweiten, während die Kamera heranfährt, Bewegungsunschärfe am Mittelpunkt, energisches Tempo. Ein steigender Whoosh erreicht seinen Höhepunkt am Schnitt.
Logo- oder Markenaufbau:
Die verstreuten Elemente des ersten Frames laufen zusammen und setzen sich zum fertigen Logo des zweiten Frames zusammen, weiche Bewegung, knackiger Fokus-Snap beim Abschluss, dunkler edler Hintergrund. Ein dezentes Klingen, wenn das Logo einrastet.
Vorher/Nachher-Transformation:
Sanfte Transformation von der abgenutzten, matten Version des ersten Frames zur restaurierten, lebendigen Version des zweiten, Kamera fährt langsam heran, Farben werden satter und Details schärfer über den Clip. Sanfte erhebende Atmosphäre.
Wenn ein Prompt sich wehrt, vereinfache die Bewegung, bevor du die Bilder vereinfachst. Das Modell bewältigt „langsame Umkreisung" weit zuverlässiger als „dramatische dynamische mehrachsige Kamerachoreografie".
Beste Anwendungsfälle für Frames to Video
Frames to Video zahlt sich überall aus, wo du die Endpunkte einer Aufnahme bereits kennst:
- Werbe- und Produktübergänge – Enthüllungen von vorne nach hinten, Verpackung öffnet sich, Vorher/Nachher-Demonstrationen. Das ist der ROI-stärkste Anwendungsfall, weil Produktaufnahmen saubere, steuerbare Endpunkte haben.
- Social-Übergänge und Hooks – der „Snap"-Schnitt zwischen zwei Szenen, der viel TikTok- und Reels-Schnitt antreibt, jetzt generiert statt von Hand gekeyframt.
- Storyboard zu Animatic – verwandle zwei Schlüssel-Storyboard-Frames in einen bewegten Beat, damit Regisseure das Tempo vor einem echten Dreh vorschauen können.
- Immobilien und Reisen – wechsle von einer Außen-Establishing-Aufnahme zu einem Innenraum oder von einem Zimmer ins nächste mit durchgängigem Gefühl.
- Marken- und Logo-Stings – setze ein Logo aus verstreuten Elementen zusammen oder morphe ein Maskottchen zwischen Posen.
- Bildungssequenzen – zeige einen Prozess beim Zustandswechsel: ein Samen zur Pflanze, eine Skizze zum fertigen Render, eine Karte, die vom Land zur Straße zoomt.
Der gemeinsame Nenner sind bekannte Endpunkte. Wenn du beschreiben oder zeichnen kannst, wo eine Aufnahme beginnt und stoppt, ist Frames to Video meist der sauberste Weg zur Bewegung dazwischen. Für reine Schnitt-Übergänge zwischen fertigen Clips behandelt unsere Anleitung zu nahtlosen Übergängen für Video die schnittseitigen Techniken, die gut mit generierten Brücken zusammenpassen.
Grenzen und QA-Checkliste
Frames to Video ist mächtig, aber nicht magisch. Seine Grenzen zu kennen, spart verschwendete Generierungen.
- 8-Sekunden-Obergrenze pro Clip. Lange Übergänge müssen verkettet oder verlängert werden; du kannst keine 30-sekündige Reise in einem Durchgang überbrücken.
- Plausibilität zählt. Je weiter deine zwei Frames inhaltlich auseinanderliegen, desto mehr muss das Modell erfinden – und desto wahrscheinlicher bekommst du Verzerrung oder eine weiche, auflösungsartige Mitte. Endpunkte, die ein Motiv, eine Welt und Beleuchtung teilen, überbrücken weit sauberer als zwei zufällige Bilder.
- Identitätsdrift. Gesichter, Logos und Text können über die Brücke verrutschen. Prüfe immer speziell die Mittelpunkt-Frames.
- Seitenverhältnis-Diskrepanzen zwischen den Frames verschlechtern die Ergebnisse; gleiche sie zuerst an.
- SynthID-Wasserzeichen ist auf jeder Ausgabe vorhanden und kann nicht entfernt werden. Plane das für jede herkunftssensible Nutzung ein.
- Audio ist generativ, keine lizenzierte Musik. Natives Audio ist großartig für Atmosphäre und Effekte, aber für einen Markentrack legst du weiterhin deine eigene Musik darunter.
Führe diesen schnellen QA-Durchlauf bei jedem Clip durch, bevor du ihn nutzt:
- Bleibt die Identität des Motivs (Gesicht, Produkt, Farben) von Anfang bis Ende erhalten?
- Ist die Bewegung physisch plausibel ohne Geistern oder Verzerrung am Mittelpunkt?
- Landet der Clip tatsächlich auf dem End-Frame?
- Stimmt das Tempo oder hetzt/schleppt es?
- Wenn Audio an ist, unterstützt es deinen Hauptmix statt ihn zu bekämpfen?
- Ist die Auflösung richtig für deine Zielplattform?
Wenn ein Clip an der Plausibilität scheitert, ist die Lösung fast immer engere Endpunkte oder ein klarerer Bewegungs-Prompt – nicht mehr Wiederholungen desselben Aufbaus.
Häufig gestellte Fragen
Ist Frames to Video dasselbe wie Image-to-Video? Nein. Image-to-Video animiert ein einzelnes Startbild ohne definiertes Ende. Frames to Video nutzt zwei Bilder – einen Start und ein Ende – und erzeugt die Brücke dazwischen, was dir Kontrolle darüber gibt, wo die Aufnahme landet.
Brauche ich Google Flow oder kann ich die Gemini-App nutzen? Frames to Video als benannte Fähigkeit lebt in Flow, aber Veo 3.1 selbst ist auch in der Gemini-App, der Gemini-API und Vertex AI verfügbar. Dienste wie veo3ai.io bieten einen einfacheren Weg zur Veo-3-Ausgabe, wenn du Googles Entwickleroberflächen nicht direkt verwalten willst.
Ist Veo 3.1 Frames to Video kostenlos? Der Zugang hängt von der Stufe ab. Google bietet begrenzten Veo-3.1-Zugang in niedrigeren Plänen und höhere Generierungslimits in den Pro- und Ultra-Stufen; veo3ai.io enthält ein kostenloses Startkontingent, damit du den Workflow vor dem Bezahlen testen kannst. Erwarte bei jedem kostenlosen Zugang eine Art Nutzungsobergrenze.
Wie lang sind die Clips? Jede Generierung dauert 8 Sekunden. Nutze Extend, um einen gemochten Clip zu verlängern, oder verkette mehrere Frames-to-Video-Clips auf einer Timeline für längere Sequenzen.
Kann ich Ton hinzufügen? Ja. Das jüngste Update brachte nativen synchronisierten Ton zu Frames to Video, sodass du Umgebungsgeräusche und Effekte im selben Durchgang prompten kannst. Für Markenmusik füge deinen eigenen Track im Schnitt hinzu.
Warum sieht mein Übergang aus wie eine verschwommene Überblendung? Das bedeutet meist, dass deine zwei Frames inhaltlich zu weit auseinanderliegen oder dein Prompt die Bewegung nicht beschrieben hat. Bringe die Endpunkte näher zusammen (gemeinsames Motiv, Welt, Licht) und gib Kamerafahrt und Tempo ausdrücklich an.
Fazit
Veo 3.1 Frames to Video schließt die größte Lücke im KI-Videoschnitt: Kontrolle darüber, wie eine Aufnahme beginnt und endet. Statt blind zu generieren und zu hoffen, dass ein Clip zum Storyboard passt, verankerst du beide Endpunkte und lässt das Modell eine glaubwürdige, audiofertige Brücke dazwischen bauen – ideal für Produkt-Enthüllungen, Social-Übergänge, Storyboard-Beats und Marken-Stings. Bereite zwei konsistente Frames vor, schreibe einen Prompt, der die Bewegung beschreibt statt nur die Bilder, prüfe den Mittelpunkt, und du bekommst saubere, gezielte Übergänge, die früher manuelles Keyframing erforderten.
Am schnellsten lernst du das Gefühl dafür, indem du selbst ein paar Übergänge erzeugst. Wähle ein Start- und Endbild, das du bereits hast, schreibe eine der obigen Vorlagen und erzeuge deine erste Brücke mit Veo 3.1 Frames to Video auf veo3ai.io – und baue von dort aus weiter.
Related Articles
Continue with more blog posts in the same locale.

Veo 3 Dialog: Wie man zwei Figuren in einer Szene sprechen lässt (2026)
Realistische Zwei-Figuren-Dialoge in Veo 3 inszenieren: Prompt-Struktur, eigenständige Stimmen, Sprecherwechsel, Lippensynchronisation und ein vollständiges Beispiel.
Read article
Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)
Veo 3 brennt verzerrte Untertitel in Dialog-Clips ein. Das komplette 2026-Playbook: verhindern bei der Generierung und entfernen in der Nachbearbeitung.
Read article
Massen-KI-Videogenerator: Veo-3-Videos im Batch und im Maßstab erstellen (2026)
So erstellen Sie mit einem Massen-KI-Videogenerator-Workflow Dutzende konsistente Veo-3-Videos im Batch — Master-Prompts, Variablen-Sheets, Seed-Kontrolle, Playbooks, Kostenkontrolle und QA.
Read article