- Blog
- Veo 3.1 Ingredients to Video: Mehrere Referenzbilder zu einem KI-Clip kombinieren (2026)
Veo 3.1 Ingredients to Video: Mehrere Referenzbilder zu einem KI-Clip kombinieren (2026)
Veo 3.1 ingredients to video: kombiniere bis zu drei Referenzbilder – Figur, Objekt und Szene – zu einem konsistenten KI-Clip. Schritt-für-Schritt-Workflow, Prompts und der Unterschied zu einzelnem Referenzbild und frames to video.
Emma Chen · 13 min read · Jun 29, 2026


Veo 3.1 ingredients to video ist die Funktion, mit der du aufhörst, eine Szene in Worten zu beschreiben, und anfängst, sie aus Bildern zu besetzen. Statt eines einzigen Referenzbildes gibst du Veo 3.1 mehrere – eine Figur, ein Objekt, einen Hintergrund, einen Stil – und das Modell verschmilzt diese „Zutaten“ zu einem stimmigen KI-Clip. Das Ergebnis ist eine weit präzisere Kontrolle darüber, wer im Bild ist, was die Person hält und wo alles spielt, als reine Text-Prompts je liefern könnten.
Dieser Leitfaden ist eine praktische Schritt-für-Schritt-Anleitung, wie du ingredients to video in Veo 3.1 nutzt: was die Funktion wirklich tut, wie viele Referenzbilder sie annimmt, wie sie sich von einem einzelnen Referenzbild und von frames to video unterscheidet, ein wiederholbarer Arbeitsablauf, den du heute in Google Flow oder der Gemini-App starten kannst, kopierfertige Prompt-Vorlagen, die besten Einsatzszenarien und die Qualitätsprüfungen, die eine saubere Komposition von einer matschigen unterscheiden. Wenn du bereits mit Veo auf veo3ai.io arbeitest, fügt sich das nahtlos in deinen bestehenden Workflow ein.
Kurze Antwort: Was Ingredients to Video tut
Mit ingredients to video lädst du mehrere Referenzbilder hoch – Googles Doku und Flow nennen jedes davon eine „Zutat“ (ingredient) – und schreibst dann einen Prompt, der Veo 3.1 sagt, wie es sie zu einem generierten Clip kombinieren soll. Jede Zutat kann ein anderes Element der Aufnahme bestimmen: ein Bild für Gesicht und Outfit einer Figur, eines für ein Produkt oder Requisit, eines für einen Ort oder visuellen Stil. Veo 3.1 liest alle gleichzeitig und erzeugt ein Video, in dem Figur, Objekt und Umgebung mit deinen gelieferten Fotos konsistent bleiben.
In der Praxis:
- Du lieferst bis zu drei Referenzbilder pro Generierung (das ist die aktuelle Obergrenze in Flow, der Gemini-App und der Gemini API).
- Jedes Bild steuert einen anderen Aspekt: Subjekt, Objekt, Szene oder Stil.
- Du fügst einen Text-Prompt hinzu, der jedes Bild explizit seiner Rolle zuordnet und die Handlung beschreibt.
- Veo 3.1 gibt einen 8-Sekunden-Clip aus – jetzt mit nativem synchronem Ton und Dialog – und unterstützt neben dem Standard-Querformat ein natives vertikales 9:16-Format für soziale Plattformen.
Nutze es, wenn du dieselbe Figur brauchst, die etwas Bestimmtes an einem bestimmten Ort tut, und du Referenzfotos für jeden dieser Bausteine hast. Genau diese Lücke kann Text-zu-Video allein nicht schließen.
Wie sich Ingredients von einzelnem Referenzbild und Frames to Video unterscheidet
Das ist der Teil, den die meisten Anleitungen überspringen, und genau deshalb existiert ingredients to video als eigener Modus. Veo 3.1 bietet tatsächlich drei verschiedene bildgesteuerte Wege, und sie lösen drei verschiedene Probleme.

Einzelnes Referenzbild (behandelt in unserem Veo 3 Image-Reference-Workflow) nutzt ein Bild, um eine Sache festzuhalten – meist das Gesicht einer Figur oder ein Produkt – und generiert dann Bewegung darum herum. Es ist der schnellste Weg, ein einzelnes Subjekt über mehrere Aufnahmen konsistent zu halten, gibt dir aber keine separate Kontrolle über Umgebung oder Requisiten. Ein Bild, ein Anker.
Frames to video (siehe unseren Veo 3.1 Frames-to-Video-Leitfaden) nimmt zwei Bilder – einen Startframe und einen Endframe – und interpoliert die Bewegung dazwischen. Es geht um einen Übergang: Das Modell baut die Brücke von Bild A zu Bild B über die Zeit. Die beiden Bilder sind dieselbe Szene zu verschiedenen Momenten, nicht verschiedene Elemente.
Ingredients to video ist kombinatorisch, nicht interpolativ. Du gibst ihm mehrere verschiedene Elemente – hier eine Person, dort eine Jacke, eine Stadtstraße, eine Filmkorn-Stimmung – und es setzt sie zu einer neuen Szene zusammen, die es auf keinem einzelnen Foto gab. Du überbrückst nicht zwei Zustände einer Aufnahme; du komponierst mehrere Subjekte und eine Umgebung zu einem frischen Bild. Deshalb ist ingredients das richtige Werkzeug für „setze diese Person, die dieses Produkt hält, an diesen Ort“, und frames to video ist das richtige Werkzeug für „verwandle diese Eröffnungsaufnahme in jene Schlussaufnahme“.
Wenn du das größere Bild willst, wie Veo und Gemini Referenzbilder über die Modi hinweg behandeln, kartiert der Gemini Omni Image-, Video- und Audio-Prompting-Leitfaden das gesamte System.
Wo du es nutzen kannst
Veo 3.1 ingredients to video ist über Googles Oberflächen hinweg verfügbar:
- Google Flow – das dedizierte KI-Filmtool, wo ingredients neben Frames und Extend lebt.
- Die Gemini-App – für schnelle, prompt-gesteuerte Generierungen.
- Google Vids und YouTube – für Creator, die in diesen Produkten arbeiten.
- Die Gemini API und Vertex AI – für Entwickler, die ingredients to video programmatisch aufrufen wollen (Vertex stellt es als kostenpflichtige Vorschau mit dokumentierten Modell-IDs bereit).
Die Upload-Oberfläche unterscheidet sich leicht zwischen Flow und der Gemini-App, aber der Kern ist überall gleich: Zutatenbilder hinzufügen, beschriften oder ordnen, einen Prompt schreiben, der jedes referenziert, generieren.
Schritt für Schritt: So nutzt du Ingredients to Video in Veo 3.1
Hier ist ein wiederholbarer Ablauf, den du heute starten kannst.
Schritt 1: Plane deine drei Zutaten
Bevor du das Tool öffnest, entscheide, was jedes deiner (bis zu drei) Bilder steuern soll. Eine zuverlässige Aufteilung:
- Subjekt – die Figur oder Person, idealerweise ein sauberes, gut ausgeleuchtetes Porträt oder eine Ganzkörperaufnahme.
- Objekt – das Produkt, Requisit oder der Gegenstand, mit dem das Subjekt interagiert.
- Szene oder Stil – der Ort, Hintergrund oder ein Referenzframe, der Farbe und Stimmung vorgibt.
Du musst nicht alle drei Slots nutzen. Zwei starke, klar unterscheidbare Bilder schlagen oft drei konkurrierende. Die Beschränkung ist die Obergrenze (drei), keine Pflichtmenge.
Schritt 2: Bereite hochwertige Referenzbilder vor
Die Qualität der Eingabe bestimmt direkt die Qualität der Ausgabe. Für jede Zutat:
- Verwende scharfe PNG- oder JPEG-Dateien in hoher Auflösung.
- Halte Beleuchtung und Blickwinkel über die Bilder hinweg konsistent, wenn sie wie eine Szene wirken sollen.
- Isoliere das Element: Ein Porträt sollte überwiegend die Person zeigen, eine Produktaufnahme überwiegend das Produkt. Unruhige Hintergründe verwirren das Modell.
- Wenn du saubere Zutaten erst erstellen musst, generiere sie zuerst mit einem Bildmodell (Googles eigener Ablauf schlägt vor, Geminis Bildgenerierung zu nutzen, um konsistente Figuren und Settings zu bauen, bevor du sie an Veo gibst).

Schritt 3: Lade deine Zutaten in Prioritätsreihenfolge hoch
Füge in Flow oder der Gemini-App jedes Referenzbild zum Zutaten-Panel hinzu. Die Reihenfolge zählt: Setze das wichtigste Element (meist die Figur) zuerst. Das Modell behandelt frühere Bilder als höher priorisiert, wenn Elemente um Aufmerksamkeit im Bild konkurrieren.
Schritt 4: Schreibe einen Prompt, der jedes Bild einer Rolle zuordnet
Hier gelingen oder scheitern die meisten Generierungen. Schreib nicht einfach „eine Frau trinkt Kaffee in einer Stadt“. Verbinde jede Zutat explizit mit ihrer Aufgabe:
„Die Frau aus Referenzbild 1, die die Kaffeetasse aus Referenzbild 2 hält, geht durch die regnerische Neon-Straße aus Referenzbild 3. Langsame Dolly-Fahrt, geringe Schärfentiefe, sie lächelt und nimmt einen Schluck.“
Indem du „Referenzbild 1/2/3“ benennst, sagst du Veo 3.1 genau, wie es die Teile zusammensetzen soll, statt raten zu lassen. Beschreibe dann die Handlung, die Kamerabewegung und die Stimmung – das steht nicht in deinen Bildern und muss aus dem Text kommen.
Schritt 5: Format festlegen und generieren
Wähle dein Seitenverhältnis – Veo 3.1 erzeugt jetzt natives vertikales 9:16 für TikTok, Reels und Shorts sowie Standard 16:9. Generiere deinen 8-Sekunden-Clip. Da ingredients jetzt nativen Ton unterstützt, kannst du im selben Durchgang auch Dialog oder Umgebungsgeräusche prompten.
Schritt 6: Prüfen, iterieren und erweitern
Vergleiche die Ausgabe mit deinen Zutaten (siehe QA-Checkliste unten). Wenn ein Teil abdriftet, passe die Prompt-Formulierung an oder tausche ein saubereres Referenzbild ein, statt blind neu zu generieren. Wenn du einen Clip hast, der dir gefällt, lassen dich Veo 3.1s Extend- und Szenenerweiterungs-Funktionen dieselben Figuren über den einzelnen 8-Sekunden-Clip hinaus in längere, verbundene Sequenzen tragen.
Prompt-Vorlagen zum Kopieren
Passe diese an deine Zutaten an. Das Muster – jedes Bild zuordnen, dann Handlung und Kamera beschreiben – macht sie wirksam.
Figur + Produktplatzierung:
„Die Person aus Bild 1 hält das [Produkt] aus Bild 2 und steht an [Ort] aus Bild 3. Halbtotale, weiches Fensterlicht, sie dreht das Produkt zur Kamera und lächelt. Natürlicher Umgebungston.“
Figurenkonsistenz in einer neuen Szene:
„Dieselbe Figur aus Bild 1, jetzt im Waldsetting aus Bild 2. Verfolgungsaufnahme von hinten, während sie vorwärtsgeht, spätes Nachmittagslicht, treibende Blätter. Schritte und Vogelgezwitscher.“
Stilübertragung auf ein Subjekt:
„Das Subjekt aus Bild 1 im malerischen visuellen Stil von Bild 2 gerendert. Langsamer Push-in, das Subjekt blickt auf, warme kinematografische Farbgebung, sanftes orchestrales Anschwellen.“
Zwei Figuren in einer Aufnahme:
„Die Figur aus Bild 1 und die Figur aus Bild 2 sitzen sich an einem Cafétisch aus dem Interieur in Bild 3 gegenüber. Over-the-Shoulder-Aufnahme, sie lachen und stoßen mit Tassen an. Café-Atmosphäre und kurzer Dialog.“
Vertikale Social-Anzeige:
„Das Model aus Bild 1 trägt die Jacke aus Bild 2 auf der Dachterrasse aus Bild 3. Natives 9:16-Vertikalformat, handgehaltene Energie, sie dreht sich einmal zur Kamera, gut gelaunt. Wind und Straßengeräusch.“
Beste Einsatzszenarien
Ingredients to video zahlt sich überall dort aus, wo du kontrolliertes, wiederholbares Casting brauchst.
Markenproduktvideos. Setze ein echtes Produktfoto, ein Markenmodel und einen Drehort in einen Clip, sodass Artikel, Talent und Umgebung deinen Richtlinien entsprechen – ohne Dreh. Das ist der wertvollste Einsatz für E-Commerce- und DTC-Teams.
Konsistente Figuren über eine Episode. Halte dieselbe Hauptfigur über mehrere Aufnahmen, indem du dieselbe Figuren-Zutat wiederverwendest und die Szenen- und Objektbilder variierst. Kombiniere das mit Veo 3.1s Szenenerweiterung, um Sequenzen weit über acht Sekunden zu bauen und dabei die Identität zu halten.
Social-First-Anzeigen im Hochformat. Der native 9:16-Modus plus ingredients bedeutet, dass du On-Model- und On-Location-Content für TikTok und Reels produzieren kannst, bei dem Gesicht, Outfit und Hintergrund an deine Referenzen gebunden sind.
Vom Storyboard zur Aufnahme. Wenn du Figur und Schlüsselrequisiten bereits als Stills entworfen hast, verwandelt ingredients diese statischen Boards in Bewegung, ohne alles erneut in Text zu beschreiben.
Musik- und Dialogszenen. Mit nativem Ton im selben Durchgang können Zwei-Figuren-Zutatenaufnahmen eine kurze Dialogzeile tragen, was Gesprächsszenen in einem Durchgang möglich macht.
Qualitätssicherungs-Checkliste
Bevor du einen ingredients-Clip ausspielst, führe diese Prüfungen durch:
- Identitätsabgleich – Sieht die generierte Figur tatsächlich wie dein Referenzfoto aus, Bild für Bild? Achte auf Gesichts-Drift über die acht Sekunden.
- Objekttreue – Ist das Produkt oder Requisit das richtige, mit korrekter Form, Farbe und Logo? Generative Modelle können Objekte subtil umgestalten.
- Szenenkohärenz – Passt das Setting zu deiner Szenen-Zutat, und stimmt die Beleuchtung des Subjekts mit der des Orts überein?
- Element-Übergriff – Stelle sicher, dass Teile einer Zutat nicht in eine andere lecken (etwa eine Jackenfarbe, die den Hintergrund einfärbt).
- Text und Hände – Prüfe jeden Produkttext und die Hände des Subjekts, weiterhin die häufigsten Fehlerquellen in KI-Video.
- Audio-Sync – Wenn du Dialog geprompted hast, prüfe, ob Lippenbewegung und Ton zusammenpassen.
Wenn eine Prüfung scheitert, korrigiere zuerst die Eingabe: Ein saubereres, isolierteres Referenzbild löst mehr Probleme als ein weiterer Würfelwurf auf demselben Prompt.
Echte Grenzen, die du kennen solltest
Ingredients to video ist mächtig, aber nicht magisch. Bleib bei ehrlichen Erwartungen:
- Drei Referenzen sind die Obergrenze. Du kannst nicht zehn Elemente komponieren; wähle die drei wichtigsten und überlasse den Rest dem Prompt.
- Acht Sekunden pro Generierung. Längere Erzählungen erfordern Extend- oder Szenenerweiterungs-Durchgänge, nicht einen einzelnen Clip.
- Konkurrierende Referenzen können verschwimmen. Wenn zwei Bilder um dieselbe Rolle kämpfen (zwei Gesichter lesen sich beide als „das Hauptsubjekt“), werden die Ergebnisse inkonsistent – Reihenfolge und Prompt-Klarheit zählen.
- Perfekte Identität ist nicht garantiert. Die Ähnlichkeit in Veo 3.1 ist stark, kann aber bei schneller Bewegung oder extremen Winkeln noch abdriften; prüfe jeden Clip.
- Verfügbarkeit und Preise variieren je nach Oberfläche – Flow-, Gemini-App- und API-Stufen unterscheiden sich, und Vertex AI stellt einige Funktionen als kostenpflichtige Vorschau bereit.
Nichts davon ist ein Grund, die Funktion zu meiden; es sind Gründe, deine drei Zutaten bewusst zu planen und die Ausgabe zu prüfen.
Wie das in einen Veo-3.1-Workflow passt
Ingredients to video ist einer von drei bildgesteuerten Modi, zu denen du je nach Aufgabe greifst:
- Nutze einzelnes Referenzbild, wenn du nur ein Subjekt festhalten musst. Beginne mit dem Image-Reference-Workflow.
- Nutze frames to video, wenn du einen definierten Start und ein Ende hast und einen Übergang willst. Der Frames-to-Video-Leitfaden führt ihn von Anfang bis Ende durch.
- Nutze ingredients to video, wenn du mehrere verschiedene Elemente zu einer neuen Szene kombinierst.
Viele reale Projekte nutzen alle drei: Figuren und Requisiten als Zutaten bauen, die Kernaufnahme generieren, dann frames to video für einen sauberen Übergang zum nächsten Beat und Extend zum Verlängern der Sequenz verwenden. Du kannst das auf Googles Oberflächen oder über veo3ai.io als Teil einer einzigen Pipeline ausführen.
Häufige Fehler, die du vermeiden solltest
Wenige Muster verursachen die meisten enttäuschenden ingredients-Ergebnisse, und alle sind leicht zu beheben, sobald du weißt, worauf du achten musst.
Überladene Referenzbilder. Wenn dein Figurenfoto auch einen starken Hintergrund, eine zweite Person oder ein auffälliges Logo hat, weiß Veo 3.1 nicht, welcher Teil die „Zutat“ ist. Beschneide eng, damit jedes Bild klar ein Element repräsentiert.
Ein Prompt, der die Bilder ignoriert. Drei Referenzen hochzuladen und dann einen generischen Prompt wie „eine kinematografische Szene“ zu schreiben, verschwendet die ganze Funktion. Der Prompt muss die Bilder benennen und Rollen zuweisen.
Widersprüchliche Beleuchtung. Ein Subjekt in flachem Studiolicht, fallengelassen in eine düstere Nachtszene, wirkt aufgeklebt. Wähle Zutaten, deren Beleuchtung schon ungefähr übereinstimmt, oder prompte die Beleuchtung explizit.
Slots überladen. Drei Referenzen, die alle um die Hauptrolle kämpfen, ergeben Brei. Oft geben zwei starke, ergänzende Zutaten ein saubereres, kontrollierbareres Ergebnis.
Iteration an der Eingabe überspringen. Wenn ein Clip abdriftet, ist der Reflex, mit demselben Setup neu zu generieren. Oft ist der bessere Zug, ein schärferes Referenzbild einzutauschen oder eine Prompt-Zeile zu straffen.
FAQ
Wie viele Referenzbilder kann ingredients to video in Veo 3.1 nutzen? Bis zu drei. Jedes kann ein anderes Element steuern – Subjekt, Objekt oder Szene/Stil – und du ordnest sie nach Priorität, wenn sie konkurrieren.
Unterscheidet sich ingredients to video vom Hochladen eines einzelnen Referenzbildes? Ja. Ein einzelnes Referenzbild fixiert ein Subjekt; ingredients komponiert mehrere verschiedene Elemente (Figur + Objekt + Szene) zu einem Clip. Sie lösen verschiedene Probleme.
Enthält ingredients to video Ton? Ja. Das Veo-3.1-Update fügte nativen synchronen Ton und Dialog hinzu, sodass eine ingredients-Generierung im selben Durchgang Ton enthalten kann.
Kann ich vertikale Videos erstellen? Ja. Veo 3.1 fügte ein natives vertikales 9:16-Format für ingredients hinzu, optimiert für mobile-first-Plattformen wie TikTok, Reels und Shorts, neben Standard 16:9.
Wo ist es verfügbar? Google Flow, die Gemini-App, Google Vids, YouTube sowie programmatisch über die Gemini API und Vertex AI.
Wie lang ist jeder Clip? Jede Generierung erzeugt einen 8-Sekunden-Clip. Für längere Inhalte nutze Veo 3.1s Extend- und Szenenerweiterungs-Funktionen, um Figuren über verbundene Segmente konsistent zu halten.
Fazit
Veo 3.1 ingredients to video ist der direkteste Weg, gleichzeitig wer, was und wo in einem KI-Clip zu kontrollieren. Indem du dem Modell bis zu drei Referenzbilder gibst – eines für die Figur, eines für das Objekt, eines für die Szene oder den Stil – und einen Prompt schreibst, der jedes Bild seiner Rolle zuordnet, erhältst du komponierte, konsistente Aufnahmen, die Text-Prompts und ein einzelnes Referenzbild schlicht nicht liefern können. Es unterscheidet sich von frames to video, das zwei Keyframes überbrückt, und vom einzelnen Referenzbild, das nur ein Subjekt fixiert. Plane deine drei Zutaten, bereite saubere Eingaben vor, prompte nach Rollen und prüfe jeden Clip. Probiere den Ablauf dann selbst mit Veo 3.1 auf veo3ai.io und verwandle deine Referenzfotos in eine Szene, die sich bewegt.
Related Articles
Continue with more blog posts in the same locale.

Wie lang können Veo-3.1-Videos sein? Längenlimits & Maximaldauer (2026)
Veo-3.1-Clips sind pro Generierung auf 8 Sekunden begrenzt, per Erweiterung aber bis ~148 Sekunden. Native Dauern, Fast vs Quality, Video-zu-Video-Regeln und FAQ.
Read article
Veo 3 Zeitlupen-Video-Prompts (2026): Kinoreife Slow-Motion und Speed-Ramps
Meistere Zeitlupe in Veo 3: Prompt-Vokabular, 7 fertige Prompts, Speed-Ramps, Ton-Tipps und die häufigsten Fehler.
Read article
Veo 3 POV-Video-Prompts: So erzeugst du First-Person-Aufnahmen (2026)
So schreibst du POV-Prompts für Veo 3 für immersive Ich-Perspektiven: eine 5-teilige Formel, 12 sofort nutzbare Beispiele, synchronisierter Ton und ein Hochformat-Workflow für TikTok und Shorts.
Read article