Veo 3 Figurenkonsistenz: Dieselbe Figur über alle Clips beibehalten (2026)

Schluss mit driftenden Figuren zwischen Veo-3-Clips. Ein komplettes System: Figuren-Bibel-Vorlage, Referenzbilder, Verkettung über Scene Builder und Frames-to-Video, Prompt-Struktur gegen das Driften.

Emma Chen · 12 min read · Jun 25, 2026

Wenn Sie schon einmal einen großartigen 8-Sekunden-Clip in Veo 3 erstellt und dann zugesehen haben, wie sich Ihre Hauptfigur im nächsten Shot in eine völlig andere Person verwandelt — neues Gesicht, andere Jacke, falsche Frisur —, dann kennen Sie den größten Schmerzpunkt der KI-Filmproduktion. Die Frage „Wie behalte ich dieselbe Figur über mehrere Veo-3-Clips hinweg bei?" trennt einen einmaligen viralen Clip von einem echten, wiederholbaren Kanal, einer Werbekampagne oder einem Kurzfilm.

Die gute Nachricht: Veo 3 ist weit steuerbarer, als es scheint. Das Driften der Figur ist nicht zufällig — es ist das vorhersehbare Ergebnis unzureichend spezifizierter Prompts und des Auslassens der eingebauten Identitäts-Werkzeuge des Modells. Dieser Leitfaden gibt Ihnen ein vollständiges, wiederholbares System für Figurenkonsistenz in Veo 3: eine kopierfertige „Figuren-Bibel"-Vorlage, den Referenzbild-Workflow (bis zu drei Bilder), das Verketten von Shots über Scene Builder und Frames-to-Video sowie die Prompt-Struktur, die das Driften stoppt. Öffnen Sie Veo 3 in einem zweiten Tab und folgen Sie dem Leitfaden.

Warum Veo-3-Figuren zwischen Clips driften

Um das Driften zu beheben, müssen Sie zuerst verstehen, warum es passiert. Veo 3 generiert jeden Frame plus nativen Ton in einem einzigen kohärenten Durchgang für einen Clip — typischerweise 4 oder 8 Sekunden. Innerhalb dieses Clips bleibt die Identität felsenfest, weil das Modell nie „vergisst", was es eine halbe Sekunde zuvor gezeichnet hat. Das Problem beginnt in dem Moment, in dem Sie einen zweiten Clip anfordern, denn jede neue Generierung beginnt von vorn. Ohne einen Anker würfelt das Modell eine brandneue Interpretation von „einer jungen Frau in Jeansjacke", und diese Interpretation wird nie mit der letzten übereinstimmen.

Es gibt drei Grundursachen für das Driften, und jede hat eine direkte Lösung:

Vage Beschreibungen. „Ein Mann im Anzug" lässt sich auf zehntausend verschiedene Arten darstellen. Das Modell füllt die Lücken mit zufälligen plausiblen Details — und diese Zufälligkeit ändert sich bei jeder Generierung.
Kein visueller Anker. Text allein kann kein bestimmtes Gesicht fixieren. Ohne ein Referenzbild oder einen Übergangsframe aus dem vorherigen Shot hat das Modell nichts Konkretes zum Abgleichen.
Wechselnde Prompt-Reihenfolge. Veo 3 gewichtet die frühesten Elemente eines Prompts am stärksten. Wenn Sie in einem Shot mit der Szene und im nächsten mit der Figur beginnen, ändern Sie buchstäblich die Priorität dessen, was das Modell zuerst fixiert.

Beheben Sie diese drei Punkte, und Konsistenz ist keine Glückssache mehr. Der Rest dieses Leitfadens ist das System, das genau das tut.

Methode 1: Erstellen Sie eine Figuren-Bibel (die Beschreibungs-Fixierung)

Ihr erstes und wichtigstes Werkzeug kostet nichts und funktioniert in jedem Veo-3-Zugangsweg — Flow, der Gemini-App oder der API. Es ist eine Figuren-Bibel: ein fixierter, hyperdetaillierter Textblock, der Ihre Figur beschreibt und den Sie unverändert in jeden Prompt einfügen, in dem diese Figur erscheint.

Der häufigste Fehler ist, Figuren auf der falschen Ebene zu beschreiben. „Ein blaues Hemd" gibt dem Modell Freiheit zu driften. Geben Sie stattdessen Schnitt, Material, Zustand und unverwechselbare Details an, sodass fast nichts mehr zum Zufallswürfeln übrig bleibt. Hier ist eine Vorlage zum Kopieren — füllen Sie jede Klammer aus und ändern Sie die Formulierung niemals zwischen Shots:

FIGUR — [NAME]:
Eine(n) [Alter]-jährige(r) [Ethnie/Hautton] [Mann/Frau] mit [exaktes Haar: Länge,
Farbe, Textur, Scheitel], [Gesichtsform], [Augenfarbe], [Erkennungsmerkmale:
Sommersprossen, Narbe, Brillenstil]. Trägt eine [Kleidung: exakter Farbname, Material,
Schnitt, Zustand, z. B. „verwaschene Indigo-Jeansjacke, leicht übergroß, Kragen hoch"]
über einem [Schicht], mit [Accessoires: exakte Uhr, Ring, Ohrringe]. Statur:
[Größe/Bau]. Standardausdruck: [neutral/warm/ernst]. Stimme: [Höhe, Akzent, Tempo].

Zwei Regeln machen die Bibel wirksam. Erstens: Fügen Sie sie jedes Mal wortwörtlich ein — selbst ein umgestelltes Adjektiv kann das Rendering verschieben. Zweitens: Stellen Sie den Figurenblock an den Anfang des Prompts, vor Szene und Handlung, weil Veo 3 die frühen Tokens am stärksten verankert. Beginnen Sie mit wer, dann beschreiben Sie wo und was sie tun. Mehr zur Prompt-Reihenfolge und -Gewichtung in unserem Leitfaden zum Veo-3-Prompt-Engineering.

Eine einfache Möglichkeit, Ihre Bibel über ein ganzes Projekt diszipliniert zu halten, ist, sie als strukturierte Daten zu speichern. Wenn Sie in großem Maßstab generieren, lässt eine JSON-Prompt-Struktur die Felder subject, wardrobe und voice fixieren und nur action und camera pro Shot variieren — der sauberste Weg, zu garantieren, dass sich der Identitätsblock nie versehentlich ändert.

Methode 2: Fixieren Sie das Gesicht mit Referenzbildern

Text bringt Sie zu 80 % ans Ziel; ein Referenzbild schließt die Lücke zu einem bestimmten, wiederholbaren Gesicht. Der Bild-Konditionierungs-Workflow von Veo 3 unterstützt bis zu drei Referenzbilder einer einzelnen Person, Figur oder eines Produkts, und das Modell nutzt sie, um das Aussehen über Generierungen hinweg zu bewahren. Dies ist der zuverlässigste Weg, eine echte, wiedererkennbare Identität zu halten.

So nutzen Sie Referenzbilder gut:

Verwenden Sie ein sauberes, gut beleuchtetes Frontalporträt als primäre Referenz. Vermeiden Sie harte Schatten, Sonnenbrillen oder extreme Winkel — das Modell kann nur bewahren, was es klar sieht.
Fügen Sie bis zu zwei zusätzliche Winkel hinzu (Dreiviertel und Profil), wenn sich die Figur drehen oder durch den Raum bewegen muss. Drei konsistente Bilder schlagen ein dreimal verwendetes Bild.
Halten Sie Referenz und Beschreibung im Einklang. Wenn Ihre Bibel „kurzer blonder Bob" sagt, das Referenzbild aber langes braunes Haar zeigt, erzeugen Sie einen Konflikt, den das Modell unvorhersehbar auflöst. Bringen Sie beides in Übereinstimmung.
Für Produkte oder Maskottchen gilt dieselbe Drei-Bild-Regel — liefern Sie saubere Aufnahmen des Objekts und beschreiben Sie es in der Bibel.

Wenn Sie eine vollständige Anleitung zum Einspeisen von Standbildern in Veo 3 möchten — einschließlich der Verwandlung eines einzelnen Fotos in einen bewegten Shot —, kombinieren Sie dies mit unserem Veo-3-Referenzbild-Workflow und dem Image-to-Video-Leitfaden. Referenzbilder plus eine straffe Bibel sind die Kombination, auf die sich Profis verlassen.

Methode 3: Verketten Sie Shots, damit die Identität weitergetragen wird

Die obigen Methoden halten eine Figur konsistent, wenn Sie Clips unabhängig generieren. Aber die stärkste Konsistenz kommt vom Verketten, bei dem jeder neue Clip buchstäblich den visuellen Zustand des vorherigen erbt. Veo 3 und die Flow-Oberfläche bieten drei Verkettungs-Werkzeuge.

Scene Builder Extend / Add to Scene. Innerhalb des Scene Builder von Flow setzen die Funktionen Extend und Add to Scene Ihren bestehenden Clip fort und nutzen dessen letzte Frames als visuellen Kontext für die nächste Generierung. Weil das Modell „sehen" kann, wie die Figur einen Moment zuvor aussah, sinkt das Driften drastisch. Dies ist die Standardmethode für durchgehende Handlung — eine Figur, die geht, spricht oder sich durch einen Raum bewegt. Vollständiger Klickpfad in unserem Leitfaden zum Verlängern über 8 Sekunden hinaus.

Frames-to-Video (erster/letzter Frame). Für präzisere Kontrolle nutzen Sie Frames-to-Video: Sie liefern einen Startframe (und optional einen Endframe), und Veo 3 generiert die Bewegung dazwischen. Exportieren Sie den letzten sauberen Frame eines Clips, speisen Sie ihn als ersten Frame des nächsten ein — und das exakte Aussehen Ihrer Figur (Gesicht, Kleidung, Beleuchtung) wird mit nahezu null Driften übertragen. Dies ist die zuverlässigste Technik für Multi-Shot-Sequenzen, in denen die Figur fixiert bleiben muss.

Langform-Storyboard-Workflow. Wenn Sie viele Shots zu einer einzigen Erzählung zusammensetzen, planen Sie die gesamte Sequenz vor dem Generieren, damit Ihre Bibel und die Übergangsframes von Anfang bis Ende aufeinander abgestimmt bleiben. Unser Langform-Storyboard-Workflow zeigt, wie man ein mehrszeniges Projekt strukturiert, damit die Konsistenz über 60 Sekunden oder zwei Minuten hält.

Eine praktische Regel: Verwenden Sie Beschreibung + Referenzbilder für visuell getrennte Shots (verschiedene Orte, Zeitsprünge) und Verkettung für Shots, die sich durchgehend anfühlen sollen. Die meisten realen Projekte mischen beides.

Methode 4: Halten Sie Objektiv, Beleuchtung und Seed stabil

Selbst bei fixierter Identität kann sich eine Figur anders anfühlen, wenn sich die Welt um sie herum verschiebt. Zwei oft übersehene Hebel:

Halten Sie die Kamera- und Beleuchtungssprache konstant. Wenn Shot eins „aufgenommen mit einem 35-mm-Objektiv, weiches Fensterlicht von links" sagt, behalten Sie diese exakte Formulierung in jedem Shot bei, es sei denn, Sie wollen bewusst eine Änderung. Ein neues Objektiv oder eine neue Lichtrichtung rendert Hautton, Wahrnehmung der Gesichtsform und Stimmung neu. Siehe unseren Leitfaden zu Kamerasteuerungs-Prompts.
Verwenden Sie den Seed wieder, wenn Ihr Tool ihn anzeigt. Ein fester Seed macht die Zufallsentscheidungen des Modells wiederholbar, sodass ein erneuter Lauf eines Prompts mit kleinen Anpassungen denselben Grundlook behält, statt eine neue Person zu würfeln.
Nutzen Sie Negativ-Prompts, um das Driften abzuzäunen. Formulierungen wie „Kleidung nicht ändern, Figur nicht altern, keine neuen Accessoires" unterdrücken aktiv die Variationen, die das Driften verursachen. Unser Leitfaden zu Negativ-Prompts listet die wirksamsten Einschränkungen auf.

Halten Sie auch die Stimme konsistent

Visuelle Konsistenz ist nur die halbe Miete — Veo 3 generiert nativen Ton, einschließlich Dialog, sodass eine Figur auch stimmlich driften kann. Ein konsistentes Gesicht mit einer anderen Stimme in jedem Clip zerstört die Immersion sofort.

Fixieren Sie die Stimme genauso wie das Gesicht: Fügen Sie Ihrer Figuren-Bibel einen festen Stimmdeskriptor hinzu („warme weibliche Stimme mittlerer Höhe, leichter britischer Akzent, gemessenes Tempo") und fügen Sie ihn in jeden Prompt ein. Wenn Sie Dialog schreiben, halten Sie Sprechstil und Kadenz konstant und beschreiben Sie die Darbietung („ruhig, beruhigend"), statt den Ton dem Zufall zu überlassen. Den vollständigen Ansatz zur Steuerung gesprochener Zeilen und des Tons finden Sie in unserem Leitfaden zum nativen Audio von Veo 3.

Ein vollständiger Multi-Clip-Workflow, Schritt für Schritt

So fügen sich die vier Methoden zusammen, um eine Drei-Shot-Szene mit einer konsistenten Figur zu erstellen:

Schreiben Sie die Figuren-Bibel. Füllen Sie die obige Vorlage mit hyperspezifischen Details. Speichern Sie sie in einer Textdatei, aus der Sie einfügen.
Generieren oder wählen Sie ein Referenzporträt. Verwenden Sie ein sauberes Frontalbild Ihrer Figur. Wenn Sie mit Text beginnen, generieren Sie zuerst einen starken Establishing-Shot und exportieren Sie dann einen Frame als Referenz.
Shot 1 — etablieren. Prompt-Reihenfolge: zuerst Figuren-Bibel, dann Szene, Handlung, Kamera und Licht. Generieren, prüfen und den saubersten Take wählen.
Shot 2 — fortsetzen. Exportieren Sie den letzten sauberen Frame von Shot 1. Speisen Sie ihn über Frames-to-Video oder Scene Builder Extend als Startpunkt ein. Fügen Sie die identische Bibel ein, ändern Sie nur Handlung und Kamera. Generieren.
Shot 3 — neuer Winkel. Verwenden Sie dasselbe Referenzbild und dieselbe Bibel wieder, halten Sie Objektiv- und Lichtformulierung identisch, ändern Sie nur das Nötige. Fügen Sie einen Negativ-Prompt hinzu, der Kleidung und Identität vor Änderungen abzäunt.
Zusammensetzen und prüfen. Betrachten Sie alle drei Clips nebeneinander auf Gesicht, Kleidung und Stimme. Generieren Sie jeden driftenden Shot mit denselben Ankern neu — niemals durch Umschreiben der Bibel.

Folgen Sie dieser Schleife, und eine einzelne Figur hält über so viele Clips, wie Sie brauchen. Dasselbe System skaliert auf Werbekampagnen, gesichtslose Kanäle und Kurzfilme.

Mehrere Figuren in einer Szene

Zwei oder mehr Figuren vervielfachen die Herausforderung, weil das Modell ihre Merkmale vertauschen kann. Die Lösungen:

Geben Sie jeder Figur eine separate, klar gekennzeichnete Bibel (FIGUR A, FIGUR B) und ein Referenzbild.
Beschreiben Sie die räumliche Position („die Frau links, der Mann rechts"), damit das Modell die richtige Identität dem richtigen Körper zuordnet.
Halten Sie beide Bibeln wortwörtlich in jedem gemeinsamen Shot. Die Details einer Figur aus einem Prompt wegzulassen ist der schnellste Weg, sie verwandeln zu lassen.
Setzen Sie Two-Shots sparsam ein und verlassen Sie sich auf Verkettung, denn je mehr Figuren sich einen Frame teilen, desto mehr Anker muss das Modell jonglieren.

Häufige Fehler, die das Driften verursachen

Die Bibel zwischen Shots bearbeiten. Selbst kleine Formulierungsänderungen rendern den Look neu. Fixieren und einfügen.
Mit der Szene beginnen. Ort oder Handlung vor der Figur stuft die Identität herab. Figur immer zuerst.
Widersprüchliche Referenz und Text. Ihr Bild und Ihre Beschreibung müssen übereinstimmen.
Versehentliches Ändern von Objektiv oder Licht. Eine neue Kameraformulierung rendert das Gesicht stillschweigend neu.
Übergangsframes auslassen. Bei durchgehender Handlung driften unabhängige Generierungen immer stärker als verkettete.
Die Stimme ignorieren. Ein konsistentes Gesicht mit einer inkonsistenten Stimme zerstört die Illusion trotzdem.

Kostenlos ausprobieren

Der schnellste Weg, dieses System zu verinnerlichen, ist, selbst einen Drei-Shot-Test durchzuführen: Schreiben Sie eine Bibel, fixieren Sie ein Referenzbild und verketten Sie drei Clips. Sie können jetzt mit Veo 3 generieren und den obigen Workflow anwenden. Wenn Sie neu beim Modell sind, beginnen Sie mit unserem Veo-3-Einsteigerleitfaden, und ergänzen Sie dann Image-to-Video und das Verlängern über 8 Sekunden hinaus, um vollständige Szenen zu bauen.

Häufig gestellte Fragen

Kann Veo 3 in mehreren Videos exakt dasselbe Gesicht beibehalten? Ja — der zuverlässigste Weg ist, eine detaillierte Figuren-Bibel mit bis zu drei Referenzbildern derselben Person zu kombinieren und Shots über Frames-to-Video oder Scene Builder zu verketten, damit jeder Clip das Aussehen des vorherigen erbt. Text allein bringt Sie nah heran; Referenzbilder und Verkettung fixieren es.

Wie viele Referenzbilder kann ich in Veo 3 verwenden? Der Bild-Konditionierungs-Workflow von Veo 3 unterstützt bis zu drei Referenzbilder einer einzelnen Person, Figur oder eines Produkts. Verwenden Sie ein sauberes Frontalporträt als primäres und fügen Sie zusätzliche Winkel hinzu, wenn sich die Figur drehen oder bewegen muss.

Warum ändert sich meine Figur zwischen Clips? Jede Veo-3-Generierung beginnt von vorn, sodass das Modell ohne Anker unzureichend spezifizierte Details neu erfindet. Die drei üblichen Ursachen sind vage Beschreibungen, kein visueller Anker und eine geänderte Prompt-Reihenfolge. Fixieren Sie die Bibel, fügen Sie ein Referenzbild hinzu und stellen Sie die Figur an den Anfang.

Beeinflusst die Prompt-Reihenfolge die Figurenkonsistenz? Ja. Veo 3 gewichtet die frühesten Elemente eines Prompts am stärksten, sodass das Beginnen mit dem Figurenblock vor Szene und Handlung die Identität stärker verankert, als sie am Ende zu vergraben.

Wie halte ich die Stimme einer Figur konsistent? Fügen Sie Ihrer Figuren-Bibel einen festen Stimmdeskriptor (Höhe, Akzent, Tempo) hinzu und fügen Sie ihn in jeden Prompt ein, und beschreiben Sie die Darbietung jeder Zeile, statt den Ton dem Zufall zu überlassen. Veo 3 generiert nativen Ton, sodass die Stimme genauso driftet wie das Gesicht, wenn Sie sie nicht fixieren.

Kann ich zwei Figuren in derselben Szene konsistent halten? Ja, aber geben Sie jeder Figur ihre eigene gekennzeichnete Bibel und ihr eigenes Referenzbild, beschreiben Sie ihre räumlichen Positionen, damit das Modell die Merkmale richtig zuordnet, und halten Sie beide Beschreibungen wortwörtlich in jedem gemeinsamen Shot. Verlassen Sie sich auf Verkettung statt auf das erneute Generieren von Two-Shots von Grund auf.

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video

Continue with more blog posts in the same locale.

Browse all posts

Veo 3 Dialog: Wie man zwei Figuren in einer Szene sprechen lässt (2026)

Realistische Zwei-Figuren-Dialoge in Veo 3 inszenieren: Prompt-Struktur, eigenständige Stimmen, Sprecherwechsel, Lippensynchronisation und ein vollständiges Beispiel.

Read article

Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)

Veo 3 brennt verzerrte Untertitel in Dialog-Clips ein. Das komplette 2026-Playbook: verhindern bei der Generierung und entfernen in der Nachbearbeitung.

Read article

Massen-KI-Videogenerator: Veo-3-Videos im Batch und im Maßstab erstellen (2026)

So erstellen Sie mit einem Massen-KI-Videogenerator-Workflow Dutzende konsistente Veo-3-Videos im Batch — Master-Prompts, Variablen-Sheets, Seed-Kontrolle, Playbooks, Kostenkontrolle und QA.

Read article

Browse all posts

Warum Veo-3-Figuren zwischen Clips driften

Methode 1: Erstellen Sie eine Figuren-Bibel (die Beschreibungs-Fixierung)

Methode 2: Fixieren Sie das Gesicht mit Referenzbildern

Methode 3: Verketten Sie Shots, damit die Identität weitergetragen wird

Methode 4: Halten Sie Objektiv, Beleuchtung und Seed stabil

Halten Sie auch die Stimme konsistent

Ein vollständiger Multi-Clip-Workflow, Schritt für Schritt

Mehrere Figuren in einer Szene

Häufige Fehler, die das Driften verursachen

Kostenlos ausprobieren

Häufig gestellte Fragen

Related Articles

Veo 3 Dialog: Wie man zwei Figuren in einer Szene sprechen lässt (2026)

Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)

Massen-KI-Videogenerator: Veo-3-Videos im Batch und im Maßstab erstellen (2026)