Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)

Veo 3 brennt verzerrte Untertitel in Dialog-Clips ein. Das komplette 2026-Playbook: verhindern bei der Generierung und entfernen in der Nachbearbeitung.

E

Emma Chen · 13 min read · Jun 25, 2026

Untertitel aus Veo-3-Videos entfernen: So behebst du den Bug mit verzerrten Bildunterschriften (2026)

So entfernst du eingebrannte Untertitel und Bildunterschriften aus Veo-3-KI-Videos

Du hast den perfekten Veo-3-Prompt geschrieben. Die Figur sieht richtig aus, das Licht ist filmisch, die Stimme klingt menschlich – und dann erscheint am unteren Bildrand ein Streifen verzerrter, halb falsch geschriebener Untertitel. Du hast keine Bildunterschriften verlangt. Du hast sogar „no subtitles" geschrieben. Sie sind trotzdem aufgetaucht.

Falls dir das bekannt vorkommt: Du machst nichts falsch. Das automatische Untertitel-Verhalten von Veo 3 ist eines der am häufigsten gemeldeten Probleme des Modells, dokumentiert von Reddit-Threads bis zur MIT Technology Review. Die Bildunterschriften sind oft unsinnig, sie sind in die Pixel eingebrannt (keine Spur, die man abschalten kann), und sie nachträglich zu entfernen kann dich zusätzliche Credits kosten.

Dieser Leitfaden ist das vollständige, erprobte Playbook für sauberes, untertitelfreies Veo-3-Video. Du lernst genau, warum Veo 3 Untertitel hinzufügt, welche Prompt-Techniken sie schon bei der Generierung verhindern und welche Methoden der Nachbearbeitung sie entfernen, wenn die Vorbeugung scheitert. Jeder Prompt unten ist zum Kopieren bereit. Am Ende hast du einen wiederholbaren Workflow, der Clips mit sprechenden Figuren ganz ohne eingebrannten Text erzeugt.


Warum Veo 3 Untertitel hinzufügt, die du nie verlangt hast

Um den Bug zuverlässig zu beheben, musst du verstehen, woher er kommt. Es ist keine Einstellung, die du vergessen hast – es ist eine Nebenwirkung davon, wie das Modell trainiert wurde.

1. Die Trainingsdaten waren voller Bildunterschriften. Veo 3 hat gelernt, Video und synchronen Ton aus riesigen Mengen realer Aufnahmen zu erzeugen. Ein großer Teil davon – Nachrichten, Social-Clips, Tutorials, Filmszenen – hatte bereits eingebrannte Untertitel oder Bildschirmtext. Wenn das Modell erkennt, dass ein Clip Sprache enthält, hat es gelernt, Sprache mit Bildschirmtext zu verbinden. Also zeichnet es „hilfreich" Bildunterschriften dazu.

2. Die Bildunterschriften sind eingebrannt, keine separate Spur. Genau das überrascht die meisten. In einem normalen Videoeditor sind Untertitel eine umschaltbare Ebene. In einem Veo-3-Export ist der Text Teil des gerenderten Bildes selbst – dieselben Pixel wie das Gesicht der Figur und der Hintergrund. Es gibt keinen „Untertitel: aus"-Knopf, weil es keine Untertitelebene gibt. Deshalb kannst du sie nach dem Export nicht einfach deaktivieren.

3. Der Text ist oft verzerrt. Weil das Modell Text zeichnet statt setzt, sind die Bildunterschriften häufig falsch geschrieben, doppelt oder reiner Unsinn. Das macht sie schlimmer als gewöhnliche Untertitel – sie lassen einen professionellen Clip kaputt wirken.

4. Am schwersten zu vermeiden, wenn du sauberes Ergebnis am meisten brauchst. Der Bug wird durch Dialog und Erzählerstimme ausgelöst. In dem Moment also, in dem du die Signaturfunktion von Veo 3 nutzt – nativen Ton mit einer tatsächlich sprechenden Figur –, ist unerwünschter Text am wahrscheinlichsten. Genau diese Spannung löst dieser Leitfaden.

Mit diesem Wissen ist die Strategie zweischichtig: Untertitel bei der Generierung durch Prompt-Struktur verhindern und sie in der Nachbearbeitung entfernen, wenn eine Neugenerierung die Credits nicht wert ist. Beginnen wir mit der Vorbeugung, denn sie ist kostenlos.


Teil 1 – Untertitel bei der Generierung verhindern (die kostenlose Lösung)

Vorbeugen ist immer günstiger als Entfernen. Diese vier Techniken stapeln sich – nutze sie alle zusammen für das zuverlässigste saubere Ergebnis. Sie funktionieren in der Gemini-App, in Google Flow, in Google AI Studio und in der Veo-3-API.

Technik 1: Verwende für Dialog einen Doppelpunkt, niemals Anführungszeichen

Das ist die wirkungsvollste einzelne Änderung. Wie du die gesprochene Zeile formatierst, beeinflusst stark, ob Bildunterschriften erscheinen.

Wenn du Dialog in Anführungszeichen oder Apostrophe setzt, zeigst du dem Modell geschriebenen Text – und geschriebenen Text neigt es dazu, auf den Bildschirm zu rendern. Verwendest du stattdessen einen schlichten Doppelpunkt, behandelt das Modell die Zeile viel wahrscheinlicher als reinen Ton.

❌ Löst Bildunterschriften aus (Anführungszeichen):

A barista says: "Your latte is ready, enjoy your morning."

✅ Sauberer (Doppelpunkt, ohne Anführungszeichen):

A barista says: Your latte is ready, enjoy your morning.

Vermeide auch Apostrophe innerhalb der gesprochenen Zeile, da sie sich wie Anführungszeichen verhalten. Wenn ein Clip sich hartnäckig wehrt, schreibe Kurzformen aus („do not" statt „don't").

Technik 2: Setze den Dialog an den ANFANG des Prompts

Die Reihenfolge im Prompt zählt mehr, als die meisten erwarten. Mehrere Creator haben festgestellt, dass die Voiceover- oder Sprechzeile am Anfang des Prompts – vor der Bildbeschreibung – deutlich weniger Untertitel erzeugt und nebenbei die Lippensynchronität verbessert. Ein Creator berichtete von zehn untertitelfreien Generierungen in Folge, nachdem er die Sprache nach oben verschoben hatte.

❌ Dialog am Ende vergraben:

A slow dolly-in on a chef in a warm, busy kitchen, golden hour light through
the window, shallow depth of field. The chef looks up and says: Tonight we cook
something special.

✅ Dialog zuerst:

The chef says: Tonight we cook something special.
Visual: a slow dolly-in on a chef in a warm, busy kitchen, golden hour light
through the window, shallow depth of field.

Technik 3: Füge direkt nach dem Dialog eine ausdrückliche „no subtitles"-Anweisung ein

Negative Anweisungen helfen – aber die Platzierung zählt. Hänge die Einschränkung direkt nach die Sprechzeile an, nicht ans Ende eines langen Absatzes, wo das Modell sie abwerten kann.

The guide says: Follow me to the overlook. (no subtitles, no captions, no on-screen text)

Bewährte Formulierungen, grob nach Stärke geordnet:

  • (no subtitles)
  • no captions, no subtitles, no text overlay
  • clean frame, no words on screen, no burned-in text
  • Do not add any subtitles or captions.

Technik 4: Fülle das Negativ-Prompt-Feld

Wenn du in Google Flow, Google AI Studio oder über die Veo-3-API generierst, hast du ein eigenes Negativ-Prompt-Feld. Nutze es. Es ist getrennt von den Einschränkungen in deinem Haupt-Prompt und gibt dem Modell ein zweites, klareres Signal.

Negativ-Prompt (zum Kopieren):

subtitles, captions, closed captions, on-screen text, text overlay, watermark,
words on screen, lower-third text, burned-in text, sign language overlay

Mehr dazu, wie das Negativ-Prompt-Feld in verschiedenen Szenarien wirkt, findest du in unserem Veo-3-Leitfaden zu negativen Prompts, der die vollständige Syntax und die anderen Artefakte (zusätzliche Finger, verzerrte Logos, Flackern) abdeckt, die man genauso unterdrückt.

Die kombinierte „sauberer Dialog"-Formel

Setze alle vier Techniken zusammen und du erhältst eine Vorlage, die mit hoher Trefferquote untertitelfreie Sprechclips erzeugt:

[SPEAKER] says: [gesprochene Zeile, Klartext, keine Anführungszeichen, keine Apostrophe].
(no subtitles, no captions, no on-screen text)

Visual: [Subjekt + Aktion], [Schauplatz], [Licht], [Kamerabewegung], [Objektiv/Schärfentiefe].
Audio: [Umgebungston], [Tonfall], natural delivery.

Negative prompt: subtitles, captions, on-screen text, text overlay, watermark, words on screen

Dieselbe Struktur treibt konversionsstarke Werbeformate an – wenn das dein Anwendungsfall ist, kombiniere sie mit unserem Workflow zum Veo-3-UGC-Werbegenerator und dem umfassenderen Veo-3-Leitfaden für nativen Ton zu Dialog, Soundeffekten und Lippensynchronität.


Teil 2 – Untertitel in der Nachbearbeitung entfernen (wenn Vorbeugung scheitert)

Vorbeugung ist nicht zu 100 % sicher. Manche Clips kommen trotzdem mit Bildunterschriften zurück, besonders bei langen Dialogzeilen oder Szenen mit zwei Sprechern. Weil der Text eingebrannt ist, hast du jetzt ein Pixelproblem, kein Textproblem. Hier sind die vier Entfernungsmethoden, von der am wenigsten bis zur am stärksten destruktiven.

Methode 1: Den unteren Streifen beschneiden

Die Auto-Bildunterschriften von Veo 3 sitzen fast immer im unteren Drittel des Bildes. Die schnellste Lösung ist, diesen Streifen wegzuschneiden.

  • Schneide in einem beliebigen Editor (CapCut, Premiere, DaVinci Resolve, sogar der Fotos-App) die unteren 12–18 % des Bildes ab.
  • Rahme neu, damit dein Subjekt zentriert bleibt.

Kompromisse: Du verlierst einen Teil des Bildes und zoomst leicht hinein, was einen 720p/1080p-Clip weicher machen kann. Funktioniert am besten bei vertikalem 9:16-Content. Plane voraus, indem du beim Generieren unten etwas Luft lässt, damit ein Beschnitt nichts Wichtiges kostet.

Methode 2: Mit einem Lower-Third oder B-Roll abdecken

Statt zu entfernen – verstecke die Bildunterschriften.

  • Lege eine eigene, korrekt geschriebene Untertitelbox, Markenleiste oder ein Lower-Third über den unteren Streifen.
  • Oder blende ein paar Sekunden B-Roll als Bild-in-Bild-Band ein.

So wird der Bug zur Designentscheidung und ist der schnellste Weg für Social-Videos, die ohnehin eine Untertitelleiste haben sollten. Setze deine echten, korrekt geschriebenen Untertitel oben drauf.

Methode 3: KI-Text-/Objektentfernung

Mehrere Tools können eingebrannten Text überpinseln, indem sie die Pixel dahinter rekonstruieren: spezielle KI-Objektentfernung in Videos, Inpainting-Tools und „remove text from video"-Werkzeuge. Die Ergebnisse hängen davon ab, wie unruhig der Hintergrund ist – eine glatte Wand säubert sich gut, ein bewegter, detailreicher Hintergrund kann verschmieren. Prüfe immer einige Frames, bevor du einen vollen Export startest.

Kompromisse: Die besten Tools sind kostenpflichtig, und detailreiche Hintergründe zu verarbeiten ist unvollkommen. Reserviere das für Heldenaufnahmen, bei denen ein Beschnitt die Komposition ruinieren würde.

Methode 4: Die Generierung neu würfeln (letztes Mittel)

Wenn ein Clip entscheidend ist und die Nachbearbeitung ihn nicht retten kann, generiere ihn neu – aber erst, nachdem du alle vier Vorbeugetechniken aus Teil 1 angewendet hast. Eine Neugenerierung mit demselben fehlerhaften Prompt verbrennt nur Credits für dasselbe Ergebnis. Was das Ergebnis tatsächlich ändert, ist eine Version mit Doppelpunkt-Format, Dialog zuerst und Negativ-Prompt.

Damit Neugenerierungen günstiger werden, teste zuerst auf einer günstigeren Stufe und skaliere dann hoch. Unser Leitfaden zum kostenlosen Veo-3-Zugang und unsere Veo-3-Preisübersicht erklären, wie du Prompts testest, ohne Premium-Credits zu verbrennen.

Entscheidungstabelle zur Entfernung

Situation Beste Methode Warum
Vertikaler Social-Clip, Untertitel im unteren Drittel Unteren Streifen beschneiden Schnell, kostenlos, natürlich für 9:16
Video sollte ohnehin Untertitel haben Mit eigenem Lower-Third abdecken Macht aus dem Bug ein Feature
Filmische Heldenaufnahme, ganzes Bild zählt KI-Textentfernung Erhält die Komposition
Geschäftskritischer Clip, Post kann's nicht retten Mit korrigiertem Prompt neu generieren Funktioniert nur mit korrigiertem Prompt

Teil 3 – Szenen mit zwei Sprechern: der schwierigste Fall

Clips mit einem Sprecher lassen sich meist mit Teil 1 lösen. Gespräche zwischen zwei Figuren sind schwerer – Veo 3 kann beide Zeilen untertiteln und ordnet den Dialog manchmal dem falschen Mund zu.

Zwei Dinge helfen:

1. Kennzeichne den Sprecher nach Position und Aussehen, nicht nur nach Namen. Das Modell weiß nicht, wer „Anna" ist, aber es kann „die Frau links in der roten Jacke" verfolgen.

The woman on the left in the red jacket says: Did you finish the report?
The man on the right in the grey shirt says: Almost, give me ten minutes.
(no subtitles, no captions, no on-screen text)

2. Halte jede Sprechzeile kurz. Langer Dialog ist der größte einzelne Untertitel-Auslöser. Zerlege ein Gespräch in mehrere kurze Clips – je ein Wortwechsel – und füge sie im Editor zusammen. Kürzere Zeilen verbessern außerdem die Lippensynchronität.

Wenn du Mehrfach-Shot-Szenen mit denselben Figuren baust, wird die größere Herausforderung, Gesichter und Outfits konsistent zu halten. Unser Leitfaden zur Figurenkonsistenz in Veo 3 behandelt die Referenzbild- und Seed-Techniken, und die Veo-3-Prompts für Straßeninterviews zeigen das dialoglastige Format in Aktion.


Teil 4 – Behebt Veo 3.1 den Untertitel-Bug?

Veo 3.1 hat vieles verbessert – besseres Prompt-Befolgen, stärkere Figurenfixierung, saubereren Ton –, aber das Auto-Bildunterschrift-Verhalten tritt weiterhin auf bei dialoglastigen Prompts. Derselbe Vorbeugestapel gilt. Mehr noch: Das bessere Befolgen von Anweisungen in 3.1 lässt die Doppelpunkt- und Dialog-zuerst-Techniken zuverlässiger greifen als beim ursprünglichen Veo 3.

Kurz zur Ursache: Für Google ist das wirklich schwer vollständig zu beseitigen. Weil das Verhalten in den Trainingsdaten verankert ist, bedeutet eine echte Lösung, untertiteltragendes Material neu zu kennzeichnen oder zu filtern und neu zu trainieren – langsame, teure Arbeit. Übersetzt: Warte nicht auf einen offiziellen Schalter. Der Prompt- und Nachbearbeitungs-Workflow in diesem Leitfaden ist die praktische Lösung von heute und wird über Veo 3, Veo 3 Fast und Veo 3.1 hinweg weiter funktionieren.

Alles Neue in der jüngsten Version findest du in unserem Leitfaden zu den neuen Funktionen von Veo 3.1. Und wenn dein Dialog Teil einer größeren Image-to-Video-Pipeline ist, erklärt der Veo-3-Image-to-Video-Leitfaden, wie Referenzframes mit nativem Ton zusammenwirken.


Fünf häufige Fehler, die die Untertitel zurückbringen

Selbst Leute, die die Techniken kennen, sabotieren ihre eigenen Clips. Das sind die Muster, die heimlich Untertitel zurückbringen, und wie du jedes durchbrichst.

Fehler 1: Die Anführungszeichen „nur dieses eine Mal" behalten. Es fühlt sich natürlich an, Dialog in Anführungszeichen zu schreiben – so sieht ein Drehbuch aus. Aber Anführungszeichen sind der stärkste Auslöser für Bildschirmtext. Gewöhne dir an, jedes Mal die Doppelpunkt-Form zu schreiben, sogar für einen Schnelltest.

Fehler 2: Einen Absatz Dialog schreiben. Je länger die Sprechzeile, desto höher die Chance auf Untertitel und desto schlechter die Lippensynchronität. Begrenze jede Sprechzeile auf etwa einen kurzen Satz (8–12 Wörter) pro Clip und überlasse dem Editor den Gesprächsfluss. Das hält dich auch innerhalb der natürlichen 8-Sekunden-Cliplänge von Veo 3.

Fehler 3: Die Einschränkung nur ganz ans Ende setzen. Ein „no subtitles", das ans Ende eines 90-Wörter-Prompts gehängt wird, konkurriert mit allem anderen um die Aufmerksamkeit des Modells und verliert oft. Setze die Einschränkung direkt nach die Dialogzeile und stütze sie mit dem Negativ-Prompt-Feld ab.

Fehler 4: Randlos ohne Luft unten komponieren. Wenn du dein Subjekt eng an den unteren Rand setzt und trotzdem Untertitel erscheinen, hast du keinen Platz, sie wegzuschneiden, ohne dein Subjekt zu beschneiden. Lass beim Generieren von Dialogclips immer etwas Leerraum unten.

Fehler 5: Exakt denselben Prompt neu würfeln. Das ist der teuerste Fehler, weil er Credits ohne Änderung verbrennt. Generierung ist probabilistisch, also kommt ein identischer Prompt gelegentlich sauber zurück – aber das ist Glücksspiel, keine Korrektur. Ändere den Prompt immer (Doppelpunkt, Dialog zuerst, Einschränkung, Negativfeld), bevor du Credits für eine weitere Generierung ausgibst.

Vermeide alle fünf und deine Trefferquote für sauberen Output springt von „manchmal" auf „fast immer". Einen tieferen Blick darauf, wie die Prompt-Struktur jede Veo-3-Generierung steuert, gibt unser Leitfaden zum Prompt Engineering für Veo 3.


Ein kompletter Workflow für sauberen Dialog (von Anfang bis Ende)

  1. Schreibe zuerst die Sprechzeile, im Klartext – keine Anführungszeichen, keine Apostrophe.
  2. Formatiere mit Doppelpunkt: [Speaker] says: [Zeile].
  3. Hänge die Einschränkung direkt an: (no subtitles, no captions, no on-screen text).
  4. Füge den Bildblock darunter ein: Subjekt, Aktion, Schauplatz, Licht, Kamera, Objektiv.
  5. Fülle das Negativ-Prompt-Feld mit der Untertitel-Sperrliste.
  6. Komponiere mit Luft unten, damit ein Beschnitt schmerzlos ist.
  7. Generiere zuerst auf einer günstigeren Stufe, um den Prompt als sauber zu bestätigen.
  8. Prüfe das untere Drittel des Ergebnisses. Sauber? Skaliere hoch. Untertitel? Wende eine Entfernungsmethode aus Teil 2 an oder generiere mit korrigiertem Prompt neu.
  9. Füge in der Post deine eigenen, korrekt geschriebenen Untertitel hinzu, falls gewünscht – jetzt kontrollierst du den Text.

Befolge das und der Untertitel-Bug ist keine wiederkehrende Kopfschmerzquelle mehr, sondern ein Häkchen, das du einmal pro Clip setzt.


Häufig gestellte Fragen

Warum fügt Veo 3 Untertitel hinzu, obwohl ich klar „no subtitles" geschrieben habe? Weil das Verhalten aus den Trainingsdaten stammt, nicht aus einer einzelnen Anweisung, der das Modell zuverlässig folgt. Ein einzelnes „no subtitles" am Ende eines langen Prompts wird oft abgewertet. Bessere Ergebnisse bekommst du, wenn du zusätzlich Doppelpunkt statt Anführungszeichen nutzt, den Dialog nach vorn stellst und das Negativ-Prompt-Feld füllst. Stapele die Techniken – keine einzelne ist kugelsicher.

Kann ich Untertitel nicht einfach in den Einstellungen abschalten? Nein. Veo-3-Untertitel sind in die Pixel eingebrannt, keine separate Spur, also gibt es keinen Schalter. Deine einzigen Optionen sind, sie bei der Generierung zu verhindern oder in der Post zu entfernen.

Lösen Anführungszeichen wirklich Untertitel aus? In der Praxis ja – Anführungszeichen und Apostrophe um den Dialog machen es wahrscheinlicher, dass dieser Text auf den Bildschirm gerendert wird. Der Wechsel zu einem schlichten Doppelpunkt (A man says: hello) ist die konsistenteste Einzellösung.

Ruiniert das Beschneiden meine Videoqualität? Ein moderater unterer Beschnitt (12–18 %) zoomt leicht hinein, was Clips niedriger Auflösung weicher machen kann. Vermeide Qualitätsverlust, indem du beim Generieren unten Leerraum lässt, oder skaliere nach dem Beschnitt hoch.

Betrifft der Untertitel-Bug auch Veo 3.1 und Veo 3 Fast? Ja, das Verhalten tritt bei dialoglastigen Prompts in allen aktuellen Veo-3-Varianten weiterhin auf. Derselbe Workflow gilt, und das bessere Prompt-Befolgen in 3.1 macht die promptseitigen Fixes zuverlässiger.

Und wenn zwei sprechen – warum spricht die falsche Figur? Veo 3 kann Dialog falsch zuordnen, wenn Sprecher nicht klar unterschieden sind. Kennzeichne jeden nach Position und Aussehen („die Frau links in der roten Jacke"), halte Zeilen kurz und teile lange Gespräche in separate Clips.


Fazit

Die Auto-Untertitel von Veo 3 sind nervig, aber vorhersehbar – und vorhersehbare Probleme haben wiederholbare Lösungen. Verhindere sie bei der Generierung mit vier kostenlosen Techniken (Doppelpunkt statt Anführungszeichen, Dialog zuerst, eine eingebettete „no subtitles"-Einschränkung und ein gefülltes Negativ-Prompt-Feld) und entferne sie in der Post mit Beschnitt, Overlay, KI-Textentfernung oder einer korrigierten Neugenerierung. Beherrsche diesen zweischichtigen Workflow und du erschließt die beste Funktion von Veo 3 – Figuren, die wirklich sprechen – ohne den verzerrten Text, der einen Clip kaputt aussehen lässt.

Bereit für die Praxis? Erzeuge saubere, untertitelfreie Sprechvideos mit Veo 3 auf veo3ai.io und starte mit der Formel für sauberen Dialog oben.

Ready to create AI videos?
Turn ideas and images into finished videos with the core Veo3 AI tools.

Related Articles

Continue with more blog posts in the same locale.

Browse all posts