- Blog
- Comment supprimer les sous-titres des vidéos Veo 3 : corriger le bug des légendes déformées (2026)
Comment supprimer les sous-titres des vidéos Veo 3 : corriger le bug des légendes déformées (2026)
Veo 3 incruste des sous-titres déformés dans les clips de dialogue. Le playbook 2026 complet : les empêcher à la génération et les supprimer en post-production.
Emma Chen · 16 min read · Jun 25, 2026


Vous avez écrit le prompt Veo 3 parfait. Le personnage est juste, la lumière est cinématographique, la voix sonne humaine — et puis une bande de sous-titres déformés, à moitié mal orthographiés, apparaît incrustée en bas de l'image. Vous n'avez pas demandé de légendes. Vous avez même écrit « no subtitles ». Elles sont apparues quand même.
Si cela vous parle, vous ne faites rien de mal. Le comportement de sous-titrage automatique de Veo 3 est l'un des problèmes les plus signalés du modèle, documenté partout, des fils Reddit jusqu'à la MIT Technology Review. Les légendes sont souvent absurdes, elles sont incrustées dans les pixels (pas une piste que l'on peut désactiver), et s'en débarrasser après coup peut vous coûter des crédits supplémentaires.
Ce guide est le playbook complet et éprouvé pour une vidéo Veo 3 propre, sans sous-titres. Vous apprendrez exactement pourquoi Veo 3 ajoute des sous-titres, quelles techniques de prompt les empêchent dès la génération, et quelles méthodes de post-production les retirent quand la prévention échoue. Chaque prompt ci-dessous est prêt à copier-coller. À la fin, vous aurez un workflow reproductible qui produit des clips de personnages qui parlent, sans aucun texte incrusté.
Pourquoi Veo 3 ajoute des sous-titres que vous n'avez jamais demandés
Pour corriger le bug de façon fiable, il faut comprendre d'où il vient. Ce n'est pas un réglage que vous avez oublié de désactiver — c'est un effet secondaire de la façon dont le modèle a été entraîné.
1. Les données d'entraînement étaient pleines de légendes. Veo 3 a appris à générer de la vidéo et un son synchronisé à partir d'énormes quantités de séquences réelles. Une grande part de ces séquences — actualités, vidéos sociales, tutoriels, scènes de films — comportait déjà des sous-titres incrustés ou du texte à l'écran. Quand le modèle détecte qu'un clip contient de la parole, il a appris à associer la parole à du texte à l'écran. Alors il dessine « obligeamment » des légendes.
2. Les légendes sont incrustées, pas sur une piste séparée. C'est ce qui surprend la plupart des gens. Dans un éditeur vidéo normal, les sous-titres sont un calque activable. Dans un export Veo 3, le texte fait partie de l'image rendue elle-même — les mêmes pixels que le visage de l'acteur et l'arrière-plan. Il n'y a pas de bouton « sous-titres : off » parce qu'il n'y a pas de calque de sous-titres. Voilà pourquoi vous ne pouvez pas simplement les désactiver après l'export.
3. Le texte est souvent déformé. Comme le modèle dessine le texte au lieu de le composer, les légendes sont fréquemment mal orthographiées, répétées ou totalement absurdes. Cela les rend pires que de simples sous-titres — elles font paraître un clip professionnel comme défectueux.
4. Le plus dur à éviter justement quand on a le plus besoin d'un résultat propre. Le bug est déclenché par le dialogue et la voix off. Donc le moment où vous utilisez la fonction phare de Veo 3 — le son natif avec un personnage qui parle vraiment — est celui où le texte indésirable est le plus probable. C'est exactement cette tension que ce guide résout.
Sachant cela, la stratégie est à deux niveaux : empêcher les légendes à la génération grâce à la structure du prompt, et les supprimer en post-production quand une nouvelle génération ne vaut pas les crédits. Commençons par la prévention, car elle est gratuite.
Partie 1 — Empêcher les sous-titres à la génération (la solution gratuite)
Prévenir coûte toujours moins cher que supprimer. Ces quatre techniques se cumulent — utilisez-les toutes ensemble pour le résultat propre le plus fiable. Elles fonctionnent dans l'app Gemini, Google Flow, Google AI Studio et l'API Veo 3.
Technique 1 : utilisez deux-points pour le dialogue, jamais de guillemets
C'est le changement le plus déterminant. La façon dont vous formatez la réplique parlée influe fortement sur l'apparition des légendes.
Quand vous mettez le dialogue entre guillemets ou apostrophes, vous montrez au modèle du texte écrit — et c'est précisément le texte écrit qu'il a tendance à afficher à l'écran. Quand vous utilisez plutôt un simple deux-points, le modèle traite bien plus probablement la ligne comme de l'audio seul.
❌ Déclenche les légendes (guillemets) :
A barista says: "Your latte is ready, enjoy your morning."
✅ Plus propre (deux-points, sans guillemets) :
A barista says: Your latte is ready, enjoy your morning.
Évitez aussi les apostrophes dans la réplique, car elles se comportent comme des guillemets. Si un clip résiste obstinément, écrivez les formes pleines (« do not » au lieu de « don't »).
Technique 2 : placez le dialogue au DÉBUT du prompt
L'ordre dans le prompt compte plus qu'on ne le pense. Plusieurs créateurs ont constaté que placer la voix off ou la réplique au début du prompt — avant la description visuelle — produit nettement moins de sous-titres, et améliore au passage la synchronisation labiale. Un créateur a rapporté dix générations sans sous-titres d'affilée après avoir remonté la parole en tête.
❌ Dialogue enfoui à la fin :
A slow dolly-in on a chef in a warm, busy kitchen, golden hour light through
the window, shallow depth of field. The chef looks up and says: Tonight we cook
something special.
✅ Dialogue d'abord :
The chef says: Tonight we cook something special.
Visual: a slow dolly-in on a chef in a warm, busy kitchen, golden hour light
through the window, shallow depth of field.
Technique 3 : ajoutez une consigne « no subtitles » explicite juste après le dialogue
Les consignes négatives aident — mais le placement compte. Ajoutez la contrainte juste après la réplique parlée, pas tout à la fin d'un long paragraphe où le modèle peut la négliger.
The guide says: Follow me to the overlook. (no subtitles, no captions, no on-screen text)
Formulations qui marchent bien, à peu près par ordre de force :
(no subtitles)no captions, no subtitles, no text overlayclean frame, no words on screen, no burned-in textDo not add any subtitles or captions.
Technique 4 : remplissez le champ de prompt négatif
Si vous générez dans Google Flow, Google AI Studio ou via l'API Veo 3, vous disposez d'un champ negative prompt dédié. Utilisez-le. Il est distinct des contraintes de votre prompt principal et donne au modèle un second signal, plus clair.
Prompt négatif (à copier-coller) :
subtitles, captions, closed captions, on-screen text, text overlay, watermark,
words on screen, lower-third text, burned-in text, sign language overlay
Pour mieux comprendre comment le champ de prompt négatif fonctionne selon les cas, voyez notre guide des prompts négatifs Veo 3, qui couvre la syntaxe complète et les autres artefacts (doigts en trop, logos déformés, scintillement) que l'on supprime de la même façon.
La formule combinée « dialogue propre »
Réunissez les quatre techniques et vous obtenez un modèle qui produit des clips parlés sans sous-titres avec un fort taux de réussite :
[SPEAKER] says: [réplique, texte brut, sans guillemets ni apostrophes].
(no subtitles, no captions, no on-screen text)
Visual: [sujet + action], [décor], [lumière], [mouvement de caméra], [objectif/profondeur de champ].
Audio: [son d'ambiance], [ton de voix], natural delivery.
Negative prompt: subtitles, captions, on-screen text, text overlay, watermark, words on screen
Cette même structure alimente des formats publicitaires à forte conversion — si c'est votre cas, associez-la à notre workflow de générateur de pubs UGC Veo 3 et au guide du son natif Veo 3, plus large, pour le dialogue, les effets sonores et la synchronisation labiale.
Partie 2 — Supprimer les sous-titres en post-production (quand la prévention échoue)
La prévention n'est pas fiable à 100 %. Certains clips reviennent quand même avec des légendes, surtout les longues répliques ou les scènes à deux interlocuteurs. Comme le texte est incrusté, vous avez maintenant un problème de pixels, pas de texte. Voici les quatre méthodes de suppression, de la moins à la plus destructrice.
Méthode 1 : rogner la bande inférieure
Les légendes automatiques de Veo 3 se trouvent presque toujours dans le tiers inférieur de l'image. La solution la plus rapide est de rogner cette bande.
- Dans n'importe quel éditeur (CapCut, Premiere, DaVinci Resolve, même l'app Photos), coupez les 12 à 18 % inférieurs de l'image.
- Recadrez pour que votre sujet reste centré.
Compromis : vous perdez une partie de l'image et zoomez légèrement, ce qui peut adoucir un clip 720p/1080p. C'est idéal pour le format vertical 9:16. Anticipez en composant avec de l'espace en bas lors de la génération, pour qu'un rognage ne coûte rien d'important.
Méthode 2 : masquer avec un bandeau ou du b-roll
Au lieu de supprimer, cachez les légendes.
- Posez par-dessus la bande inférieure votre propre bandeau (lower-third), barre de marque ou bloc de sous-titres correctement orthographié.
- Ou superposez quelques secondes de b-roll en incrustation.
Ainsi le bug devient un choix de design et c'est la voie la plus rapide pour les vidéos sociales qui allaient de toute façon avoir une barre de sous-titres. Ajoutez vos vrais sous-titres, bien orthographiés, par-dessus.
Méthode 3 : suppression de texte / objet par IA
Plusieurs outils peuvent effacer le texte incrusté en reconstruisant les pixels en dessous : fonctions dédiées de suppression d'objets vidéo par IA, outils d'inpainting et utilitaires « remove text from video ». Le résultat dépend de la complexité du fond — un mur uni se nettoie bien, un fond mobile et détaillé peut baver. Vérifiez toujours quelques images avant un export complet.
Compromis : les meilleurs outils sont payants, et traiter un fond détaillé reste imparfait. Réservez cela aux plans héros où un rognage ruinerait la composition.
Méthode 4 : relancer la génération (dernier recours)
Si un clip est crucial et que la post-production ne peut pas le sauver, régénérez-le — mais seulement après avoir appliqué les quatre techniques de prévention de la Partie 1. Relancer avec le même prompt défectueux ne fait que brûler des crédits pour le même résultat. Ce qui change vraiment l'issue, c'est une version avec deux-points, dialogue d'abord et prompt négatif.
Pour rendre les relances moins chères, testez d'abord sur un palier moins coûteux, puis montez en gamme. Notre guide d'accès gratuit à Veo 3 et notre analyse des tarifs Veo 3 expliquent comment tester des prompts sans brûler de crédits premium.
Tableau de décision pour la suppression
| Situation | Meilleure méthode | Pourquoi |
|---|---|---|
| Clip social vertical, légendes en bas | Rogner la bande inférieure | Rapide, gratuit, naturel en 9:16 |
| La vidéo allait avoir des sous-titres de toute façon | Masquer avec votre propre bandeau | Transforme le bug en fonctionnalité |
| Plan héros cinématographique, toute l'image compte | Suppression de texte par IA | Préserve la composition |
| Clip critique, la post ne peut rien | Relancer avec prompt corrigé | Ne marche qu'avec un prompt corrigé |
Partie 3 — Scènes à deux interlocuteurs : le cas le plus difficile
Les clips à un seul interlocuteur se résolvent en général avec la Partie 1. Les conversations entre deux personnages sont plus dures — Veo 3 peut sous-titrer les deux répliques, et attribue parfois le dialogue à la mauvaise bouche.
Deux choses aident :
1. Désignez l'interlocuteur par sa position et son apparence, pas seulement par son nom. Le modèle ne sait pas qui est « Anna », mais il peut suivre « la femme à gauche en veste rouge ».
The woman on the left in the red jacket says: Did you finish the report?
The man on the right in the grey shirt says: Almost, give me ten minutes.
(no subtitles, no captions, no on-screen text)
2. Gardez chaque réplique courte. Le long dialogue est le plus grand déclencheur de légendes. Découpez une conversation en plusieurs clips courts — un échange chacun — et assemblez-les dans votre éditeur. Des répliques plus courtes améliorent aussi la synchronisation labiale.
Si vous construisez des scènes multi-plans avec les mêmes personnages, le vrai défi devient de garder visages et tenues cohérents. Notre guide de cohérence des personnages Veo 3 couvre les techniques d'image de référence et de seed, et les prompts d'interview de rue Veo 3 montrent le format dialogué en action.
Partie 4 — Veo 3.1 corrige-t-il le bug des sous-titres ?
Veo 3.1 a amélioré beaucoup de choses — meilleur suivi des prompts, verrouillage des personnages plus fort, audio plus propre — mais le comportement de sous-titrage automatique apparaît toujours sur les prompts riches en dialogue. La même pile de prévention s'applique. Mieux : le meilleur suivi des instructions de la 3.1 fait que les techniques deux-points et dialogue-d'abord prennent plus fiablement qu'avec le Veo 3 d'origine.
Un mot sur la cause profonde : c'est vraiment difficile à éliminer totalement pour Google. Comme le comportement est ancré dans les données d'entraînement, une vraie correction implique de réétiqueter ou filtrer les séquences porteuses de légendes et de réentraîner — un travail lent et coûteux. Traduction : n'attendez pas un interrupteur officiel. Le workflow de prompt et de post-production de ce guide est la solution pratique d'aujourd'hui, et il continuera de fonctionner sur Veo 3, Veo 3 Fast et Veo 3.1.
Pour tout ce qui est nouveau dans la dernière version, voyez notre guide des nouvelles fonctionnalités de Veo 3.1. Et si votre dialogue fait partie d'un pipeline image-to-video plus large, le guide image-to-video Veo 3 explique comment les images de référence interagissent avec le son natif.
Cinq erreurs fréquentes qui ramènent les sous-titres
Même ceux qui connaissent les techniques sabotent leurs propres clips. Voici les schémas qui réintroduisent discrètement les légendes, et comment briser chacun.
Erreur 1 : garder les guillemets « juste cette fois ». Il est naturel d'écrire le dialogue entre guillemets — c'est l'allure d'un scénario. Mais les guillemets sont le plus puissant déclencheur de texte à l'écran. Habituez-vous à écrire la forme avec deux-points à chaque fois, même pour un test rapide.
Erreur 2 : écrire un paragraphe de dialogue. Plus la réplique est longue, plus le risque de légendes est élevé et plus la synchro labiale se dégrade. Limitez chaque réplique à environ une phrase courte (8 à 12 mots) par clip et laissez le montage gérer le fil de la conversation. Cela vous maintient aussi dans la durée naturelle de 8 secondes de Veo 3.
Erreur 3 : mettre la contrainte seulement tout à la fin. Un « no subtitles » accroché à la fin d'un prompt de 90 mots rivalise avec tout le reste pour l'attention du modèle et perd souvent. Placez la contrainte juste après la ligne de dialogue et appuyez-la avec le champ de prompt négatif.
Erreur 4 : composer bord à bord, sans espace en bas. Si vous collez votre sujet au bas de l'écran et que des légendes apparaissent quand même, vous n'avez plus de marge pour les rogner sans couper votre sujet. Laissez toujours un peu d'espace vide en bas lors de la génération de clips de dialogue.
Erreur 5 : relancer exactement le même prompt. C'est l'erreur la plus coûteuse car elle brûle des crédits sans changement. La génération est probabiliste, donc un prompt identique reviendra parfois propre — mais c'est un pari, pas une correction. Changez toujours le prompt (deux-points, dialogue d'abord, contrainte, champ négatif) avant de dépenser des crédits sur une nouvelle génération.
Évitez ces cinq erreurs et votre taux de sortie propre passe de « parfois » à « presque toujours ». Pour un regard plus poussé sur la façon dont la structure du prompt pilote toute génération Veo 3, voyez notre guide d'ingénierie de prompts Veo 3.
Un workflow complet de dialogue propre (du début à la fin)
- Écrivez d'abord la réplique parlée, en texte brut — sans guillemets ni apostrophes.
- Formatez avec deux-points :
[Speaker] says: [réplique]. - Ajoutez la contrainte juste après :
(no subtitles, no captions, no on-screen text). - Ajoutez le bloc visuel en dessous : sujet, action, décor, lumière, caméra, objectif.
- Remplissez le champ de prompt négatif avec la liste de blocage des légendes.
- Composez avec de l'espace en bas pour qu'un rognage soit indolore.
- Générez d'abord sur un palier moins cher pour confirmer que le prompt est propre.
- Inspectez le tiers inférieur du résultat. Propre ? Montez en gamme. Des légendes ? Appliquez une méthode de suppression de la Partie 2 ou relancez avec le prompt corrigé.
- Ajoutez en post vos propres sous-titres correctement orthographiés, si vous en voulez — vous contrôlez maintenant le texte.
Suivez cela et le bug des sous-titres cesse d'être un casse-tête récurrent pour devenir une case que vous cochez une fois par clip.
Foire aux questions
Pourquoi Veo 3 ajoute-t-il des sous-titres alors que j'ai clairement écrit « no subtitles » ? Parce que le comportement vient des données d'entraînement, pas d'une seule consigne que le modèle suit de façon fiable. Un « no subtitles » isolé à la fin d'un long prompt est souvent négligé. Vous obtenez de bien meilleurs résultats en utilisant aussi deux-points au lieu de guillemets, en plaçant le dialogue d'abord et en remplissant le champ de prompt négatif. Cumulez les techniques — aucune n'est infaillible seule.
Puis-je simplement désactiver les sous-titres dans les réglages ? Non. Les sous-titres Veo 3 sont incrustés dans les pixels, pas sur une piste séparée, donc il n'y a pas d'interrupteur. Vos seules options sont de les empêcher à la génération ou de les supprimer en post.
Les guillemets provoquent-ils vraiment des sous-titres ?
En pratique, oui — les guillemets et apostrophes autour du dialogue rendent plus probable l'affichage de ce texte à l'écran. Passer à un simple deux-points (A man says: hello) est la solution unique la plus constante.
Le rognage va-t-il ruiner la qualité de ma vidéo ? Un rognage modéré en bas (12 à 18 %) zoome légèrement, ce qui peut adoucir les clips de basse résolution. Évitez la perte de qualité en laissant de l'espace en bas lors de la génération, ou faites un upscale après le rognage.
Le bug des sous-titres touche-t-il aussi Veo 3.1 et Veo 3 Fast ? Oui, le comportement apparaît encore sur les prompts riches en dialogue dans toutes les variantes actuelles de Veo 3. Le même workflow s'applique, et le meilleur suivi des prompts de la 3.1 rend les correctifs côté prompt plus fiables.
Et quand deux personnes parlent — pourquoi le mauvais personnage parle-t-il ? Veo 3 peut mal attribuer le dialogue quand les interlocuteurs ne sont pas clairement distingués. Désignez chacun par sa position et son apparence (« la femme à gauche en veste rouge »), gardez les répliques courtes et découpez les longues conversations en clips séparés.
En résumé
Les sous-titres automatiques de Veo 3 sont agaçants, mais prévisibles — et les problèmes prévisibles ont des solutions reproductibles. Empêchez-les à la génération avec quatre techniques gratuites (deux-points au lieu de guillemets, dialogue d'abord, contrainte « no subtitles » intégrée et champ de prompt négatif rempli), et supprimez-les en post avec un rognage, une incrustation, une suppression de texte par IA ou une relance corrigée. Maîtrisez ce workflow à deux niveaux et vous débloquez la meilleure fonction de Veo 3 — des personnages qui parlent vraiment — sans le texte déformé qui fait paraître un clip défectueux.
Prêt à passer à la pratique ? Générez des vidéos parlées propres, sans sous-titres, avec Veo 3 sur veo3ai.io et commencez par la formule de dialogue propre ci-dessus.
Related Articles
Continue with more blog posts in the same locale.

Générateur de B-roll Veo 3 : créer des plans de coupe cinématographiques avec l'IA (2026)
Utilisez Veo 3 comme générateur de B-roll : prompts pour plans de coupe cinématographiques, raccords assortis, pack par lots et liste de contrôle qualité.
Read article
Dialogue Veo 3 : comment faire parler deux personnages dans une scène (2026)
Mettez en scène des dialogues réalistes à deux personnages dans Veo 3 : structure du prompt, voix distinctes, tour de parole, synchro labiale et exemple complet.
Read article
Générateur de vidéo IA en masse : créer des vidéos Veo 3 par lots et à l'échelle (2026)
Comment utiliser un flux de générateur de vidéo IA en masse pour créer par lots des dizaines de vidéos Veo 3 cohérentes — prompts maîtres, feuilles de variables, contrôle de seed, playbooks, maîtrise des coûts et QA.
Read article