Veo 3 動画から字幕を消す方法：文字化けキャプションのバグを直す（2026年版）

Veo 3 はセリフのクリップに文字化けした字幕を焼き込みます。生成時に防ぎ後処理で消す、2026年版の完全マニュアル。

Emma Chen · 2 min read · Jun 25, 2026

Veo 3 の AI 動画から焼き込まれた字幕・キャプションを消す方法

完璧な Veo 3 プロンプトを書いたはずでした。キャラクターは思い通り、ライティングはシネマティック、声も人間らしい——なのに画面下部に、文字化けして半分スペルの崩れた字幕の帯が焼き込まれて現れます。キャプションなど頼んでいません。むしろ「no subtitles」と書いたのに。それでも出てしまうのです。

心当たりがあっても、あなたが何か間違えているわけではありません。Veo 3 の自動字幕の挙動は、このモデルで最も多く報告されている問題のひとつで、Reddit のスレッドから MIT Technology Review まで広く取り上げられています。キャプションはしばしば意味不明で、ピクセルに焼き込まれており（オフにできるトラックではありません）、後から消すには追加クレジットがかかることもあります。

このガイドは、字幕のないクリーンな Veo 3 動画を作るための、検証済みの完全な実践マニュアルです。なぜ Veo 3 が字幕を付けるのか、生成時に字幕を防ぐプロンプト技術、そして防げなかったときに後処理で消す方法を、正確に学べます。以下のプロンプトはすべてコピペ可能です。読み終える頃には、焼き込み文字ゼロで「話すキャラクター」のクリップを作れる、再現性のあるワークフローが手に入ります。

なぜ Veo 3 は頼んでもいない字幕を付けるのか

バグを確実に直すには、その出どころを理解する必要があります。これは消し忘れた設定ではなく、モデルの学習のされ方による副作用です。

1. 学習データがキャプションだらけだった。 Veo 3 は、膨大な実写映像から動画と同期音声を生成することを学びました。その素材の多く——ニュース、SNS 動画、チュートリアル、映画のシーン——には、すでに字幕や画面上のキャプションが焼き込まれていました。モデルはクリップに音声（発話）が含まれると判断すると、発話を画面上の文字と結びつけるよう学習しています。だから「親切に」キャプションを描いてしまうのです。

2. キャプションは焼き込みであり、別トラックではない。 ここが多くの人の意表を突きます。通常の動画エディタでは字幕は切り替え可能なレイヤーです。しかし Veo 3 の書き出しでは、文字はレンダリングされた画像そのものの一部——俳優の顔や背景と同じピクセルです。「字幕：オフ」のボタンがないのは、字幕レイヤーが存在しないからです。だから書き出し後に単純に無効化できません。

3. 文字はしばしば崩れている。 モデルは文字を組版するのではなく描いているため、キャプションは誤字、重複、まったくの意味不明になりがちです。これは普通の字幕より厄介で、プロ仕様のクリップを壊れて見せてしまいます。

4. クリーンな結果が最も欲しいときほど避けにくい。 このバグはセリフとナレーションによって引き起こされます。つまり、Veo 3 の看板機能——キャラクターが実際に話すネイティブ音声——を使う瞬間こそ、不要な文字が最も出やすいのです。本ガイドはまさにこの矛盾を解決します。

これを踏まえると、戦略は二段構えです。プロンプト構造で生成時にキャプションを防ぎ、再生成がクレジットに見合わないときは後処理で消す。無料なので、まずは予防から始めましょう。

パート1 — 生成時に字幕を防ぐ（無料の対策）

予防は常に削除より安上がりです。次の4つの技術は重ねて使えます——最も信頼できるクリーンな結果のために、すべて併用してください。Gemini アプリ、Google Flow、Google AI Studio、Veo 3 API で機能します。

技術1：セリフには引用符ではなくコロンを使う

これが単独で最も効果の大きい変更です。話すセリフをどう書式化するかが、キャプションの出現に大きく影響します。

セリフを引用符やアポストロフィで囲むと、モデルには書かれた文字を見せることになります——そして書かれた文字こそ、モデルが画面に描き出しがちなものです。代わりに素のコロンを使うと、モデルはその行を音声のみとして扱う可能性がはるかに高くなります。

❌ キャプションを誘発（引用符）：

A barista says: "Your latte is ready, enjoy your morning."

✅ よりクリーン（コロン、引用符なし）：

A barista says: Your latte is ready, enjoy your morning.

セリフ内のアポストロフィも引用符のように振る舞うので避けましょう。クリップが頑固に反抗するなら、短縮形を展開してください（「don't」ではなく「do not」）。

技術2：セリフをプロンプトの「冒頭」に置く

プロンプトの順序は、多くの人の予想以上に効きます。ナレーションやセリフをプロンプトの冒頭に——映像の説明より前に——置くと、字幕が目に見えて減り、おまけにリップシンクも良くなる、と複数のクリエイターが報告しています。あるクリエイターは、発話を先頭に移したら字幕なしの生成が10連続で出た、と報告しています。

❌ セリフが末尾に埋もれている：

A slow dolly-in on a chef in a warm, busy kitchen, golden hour light through
the window, shallow depth of field. The chef looks up and says: Tonight we cook
something special.

✅ セリフを先に：

The chef says: Tonight we cook something special.
Visual: a slow dolly-in on a chef in a warm, busy kitchen, golden hour light
through the window, shallow depth of field.

技術3：セリフの直後に明示的な「no subtitles」を加える

否定指示は効果がありますが、配置が重要です。制約は長い段落の末尾ではなく、セリフの直後に付けてください。末尾だとモデルに軽視されることがあります。

The guide says: Follow me to the overlook. (no subtitles, no captions, no on-screen text)

よく効く言い回し（おおよそ強い順）：

(no subtitles)
no captions, no subtitles, no text overlay
clean frame, no words on screen, no burned-in text
Do not add any subtitles or captions.

技術4：ネガティブプロンプト欄を埋める

Google Flow、Google AI Studio、または Veo 3 API で生成しているなら、専用のネガティブプロンプト欄があります。これを使いましょう。メインのプロンプト内の制約とは別物で、モデルにより明確な2つ目のシグナルを与えます。

ネガティブプロンプト（コピペ用）：

subtitles, captions, closed captions, on-screen text, text overlay, watermark,
words on screen, lower-third text, burned-in text, sign language overlay

ネガティブプロンプト欄がさまざまな場面でどう働くかは、Veo 3 ネガティブプロンプトガイドで詳しく解説しています。完全な構文と、同じ手法で抑えられる他のアーティファクト（指の増加、歪んだロゴ、ちらつき）も網羅しています。

統合版「クリーンなセリフ」フォーミュラ

4つの技術をすべて組み合わせると、字幕なしの会話クリップを高い成功率で生み出すテンプレートになります。

[SPEAKER] says: [セリフ、プレーンテキスト、引用符・アポストロフィなし].
(no subtitles, no captions, no on-screen text)

Visual: [被写体 + 動作], [舞台], [ライティング], [カメラの動き], [レンズ/被写界深度].
Audio: [環境音], [声のトーン], natural delivery.

Negative prompt: subtitles, captions, on-screen text, text overlay, watermark, words on screen

同じ構造はコンバージョン率の高い広告フォーマットの土台にもなります——その用途なら、Veo 3 UGC 広告ジェネレーターのワークフロー、そしてセリフ・効果音・リップシンクを扱うより広範なVeo 3 ネイティブ音声プロンプトガイドと組み合わせてください。

パート2 — 後処理で字幕を消す（予防が失敗したとき）

予防は100%ではありません。特に長いセリフや二人が話すシーンでは、キャプション付きで返ってくるクリップもあります。文字は焼き込まれているので、これはもう文字の問題ではなくピクセルの問題です。破壊の少ない順に4つの削除方法を挙げます。

方法1：下部の帯をトリミングする

Veo 3 の自動キャプションは、ほぼ必ず画面の下3分の1にあります。最速の対処は、その帯を切り落とすことです。

任意のエディタ（CapCut、Premiere、DaVinci Resolve、写真アプリでも）で、画面下部の12〜18%を切り取ります。
被写体が中央に残るようにフレーミングし直します。

トレードオフ： 画の一部を失い、わずかにズームインするため、720p/1080p のクリップが甘くなることがあります。縦型 9:16 のコンテンツに最適です。生成時に下部に余白を持たせて構図を取っておけば、トリミングで大事なものを失いません。

方法2：ロワーサードや B ロールで覆う

削除する代わりに、キャプションを隠します。

下部の帯の上に、自分で作った（正しいスペルの）字幕ボックス、ブランドバー、ロワーサードを重ねます。
あるいは数秒の B ロールをピクチャーインピクチャーの帯として重ねます。

これでバグはデザイン上の選択に変わり、もともと字幕バーを入れる予定だった SNS 動画には最速の手段です。その上に、正しく綴った本物の字幕を載せましょう。

方法3：AI による文字／オブジェクト除去

焼き込まれた文字の背後のピクセルを再構築して塗りつぶせるツールがいくつかあります：専用の AI 動画オブジェクト除去機能、インペイントツール、「remove text from video」系ユーティリティなど。結果は背景の複雑さ次第です——無地の壁はきれいに消えますが、動きのある詳細な背景はにじむことがあります。フル書き出しの前に必ず数フレームを確認してください。

トレードオフ： 最良のツールは有料で、詳細な背景の処理は不完全です。トリミングでは構図が台無しになるヒーローショットに限って使いましょう。

方法4：生成をやり直す（最後の手段）

クリップが重要で後処理でも救えないなら再生成します——ただしパート1の4つの予防技術をすべて適用した後に限ります。同じ欠陥プロンプトで再生成しても、同じ結果のためにクレジットを燃やすだけです。結果を実際に変えるのは、コロン書式・セリフ冒頭・ネガティブプロンプトを備えた版です。

再生成を安く済ませるには、まず低コストのプランで試し、それから上位へスケールします。Veo 3 無料アクセスガイドとVeo 3 料金の内訳で、プレミアムクレジットを燃やさずにプロンプトを試す方法を解説しています。

削除方法の判断表

状況	最適な方法	理由
縦型 SNS クリップ、字幕が下部	下部の帯をトリミング	速い・無料・9:16 に自然
もともと字幕を入れる予定だった	自作ロワーサードで覆う	バグを機能に変える
シネマティックなヒーローショット、画全体が重要	AI 文字除去	構図を保てる
最重要クリップ、後処理で直せない	修正プロンプトで再生成	修正プロンプトでのみ有効

パート3 — 二人が話すシーン：最難関のケース

一人だけのクリップは通常パート1で解決できます。二人のキャラクターの会話はより難しく——Veo 3 は両方のセリフに字幕を付けることがあり、ときにセリフを別人の口に割り当てます。

役立つのは2点です。

1. 話者を名前だけでなく、位置と見た目で指定する。 モデルは「アンナ」が誰かを知りませんが、「左の赤いジャケットの女性」なら追えます。

The woman on the left in the red jacket says: Did you finish the report?
The man on the right in the grey shirt says: Almost, give me ten minutes.
(no subtitles, no captions, no on-screen text)

2. 各セリフを短く保つ。 長いセリフは字幕の最大の誘因です。会話を複数の短いクリップ——1往復ずつ——に分け、エディタでつなぎます。短いセリフはリップシンクの精度も上げます。

同じキャラクターで複数ショットのシーンを作るなら、より大きな課題は顔と衣装の一貫性です。Veo 3 キャラクター一貫性ガイドが参照画像とシードの技術を、Veo 3 街頭インタビュー用プロンプトがセリフ中心のフォーマットの実例を扱っています。

パート4 — Veo 3.1 は字幕バグを直したのか？

Veo 3.1 は多くを改善しました——プロンプト追従の向上、キャラクター固定の強化、よりクリーンな音声——が、自動キャプションの挙動はセリフ中心のプロンプトで依然として現れます。同じ予防スタックが有効です。むしろ、3.1 の指示追従が良くなったことで、コロン書式やセリフ冒頭の技術は元の Veo 3 より確実に効きます。

根本原因について一言：これを完全になくすのは Google にとって本当に難しいことです。挙動が学習データに焼き付いているため、本当の修正はキャプション付き素材の再ラベル付けや除外と再学習を意味します——遅く、コストの高い作業です。要するに、公式トグルを待たないでください。 本ガイドのプロンプトと後処理のワークフローが今日の現実的な解であり、Veo 3、Veo 3 Fast、Veo 3.1 を通じて機能し続けます。

最新版の新機能はVeo 3.1 新機能ガイドをご覧ください。また、セリフがより大きな image-to-video パイプラインの一部なら、Veo 3 image-to-video ガイドが参照フレームとネイティブ音声の相互作用を説明します。

字幕を呼び戻すよくある5つの間違い

技術を知っている人でさえ、自分のクリップを台無しにします。字幕をこっそり復活させてしまうパターンと、その断ち切り方を挙げます。

間違い1：「今回だけ」と引用符を残す。 セリフを引用符で書くのは自然です——脚本はそう見えますから。しかし引用符は画面上の文字を最も強く誘発します。簡単なテストでも、毎回コロン形式を書く習慣をつけましょう。

間違い2：段落ほどの長さのセリフを書く。 セリフが長いほど字幕の確率は上がり、リップシンクは悪化します。各セリフを1クリップあたり短い1文程度（8〜12語）に抑え、会話の流れはエディタに任せましょう。これは Veo 3 の自然な8秒のクリップ長にも収まります。

間違い3：制約を末尾だけに置く。 90語のプロンプトの末尾に付けた「no subtitles」は、他のすべてとモデルの注意を奪い合い、たいてい負けます。制約はセリフ行の直後に置き、ネガティブプロンプト欄で裏づけましょう。

間違い4：下に余白なく端まで構図する。 被写体を画面下端ぎりぎりに置いて字幕が出てしまうと、被写体を切らずに字幕だけを切る余地がありません。セリフのクリップを生成するときは、常に下部に少し余白を残しましょう。

間違い5：まったく同じプロンプトで再生成する。 変更なしにクレジットを燃やすので、最も高くつく間違いです。生成は確率的なので、同一プロンプトでもたまにはクリーンに返ります——が、それは賭けであって修正ではありません。次の生成にクレジットを使う前に、必ずプロンプトを変えましょう（コロン、セリフ冒頭、制約、ネガティブ欄）。

5つすべてを避ければ、クリーンな出力率は「ときどき」から「ほぼ毎回」へ跳ね上がります。プロンプト構造が Veo 3 の生成全体をどう制御するかは、Veo 3 プロンプトエンジニアリングガイドで深掘りしています。

クリーンなセリフの完全ワークフロー（最初から最後まで）

まずセリフを書く——プレーンテキストで、引用符もアポストロフィもなし。
コロンで書式化： [Speaker] says: [セリフ].
直後に制約を付ける： (no subtitles, no captions, no on-screen text)。
その下に映像ブロックを追加： 被写体、動作、舞台、ライティング、カメラ、レンズ。
ネガティブプロンプト欄を埋める——キャプションのブロックリストで。
下部に余白を持たせて構図——トリミングが痛くないように。
まず低コストのプランで生成——プロンプトがクリーンか確認するため。
結果の下3分の1を点検。 クリーンなら上位へスケール。字幕があればパート2の削除方法を適用するか、修正プロンプトで再生成。
必要なら後処理で自作の正しい字幕を追加——これで文字を自分で制御できます。

これに従えば、字幕バグは繰り返す頭痛の種ではなく、クリップごとに一度チェックを入れるだけの項目になります。

よくある質問

「no subtitles」とはっきり書いたのに、なぜ Veo 3 は字幕を付けるのですか？ 挙動が学習データ由来で、モデルが確実に従う単一の指示ではないからです。長いプロンプトの末尾に置いた単独の「no subtitles」はしばしば軽視されます。コロン（引用符ではなく）も使い、セリフを冒頭に置き、ネガティブプロンプト欄も埋めると、はるかに良い結果になります。技術を重ねましょう——単独で万能なものはありません。

設定で字幕をオフにできないのですか？ できません。Veo 3 の字幕は別トラックではなくピクセルに焼き込まれているので、トグルはありません。選択肢は、生成時に防ぐか、後処理で消すかだけです。

引用符は本当に字幕を引き起こしますか？ 実際にはイエスです——セリフを囲む引用符やアポストロフィは、その文字が画面に描かれる可能性を高めます。素のコロン（A man says: hello）に切り替えるのが、最も安定した単一の対策です。

トリミングで動画の画質が落ちませんか？ 下部の控えめなトリミング（12〜18%）はわずかにズームインするため、低解像度クリップが甘くなることがあります。生成時に下部に余白を残すか、トリミング後にアップスケールして画質低下を避けましょう。

字幕バグは Veo 3.1 や Veo 3 Fast にも影響しますか？ はい、現行のすべての Veo 3 バリアントで、セリフ中心のプロンプトに挙動が現れます。同じワークフローが有効で、3.1 のプロンプト追従の向上により、プロンプト側の対策はより確実になります。

二人が話すとき——なぜ別のキャラクターが話すのですか？ 話者が明確に区別されていないと、Veo 3 はセリフを誤って割り当てることがあります。各人を位置と見た目で指定し（「左の赤いジャケットの女性」）、セリフを短く保ち、長い会話を別々のクリップに分けましょう。

まとめ

Veo 3 の自動字幕は厄介ですが、予測可能です——そして予測可能な問題には再現可能な解があります。生成時には4つの無料技術（引用符ではなくコロン、セリフ冒頭、埋め込みの「no subtitles」制約、埋めたネガティブプロンプト欄）で防ぎ、後処理ではトリミング、オーバーレイ、AI 文字除去、修正再生成で消します。この二段構えのワークフローを使いこなせば、Veo 3 の最高の機能——本当に話すキャラクター——を、クリップを壊れて見せる文字化けなしで引き出せます。

実践の準備はできましたか？ veo3ai.io で、字幕のないクリーンな会話動画を Veo 3 で生成しましょう。まずは上のクリーンなセリフフォーミュラから始めてください。

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video