Veo 3 対話：1つのシーンで2人のキャラクターを会話させる方法（2026）

Veo 3で2人のキャラクターのリアルな会話を演出：プロンプト構造、別々の声、発話交代、リップシンク、完全な実例。

Emma Chen · 2 min read · Jun 25, 2026

ほとんどのAI動画ツールは、キャラクターの唇を動かすことはできます。しかし、2人の人物に本物の会話をさせることができるものはほとんどありません。セリフを交わし、互いに反応し、別々の声で、言葉にきちんと乗るリップシンクで——です。この機能こそが、Veo 3を単なるジェネレーターではなく、小さな撮影クルーのように感じさせます。そして、最も間違えられやすい機能でもあります。2人のキャラクターの対話は「1人の2倍難しい」のではなく、まったく別のプロンプト技術だからです。

このガイドは、Veo 3で2人のキャラクターが話す場面を演出するための実践マニュアルです。誰がいつ話すかをモデルに理解させるプロンプトの構造、各声を区別して保つ方法、リップシンクを維持する方法、そして1本の8秒クリップで足りないときに長いやり取りをつなぐ方法を扱います。以下はすべてコピーしてすぐ使える形式で、今日すぐ実行できる完全な実例付きです。

これまで1人だけのプロンプトしか書いたことがないなら、まず音声の基礎としてVeo 3ネイティブ音声プロンプトガイドから始め、それからこの「2人」レイヤーに戻ってきてください。

なぜ2人の対話は独立したスキルなのか

1人のキャラクターに話させるとき、Veo 3の仕事は簡単です。1つの顔、1つの声、1つのセリフ。誰が話しているかに曖昧さがないので、リップシンクは固定されます。2人目の話者を加えると、3つの新しい問題が一度に現れます。

帰属（アトリビューション） — モデルは各フレームで、音声がどの顔に属するかを判断しなければなりません。キャラクターの見た目や声が似ていると、Veo 3はセリフを2つの口に塗り広げたり、間違った声を間違った人物に当てたりします。
発話の交代 — 本物の会話にはリズムがあります。Aが話し、Bが反応し、Bが返し、Aが割り込む。Veo 3はこれを自動では得られません。演出なしに2つのセリフを放り込むと、キャラクターが同時に話したり、一方が話す間もう一方が固まったりします。
声の分離 — 同じように聞こえる2つの声は、1人が両方の役を演じているように読まれます。区別された声のアイデンティティこそが、その場面を2人として成立させます。

3つすべての解決策は同じ考え方です——曖昧さを取り除くこと。各キャラクターが誰か、誰がどのセリフを言うか、聞いている間にもう一方が何をするかを、Veo 3に正確に伝えます。このガイドの残りは、それを体系的に行う方法です。

2人の話者のためのプロンプト基本構造

信頼できる2人対話のプロンプトは、次の順で5つのブロックを持ちます。

シーン＋設定 — どこにいるか、雰囲気、照明。
キャラクターAの定義 — 見た目、衣装、声の描写。
キャラクターBの定義 — 見た目、衣装、声（意図的にAと異なる）。
やり取り — 各セリフを名前または固有の視覚タグで帰属させ、セリフの間に反応の間を入れる。
カメラ＋音声 — ショットの種類、画面に誰がいるか、環境音。

骨組みは次の通りです。

Setting: [location], [time of day], [mood/lighting].

Character A — [name]: [distinct appearance + wardrobe]. Voice: [pitch, accent, pace, tone].
Character B — [name]: [clearly different appearance + wardrobe]. Voice: [a contrasting pitch, accent, pace, tone].

The exchange:
[Name A] says, "[short line]." [Name A] [physical reaction/gesture].
[Name B] [reaction while listening], then replies, "[short line]."
[Name A] [final beat], "[short line]."

Camera: [shot type — two-shot / over-the-shoulder / shot-reverse-shot]. Natural lip-sync, distinct voices, clear turn-taking. Ambient: [room tone / background sound].

このテンプレートの成否を分けるルールが2つあります。

すべてのセリフにタグを付ける。 宙に浮いたセリフは決して書かない。必ず [Name] says, "..."。最も多い失敗は、帰属のないセリフです。そうなるとVeo 3は推測し、間違えます。
セリフは短く保つ。 8秒に2人なら、合計でおよそ2〜4の短いセリフであって、各自の長台詞ではありません。簡潔さがリップシンクを締まったまま保ちます。もっと対話が必要なら、クリップに分割します（下記参照）。

プロンプト設計のより深い原則は、Veo 3ベストプロンプトガイドとVeo 3 JSONプロンプトジェネレーターガイドにあり、どちらもこの対話レイヤーとよく合います。

2つの声を区別する

両キャラクターが同じ声に聞こえると、場面は崩れます。少なくとも次の2軸で対比を作ってください。

軸	キャラクターA	キャラクターB
音の高さ	低い、胸声	高め、明るい
速さ	ゆっくり、慎重	速い、歯切れよい
アクセント	標準	地方／外国
トーン	穏やか、温かい	緊張、鋭い
年齢感	年上、しわがれ	若い、エネルギッシュ

波形を描写するのではなく、人物を描写します。「低く均一な声をした50代の疲れた夜勤看護師」と「早口で言葉を途中で切る不安げな20代のインターン」は、最初のセリフの前から、紛れもなく異なる2人として読まれます。声はキャラクター描写に従うので、2人の違いを具体的にするほど、声はより分離します。

実際のVeo 3制作からのヒント——キャラクターが似て見える必要があるとき（兄弟、双子、同じ制服の同僚）は、衣装と声のタグにより強く頼ってください。「赤いスカーフの方」「眼鏡の方」のように。そしてそのタグを対話の演出内で参照し、帰属が顔だけに依存しないようにします。

発話の交代を本物らしく演出する

会話とは反応であり、セリフだけではありません。「2体のロボットが読み上げている」場面と信じられる場面を分けるコツは、反応の間です——もう一方が話している間に、聞き手が何をするかを描く短いフレーズです。

弱い例（反応なし）：

Anna says, "We're out of time." Ben says, "I know."

強い例（反応を演出）：

Anna leans across the table, urgent: "We're out of time."
Ben doesn't look up, jaw tight, then exhales: "I know."

2つ目の版は、音声を結びつける身体的な演技をVeo 3に与えます。聞き手が何かをしている——目をそらす、顎を引き締める、息を吐く——のが、聞いていると読まれ、発話の交代を必然に見せます。1セリフにつき1つの反応を演出すれば、場面はたちまち音声合成のデモらしさを失います。

1クリップか複数か：アプローチを選ぶ

対話シーンの作り方は2通りあり、最初に正しく選べば再生成を大きく減らせます。

アプローチ1 — 8秒のツーショット1本。 両キャラクターが画面に、2〜4の短いセリフ、ワイドまたはツーショットのフレーミング。最適なのは、素早いやり取り、コメディの間、両方の顔を見せたい口論。プロンプトは最も簡単ですが、両者が立て続けに話すとリップシンク精度が落ちます。

アプローチ2 — 複数クリップにわたるショット・リバースショット。 話者Aのセリフをクローズアップまたは肩越しショットで生成し、話者Bの返しを対応する切り返しアングルで生成して、編集でつなぎます。最適なのは、長い会話、感情的な場面、リップシンクを締めたいすべて。これは本物の映画が対話を撮る方法であり、各クリップに話者が1人だけなので、きれいな同期への最も信頼できる道です。

アプローチ2では、クリップ間でキャラクターが同一であり続ける必要があります——これは一貫性の問題なので、このガイドをVeo 3キャラクター一貫性ガイドと組み合わせてください。そして1つのセリフが8秒を超える必要があるなら、Veo 3を8秒以上に延長するガイドが間の引き延ばしを扱います。各切り返しのフレーミングを正確に決めるには、Veo 3カメラ制御プロンプトが対になる記事です。

完全な実例：ダイナーでの対峙

各要素が所定の位置に収まる様子が見えるよう、場面をゼロから組み立てましょう。目標は、2人のキャラクター、緊張したやり取り、きれいな帰属、区別された声です。

ステップ1 — 2人を対比させて定義する

Character A — MARA: late 40s, silver-streaked dark hair, worn leather jacket,
  sitting. Voice: low, steady, slight Southern drawl, speaks slowly.
Character B — DEV: mid 20s, buzzcut, bright yellow hoodie, standing, restless.
  Voice: higher, fast, urban American accent, slightly breathless.

対比がすべての軸に込められていることに注目してください——年齢、髪、衣装の色、姿勢、声の高さ、速さ、アクセント。Veo 3が1つの特徴で揺れても、他が分離を支えます。

ステップ2 — 1クリップ版（ツーショット）

Setting: a near-empty roadside diner at night, warm fluorescent light,
rain streaking the window behind them.

Character A — MARA: late 40s, silver-streaked dark hair, worn leather jacket, seated.
  Voice: low, steady, slight Southern drawl, slow.
Character B — DEV: mid 20s, buzzcut, bright yellow hoodie, standing by the booth, restless.
  Voice: higher, fast, urban American accent, breathless.

The exchange:
Mara stirs her coffee without looking up, calm: "Sit down, Dev."
Dev stays standing, glancing at the door, then snaps: "We don't have time for coffee."
Mara finally meets his eyes, unhurried: "We have exactly enough."

Camera: medium two-shot, both faces visible, shallow depth of field.
Natural lip-sync, distinct voices, clear turn-taking. Ambient: low diner hum, rain on glass.

これは完全で実行可能なプロンプトです。3つのセリフ、各々にタグ、1セリフに1反応、対比する声、環境音を指定。

ステップ3 — より締まった同期のためショット・リバースショットに変換

ツーショットでリップシンクが甘いなら、分割します。1セリフずつ3クリップを生成し、つなぎ合わせます。

CLIP 1 (close on Mara):
[same character + setting block]
Mara stirs her coffee, not looking up, low and calm: "Sit down, Dev."
Camera: close-up on Mara, over Dev's shoulder. Tight lip-sync. Ambient: diner hum, rain.

CLIP 2 (reverse on Dev):
[same character + setting block]
Dev glances at the door, restless, then snaps fast: "We don't have time for coffee."
Camera: reverse close-up on Dev, over Mara's shoulder. Tight lip-sync. Ambient: diner hum, rain.

CLIP 3 (back on Mara):
[same character + setting block]
Mara lifts her eyes to him, unhurried: "We have exactly enough."
Camera: close-up on Mara. Tight lip-sync. Ambient: diner hum, rain.

3クリップをこの順でタイムラインに並べれば、堅固なリップシンクのきれいなカットベースの対話シーンになります——各クリップは同期する口が常に1つだけでした。マーラとデヴがカット間でぶれないよう、キャラクターと設定のブロックは3つのプロンプトすべてで1文字単位で同一に保ってください。

ステップ4 — クリップ間で声を固定する（任意の仕上げ）

クリップ間で声がわずかに変わる場合——複数クリップでよくあるアーティファクト——標準の制作手法があります。ボーカルトラックを書き出し、声ツール（通常はElevenLabsのボイスチェンジャー）にキャラクターごとに固定した1つの声で通し、再同期します。これでマーラはどのカットでもまさにマーラの声になります。これはVeo 3のプロンプトではなく編集側の手順ですが、クライアント案件のために知っておく価値があります。

よくある失敗と修正法

1つのセリフで両キャラの口が動く。 原因：帰属のない対話、またはほぼ同一の描写。修正：セリフに名前のタグを付け、キャラクターをより区別しやすくする。

間違った声が間違ったキャラから出る。 原因：声が似すぎてVeo 3が入れ替える。修正：高さ・アクセント・速さの差を広げ、セリフ内に衣装タグを加える。

同時に話す。 原因：発話の交代が演出されていない。修正：反応の間を加え、セリフの合間に一方が明確に聞いている状態にする。

込み入ったツーショットで同期がずれる。 原因：8秒クリップにセリフが多すぎる。修正：セリフ数を減らすか、ショット・リバースショットに切り替える。

カット間でキャラの見た目が変わる。 原因：プロンプト間でキャラクターブロックが変わった。修正：描写を一字一句コピーするか、参照画像を使う。

両者が速く話すと音声が濁る。 原因：速い同時発話はVeo 3にとって最難ケース。修正：決して同時に話させず、常に間を置いてセリフを順に並べる。

2人対話の実際のユースケース

コントと短尺コメディ — 振り／オチのつながりは、対比する2声の締まったツーショットが最適。
広告・UGCシーン — 客が質問し「友人」が答える形は、最もコンバージョンの高い短尺フォーマットの1つで、Veo 3は俳優なしでこなします。
解説・教育クリップ — 「好奇心旺盛な学習者／辛抱強い専門家」のペアが、堅い題材を見やすくします。
ナラティブ映画のテスト — 監督は実写撮影前に、ショット・リバースショットで場面をプレビズします。
ローカライズ版 — 演出が決まれば、声のアクセントを差し替えて同じ場面を複数市場向けに量産します。

対話が特に「街頭インタビュー」の1問形式なら、それは別の演出です。1人の回答者向けに作られたVeo 3街頭インタビュープロンプトガイドを参照してください（会話ではなく単一回答者向け）。対話まわりの映画的ルックには、Veo 3シネマティックプロンプトとVeo 3ビジュアルスタイルガイドが照明と色調を、声の下の音響レイヤーはVeo 3音声生成ガイドが扱います。

クイックスタート・チェックリスト

2人のシーンを生成する前に確認してください。

[ ] 両キャラクターを対比した見た目と声で定義
[ ] 各セリフに名前または固有の視覚タグ
[ ] 1セリフにつき反応の間を1つ演出
[ ] 8秒クリップに短いセリフは2〜4まで
[ ] ショットの種類を選択（素早いならツーショット、締まった同期ならショット・リバースショット）
[ ] 環境音を指定
[ ] 複数クリップ時はキャラと設定のブロックを同一に

Veo 3で試す

最も早く身につける方法は、ダイナーの例を実行し、次に自分の2人を入れて、声の対比と反応の間が結果をどう変えるかを観察することです。veo3ai.ioでVeo 3を無料で試すことができ、ショット・リバースショットに進む前に、まず単一のツーショットから始められます。プラットフォームがまったく初めてですか？Google Veo 3の使い方ガイドが最初の1クリップを案内し、Veo 3プロンプトガイドが対話を組み立てる土台の基礎を扱います。