Veo 3 キャラクター一貫性ガイド：クリップ間で同じキャラを保つ方法（2026）

Veo 3 のクリップ間でキャラクターが変わるのを防ぐ完全システム。キャラクターバイブルのテンプレート、参照画像、Scene Builder と Frames-to-Video の連結、ブレを止めるプロンプト構造。

Emma Chen · 2 min read · Jun 25, 2026

Veo 3 で素晴らしい8秒のクリップを生成したのに、次のショットで主人公がまったくの別人に変わってしまった——顔が違う、ジャケットが違う、髪型もおかしい——そんな経験があるなら、あなたはすでにAI映像制作で最大の悩みを知っています。「Veo 3 のクリップをまたいで同じキャラクターを保つにはどうすればいいのか」という問いこそ、一発限りのバズ動画と、再現可能なチャンネル・広告キャンペーン・短編映画とを分けるものです。

良い知らせがあります。Veo 3 は見た目よりはるかに制御可能です。キャラクターのブレ（ドリフト）はランダムではなく、説明が不十分なプロンプトと、モデルに内蔵された同一性ツールを使わないことから生じる、予測可能な結果なのです。本ガイドでは、Veo 3 でキャラクターの一貫性を保つための完全で再現可能なシステムを提供します。コピペできる「キャラクターバイブル」テンプレート、参照画像ワークフロー（最大3枚）、Scene Builder と Frames-to-Video によるショットの連結、そしてブレを止めるプロンプト構造です。Veo 3 を別タブで開き、読みながら実践してください。

なぜ Veo 3 のキャラクターはクリップ間でブレるのか

ブレを直すには、まずなぜ起きるのかを理解する必要があります。Veo 3 は、1つのクリップ——通常4秒または8秒——について、すべてのフレームとネイティブ音声を一度の一貫した処理で生成します。そのクリップの中では、モデルは0.5秒前に描いたものを「忘れる」ことがないため、同一性は揺るぎません。問題は2本目のクリップを求めた瞬間に始まります。新しい生成はそのたびにゼロから始まるからです。アンカーがなければ、モデルは「デニムジャケットを着た若い女性」をまったく新しく解釈し直し、その解釈が前回と一致することは決してありません。

ブレには3つの根本原因があり、それぞれに直接的な解決策があります。

曖昧な説明。 「スーツの男性」は1万通りに描けます。モデルはその空白をもっともらしいランダムなディテールで埋め、そのランダム性は生成のたびに変わります。
視覚的アンカーがない。 テキストだけでは特定の顔を固定できません。参照画像も前ショットからの連結フレームもなければ、モデルには照合すべき具体物がありません。
プロンプトの順序が変わる。 Veo 3 はプロンプトの最も早い要素を最も強く重み付けします。あるショットではシーンから、次ではキャラクターから書き始めると、モデルが最初に固定する対象の優先順位を文字どおり変えてしまいます。

この3つを直せば、一貫性はもはや運任せではなくなります。本ガイドの残りは、まさにそれを実現するシステムです。

方法1：キャラクターバイブルを作る（説明の固定）

最初で最も重要なツールは無料で、Veo 3 のどのアクセス経路——Flow、Gemini アプリ、API——でも機能します。それがキャラクターバイブルです。キャラクターを描写した、固定された超詳細なテキストブロックで、そのキャラクターが登場するすべてのプロンプトに、一切変えずに貼り付けます。

多くの人が犯す間違いは、キャラクターを誤った粒度で描写することです。「青いシャツ」ではモデルにブレる自由を与えてしまいます。代わりに、シルエット・素材・状態・特徴的なディテールを指定し、ランダム化の余地をほぼ残さないようにします。以下はコピー用のテンプレートです。各カッコを埋め、ショット間で文言を絶対に変えないでください。

キャラクター — [名前]：
[年齢]歳の[人種/肌の色][男性/女性]。[正確な髪：長さ・色・質感・分け目]、[顔の形]、
[目の色]、[識別できる特徴：そばかす・傷・眼鏡のスタイル]。[衣服：正確な色名・素材・
シルエット・状態、例「色あせたインディゴのデニムトラッカージャケット、ややオーバー
サイズ、襟立て」]を[レイヤー]の上に着用、[アクセサリー：正確な時計・指輪・イヤリング]。
体格：[身長/体型]。デフォルトの表情：[ニュートラル/温かい/真剣]。声：[高さ・訛り・話速]。

バイブルを機能させる2つのルールがあります。第一に、毎回一字一句そのまま貼ること——形容詞の順番を入れ替えただけでもレンダリングがずれます。第二に、シーンや動作より前にキャラクターブロックを先頭に置くこと。Veo 3 は早いトークンを最も強く固定するからです。まず誰から始め、次にどこで何をするかを描写します。プロンプトの順序と重み付けの詳細は、Veo 3 プロンプトエンジニアリングガイドをご覧ください。

プロジェクト全体でバイブルを規律正しく保つ簡単な方法は、構造化データとして保存することです。大規模に生成するなら、JSON プロンプト構造を使えば subject・wardrobe・voice を固定フィールドとしてロックし、ショットごとに action と camera だけを変えられます——同一性ブロックが誤って変わらないことを保証する最もクリーンな方法です。

方法2：参照画像で顔を固定する

テキストは80%まで連れて行ってくれますが、参照画像が、特定の再現可能な顔までの残りを埋めます。Veo 3 の画像条件付けワークフローは、1人の人物・キャラクター・製品について最大3枚の参照画像に対応し、モデルはそれらを使って生成をまたいで見た目を保ちます。これは実在の認識可能な同一性を保つ最も信頼できる方法です。

参照画像をうまく使うには：

清潔でよく照らされた正面ポートレートを主要参照に使います。強い影・サングラス・極端な角度は避けてください。モデルははっきり見えるものしか保てません。
キャラクターが向きを変えたり空間を移動したりする必要があるときは、最大2枚の補助アングル（4分の3と横顔）を加えます。一貫した3枚は、1枚を3回使うより優れています。
参照と説明を一致させます。 バイブルが「短いブロンドのボブ」と言うのに参照が長い茶髪なら、モデルが予測不能に解決する矛盾を生みます。両者を一致させてください。
製品やマスコットにも同じ3枚ルールが当てはまります。対象のクリーンな写真を与え、バイブルで描写します。

静止画を Veo 3 に入力する完全な手順——1枚の写真を動くショットに変えることを含む——が必要なら、Veo 3 参照画像ワークフローとimage-to-video ガイドを組み合わせてください。参照画像と引き締まったバイブルの組み合わせこそ、プロのクリエイターが頼りにするものです。

方法3：同一性が引き継がれるようショットを連結する

上記の方法は、クリップを独立して生成するときにキャラクターを一貫させます。しかし最も強い一貫性は、各新クリップが前クリップの視覚状態を文字どおり継承する連結から生まれます。Veo 3 と Flow インターフェースは3つの連結ツールを提供します。

Scene Builder Extend / Add to Scene。 Flow の Scene Builder 内で、Extend と Add to Scene は既存クリップを継続し、その最終フレームを次の生成の視覚的コンテキストとして使います。モデルが一瞬前のキャラクターの見た目を「見られる」ため、ブレが劇的に減ります。歩く・話す・1つの空間を移動するなど、連続したアクションの定番手法です。クリック手順の全体は8秒を超えて延長するガイドにあります。

Frames-to-Video（最初/最後のフレーム）。 より精密な制御には Frames-to-Video を使います。開始フレーム（必要なら終了フレームも）を与えると、Veo 3 がその間の動きを生成します。あるクリップの最後のクリーンなフレームを書き出し、次のクリップの最初のフレームとして与えれば、キャラクターの正確な見た目（顔・衣服・照明）がほぼゼロのブレで引き継がれます。キャラクターを固定し続けねばならないマルチショットの連続には、最も信頼できる技法です。

ロングフォーム絵コンテワークフロー。 多くのショットを1つの物語に組み立てるときは、生成前にシーケンス全体を計画し、バイブルと連結フレームが最初から最後まで揃うようにします。ロングフォーム絵コンテワークフローでは、60秒や2分にわたって一貫性が保たれるよう複数シーンのプロジェクトを構成する方法を示します。

実用的なルール：視覚的に独立したショット（異なる場所、時間の飛躍）には説明＋参照画像を、連続して感じさせるべきショットには連結を使います。実際のプロジェクトの多くは両方を混ぜます。

方法4：レンズ・照明・シードを安定させる

同一性を固定しても、周囲の世界が変われば、キャラクターは違って感じられることがあります。見落とされがちな2つのレバー：

カメラと照明の言い回しを一定に保つ。 ショット1が「35mmレンズで撮影、左からの柔らかな窓明かり」なら、意図的に変えたい場合を除き、全ショットでその正確な言い回しを保ちます。新しいレンズや光の向きは、肌の色・顔の形の見え方・雰囲気を再レンダリングします。カメラ制御プロンプトガイドをご覧ください。
ツールがシードを公開しているなら再利用する。 固定シードはモデルのランダムな選択を再現可能にし、わずかな調整でプロンプトを再実行しても、新しい人物を引くのではなく同じ基本ルックを保ちます。
ネガティブプロンプトでブレを囲い込む。 「衣服を変えない、キャラクターを老けさせない、新しいアクセサリーを足さない」といった文言は、ブレを生む変動を積極的に抑えます。最も効果的な制約はネガティブプロンプトガイドに列挙しています。

声も一貫させる

視覚的一貫性は戦いの半分にすぎません。Veo 3 はセリフを含むネイティブ音声を生成するため、キャラクターは声でもブレ得ます。一貫した顔にクリップごとに違う声では、没入感が一瞬で壊れます。

声も顔と同じように固定します。固定の声の記述子（「温かみのある中音域の女性の声、軽いイギリス訛り、落ち着いた話速」）をキャラクターバイブルに加え、すべてのプロンプトに貼ります。セリフを書くときは話し方とリズムを一定に保ち、トーンを運任せにせず、表現（「穏やかに、安心させるように」）を描写します。セリフと音の制御の完全なアプローチは、Veo 3 ネイティブ音声プロンプトガイドをご覧ください。

完全なマルチクリップ・ワークフロー（手順）

4つの方法を組み合わせて、一貫したキャラクターで3ショットのシーンを作る流れは次のとおりです。

キャラクターバイブルを書く。 上のテンプレートを超具体的なディテールで埋め、貼り付け元となるテキストファイルに保存します。
参照ポートレートを生成または選ぶ。 キャラクターのクリーンな正面画像を使います。テキストから始めるなら、まず強い設定ショットを1つ生成し、フレームを参照として書き出します。
ショット1 — 設定。 プロンプト順：まずキャラクターバイブル、次にシーン、動作、カメラ、光。生成し、確認し、最もクリーンなテイクを選びます。
ショット2 — 継続。 ショット1の最後のクリーンなフレームを書き出し、Frames-to-Video か Scene Builder Extend で起点として与えます。同一のバイブルを貼り、動作とカメラだけ変えます。生成します。
ショット3 — 新しいアングル。 同じ参照画像とバイブルを再利用し、レンズと光の言い回しを同一に保ち、必要な箇所だけ変えます。衣服と同一性の変化を囲い込むネガティブプロンプトを加えます。
組み立てて確認。 3クリップを並べて顔・衣服・声を確認します。ブレたショットは同じアンカーで再生成します——決してバイブルを書き換えないでください。

このループに従えば、1人のキャラクターを必要なだけのクリップで保てます。同じシステムは広告キャンペーン、顔出しなしチャンネル、短編映画にもスケールします。

1つのシーンに複数のキャラクター

2人以上のキャラクターは、モデルが特徴を入れ替え得るため難度が増します。解決策：

各キャラクターに、明確にラベル付けした別々のバイブル（キャラクターA、キャラクターB）と参照画像を与えます。
空間的位置を描写します（「左の女性、右の男性」）。正しい同一性を正しい身体に割り当てさせるためです。
共有ショットでは両方のバイブルを一字一句保ちます。 一方のキャラクターのディテールをプロンプトから落とすことが、変容させる最速の方法です。
ツーショットは控えめにし、連結に頼ります。 1フレームを共有するキャラクターが増えるほど、モデルが扱うアンカーが増えるからです。

ブレを引き起こすよくある間違い

ショット間でバイブルを編集する。 わずかな文言変更でもルックが再レンダリングされます。固定して貼ってください。
シーンから書き始める。 キャラクターより前に場所や動作を置くと同一性が格下げされます。常にキャラクターを先頭に。
参照とテキストの矛盾。 画像と説明は一致させなければなりません。
レンズや光を不用意に変える。 新しいカメラの言い回しは静かに顔を再レンダリングします。
連結フレームを省く。 連続アクションでは、独立生成は連結より必ず大きくブレます。
声を無視する。 一貫した顔に不一致の声では、やはり幻想が壊れます。

無料で試す

このシステムを身につける最速の方法は、自分で3ショットのテストを行うことです。バイブルを1つ書き、参照画像を1枚固定し、3クリップを連結します。今すぐVeo 3 で生成を開始し、上のワークフローを適用できます。モデルが初めてなら、Veo 3 初心者ガイドから始め、次にimage-to-videoと8秒を超える延長を重ねて、完全なシーンを構築してください。

よくある質問

Veo 3 は複数の動画でまったく同じ顔を保てますか？ はい——最も信頼できる方法は、詳細なキャラクターバイブルと同一人物の参照画像（最大3枚）を組み合わせ、Frames-to-Video か Scene Builder でショットを連結し、各クリップが前クリップの見た目を継承するようにすることです。テキストだけでも近づけますが、参照画像と連結が固定します。

Veo 3 では参照画像を何枚使えますか？ Veo 3 の画像条件付けワークフローは、1人の人物・キャラクター・製品について最大3枚の参照画像に対応します。クリーンな正面ポートレートを主要画像にし、キャラクターが向きを変えたり動いたりする必要があるときに補助アングルを加えます。

なぜキャラクターがクリップ間で変わるのですか？ Veo 3 の各生成はゼロから始まるため、アンカーがなければモデルは説明不足のディテールを作り直します。よくある3原因は、曖昧な説明、視覚的参照の欠如、プロンプト順序の変更です。バイブルを固定し、参照画像を加え、キャラクターを先頭に置いてください。

プロンプトの順序はキャラクターの一貫性に影響しますか？ はい。Veo 3 はプロンプトの最も早い要素を最も強く重み付けするため、シーンや動作より前にキャラクターブロックから始めるほうが、末尾に埋めるより同一性を強く固定します。

キャラクターの声を一貫させるには？ 固定の声の記述子（高さ・訛り・話速）をキャラクターバイブルに加え、すべてのプロンプトに貼り、各セリフの表現を運任せにせず描写します。Veo 3 はネイティブ音声を生成するため、固定しなければ声も顔と同じようにブレます。

1つのシーンで2人のキャラクターを一貫させられますか？ はい。ただし各キャラクターに独自のラベル付きバイブルと参照画像を与え、空間的位置を描写してモデルが特徴を正しく割り当てられるようにし、共有ショットでは両方の説明を一字一句保ちます。ツーショットをゼロから再生成するのではなく、連結に頼ってください。

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video