Veo 3 街頭インタビュー用プロンプト：音声同期でバズるAIヴォックスポップ動画

Veo 3 でバズるAI街頭インタビューを作成：ヴォックスポップ用プロンプト集、同期音声のためのセリフ構文ルール、ワークフロー、倫理。

Emma Chen · 2 min read · Jun 25, 2026

やらせの街頭インタビューは、Veo 3 を有名にした動画フォーマットです。2025年5月、「記者」が歩道で通行人に話しかけるクリップがバズりましたが、その理由はまさに、それが生成物だと誰も見抜けなかったからです。セリフも、口の動きも、気まずい笑いも、背景の交通音も、すべてが合成であり、たった一つのテキストプロンプトから作られていました。それ以来、「街の人」ヴォックスポップ・クリップは TikTok・Reels・Shorts で最も成果の高いフォーマットの一つになり、説得力のあるものはほぼすべて Veo 3 で作られています。

理由は単純です。街頭インタビューは90%が音声だからです。トーキングヘッドが成立するのは、声が唇と同期し、トーンが顔に合い、環境音がその人物を本物の街に置いているときだけです。多くのAIツールは無音の映像を出力するため、ナレーションを録音し、街の効果音を探し、すべてをフレーム単位で合わせる必要があります。Veo 3 は映像と同じ生成パスでネイティブの同期音声を生成するため、まさにこのフォーマットを支配しています。本ガイドでは、機能するプロンプト構造、コピーして使える街頭インタビュー用プロンプト集、音声の崩れを防ぐセリフ構文ルール、そして数分でクリップを公開するワークフローを紹介します。

クイックアンサー： Veo 3 の街頭インタビュー用プロンプトとは、インタビュアー、インタビューされる人物、ロケーション、そして正確な発話セリフを定義するテキスト記述です。セリフは引用符ではなくコロンで導入し、各セリフは約5〜8秒の発話に収めます。例：「夕暮れ時、ニューヨークの賑やかな歩道での手持ちヴォックスポップ。デニムジャケットの若い男性が黒いマイクを持ち、30代前半の笑顔の女性に尋ねる：この街で一番過大評価されているものは何ですか？彼女は笑って答える：正直？ブランチの行列です。環境の交通音、遠くのざわめき、自然光。」 Veo 3 はセリフ・リップシンク・街の環境音を一緒に生成するため、音声編集なしで説得力のあるインタビューが得られます。

これは実践マニュアルです。機能するプロンプトの構造、各ニッチ向けのすぐ使えるプロンプト集、カメラと構図の設定、最も多い失敗とその修正、実際のユースケース、そして公開前に押さえるべき倫理を解説します。

なぜ Veo 3 が街頭インタビュー・フォーマットを支配するのか

Veo 3 の三つの機能がこのフォーマットを可能にしており、どれか一つを欠いても幻想は崩れます。

ネイティブの同期音声。 Veo 3 は画面内の動きに合わせて、発話・環境音・効果音を一回の生成で合成します。声はこの特定の顔と口の動きに対して生成されるため、リップシンクは吹き替えではなく自然に感じられます。これこそが、説得力あるヴォックスポップと一目で分かる偽物を分ける機能です。音声レイヤーの制御をさらに深く知りたい場合は、Veo 3 ネイティブ音声プロンプトガイドをご覧ください。
マイクロ表情を伴うフォトリアルな人物。 街頭インタビューは微妙な反応で生きています。答える前のコンマ数秒の思考、上がる眉、照れ笑い。Veo 3 はこれらを、視聴者が人物を本物と認識するのに十分なほど説得力をもって描写します。
一貫した手持ちカメラの物理。 わずかに揺れ、フレーミングし直す手持ちの見た目は、このジャンルの視覚的文法の一部です。Veo 3 は普通の言葉で記述されたカメラの動きを理解するため、映像が混沌に崩れることなくドキュメンタリー風の手持ち感を指定できます。

これらが組み合わさることで、一つのプロンプトで完成した公開可能なクリップが得られます。本物のヴォックスポップ撮影——ロケ地、肖像権の同意、マイク、編集者が必要——と比べ、コストと時間は一回の生成に圧縮されます。だからこそクリエイターは、このフォーマットで顔出しなしのインタビュー・チャンネルをまるごと運営しているのです。

街頭インタビュー・プロンプトの構造

信頼できる街頭インタビュー・プロンプトには六つの構成要素があります。この順序で重ねると、的中率が大きく上がります。

ショットタイプとカメラ — ジャンルを視覚的に設定します。手持ちヴォックスポップ、ドキュメンタリー街頭インタビュー、セルフィーアングル、目線の高さのミディアムショットといった表現を使います。これがリアルで少し不完全な見た目を固定します。動きをより制御するには、Veo 3 カメラ制御プロンプトガイドが、Veo 3 が理解するすべてのカメラ用語を分解しています。
ロケーションと時間帯 — 夜の賑やかな東京の交差点、晴れたロサンゼルスのビーチプロムナード、雨のロンドンの目抜き通り。ロケーションが環境音レイヤーを決めるので、具体的に書きます。
インタビュアー — マイクを持つ人物を描写します。年齢、服装、そしてマイクそのもの（小さな局ロゴのついた黒いスポンジ付きマイク）。マイクという小道具が即座に「インタビュー」と読み取らせます。
インタビューされる人物 — 年齢層、服装、態度。1ショットにつき1人が安全な既定値です。群衆や複数の話者は破綻が起きやすいところです。
セリフ — 正確な質問と回答を、それぞれコロンで導入します。これは最も重要な要素で、独自のルールがあります（次のセクション）。
音のベッド — 環境音を明記します：街の交通音、遠くのざわめき、足音、風。Veo 3 は自動で音を加えますが、名前を挙げることでミックスを制御できます。

完成したプロンプトは箇条書きではなく、一つの流れる段落として読めます。Veo 3 は自然言語のシーン記述を最もよく解析します。あらゆる Veo 3 プロンプトの構築理論をすべて知りたい場合は、Veo 3 プロンプトエンジニアリングガイドが併読書です。

セリフ構文：音声の崩れを防ぐルール

街頭インタビュー・クリップが失敗する最大の原因は、セリフの書式ミスです。Veo 3 にはここで明確な好みがあり、それに従うことが、明瞭な発話とAIのもごもごとの分かれ目になります。

発話はコロンで導入し、引用符は決して使わない。 彼女は言う：私は食べ物のためにここに引っ越した。 と書きます。引用符はパーサーを混乱させ、モデルが句読点を読み上げたり行を飛ばしたりする原因になりがちです。
各行を約5〜8秒の発話に収める。 これはおよそ12〜22語です。長すぎると、キャラクターは8秒に収めるため不自然に速く話し、短すぎると末尾に無音やでたらめな音が生じる恐れがあります。
行の前に話者を明記する。 記者が尋ねる： 続けて 女性が答える： とすることで、ターンの交代が明確になり、リップシンクが正しい顔に結びつきます。
実際に言わせたい言葉を書く。 話題を描写する（「彼らは天気について話す」）だけで良い音声を期待してはいけません。暗黙のセリフは曖昧なもごもごを生み、明示的なセリフは明瞭な発話を生みます。
トーンを顔に合わせる。 淡々とした演技が欲しければ、そう指定します：平坦で無関心なトーンで。Veo 3 はプロソディを調整し、それがリアリティを売り込みます。

8秒の生成一回で、一つの質問と一つの回答が無理なく収まります。より長いインタビューには、各Q&Aを個別のクリップとして生成して繋ぎます——Veo 3 で動画を8秒超に延長するガイドで扱うのと同じ手法です。

コピーして使える街頭インタビュー・プロンプト集

以下の各プロンプトは上記の構造で組み立てられており、Veo 3 に貼り付けてすぐ使えます。ロケーション、人物、セリフをあなたのニッチに合わせて入れ替えてください。

1. 定番の都市ヴォックスポップ

夕暮れ時、ニューヨーク市の賑やかな歩道での手持ちドキュメンタリー街頭インタビュー、目線の高さのミディアムショット。デニムジャケットの親しみやすい男性インタビュアーが、小さな局ロゴのついた黒いスポンジ付きマイクを持ち、黄色いコートの30代前半の笑顔の女性に尋ねる：この街で暮らすうえで一番過大評価されているものは？彼女は一瞬考え、笑って答える：正直、ブランチの行列——パンケーキに2時間です。環境の交通音、遠くのざわめき、歩道の足音、自然光。

2. 背景ギャグ付きのコメディ場面

街頭インタビュー風、手持ち、穴ぼこが目立つ通りで、曇りの自然光。記者が局ロゴ付きのマイクを持ち、ハンチング帽の年配男性に言う：地域はこの危険がついに対処されることを願っています——同感ですか？男性はうなずいて答える：この穴ぼこは何年も悪夢でした。背景で、よそ見をした通行人が穴に足を踏み入れ、コミカルな悲鳴とともにつまずく。記者とインタビュー相手は気づかないふりをして会話を続ける。音：二人の会話、大きな転倒音、街の背景音。

3. ニッチな質問（フィットネス／ウェルネス）

ロサンゼルスのビーチプロムナードでの穏やかな夕暮れヴォックスポップ、柔らかく暖かい光、手持ち。スポーツウェアの女性インタビュアーが小さなマイクを持ち、40代の引き締まった男性に尋ねる：より良い健康のために誰もが始められるシンプルな習慣は？彼は微笑んで答える：毎朝5分の深呼吸——一日が始まる前に頭がすっきりします。環境の波の音、軽い風、遠くのカモメ。

4. 自己認識するAIのひねり（バズる掛け）

夜、ネオンに照らされた東京の交差点での手持ち街頭インタビュー。若い女性記者がマイクを持ち、グレーのパーカーの男性に尋ねる：手短に質問——今あなたがAI生成動画の中にいると知っていますか？彼は間を置き、カメラを正面から見つめ、淡々と言う：待って…だから僕のコーヒーは味がしないのか。街のざわめき、遠くの交通音、軽い雨、濡れた路面の反射。

5. 顔出しなしチャンネル向けの変化形（動物）

セルフィーアングルのvlog風、晴れた公園での街頭インタビュー。小さなサングラスをかけたふわふわのゴールデンレトリバーがベンチに座り、画面外のインタビュアーが尋ねる：犬であることの一番いいところは？犬は首をかしげ、陽気で漫画的な声で答える：正直？どの散歩も毎回いちばん最初みたいに感じるんだ。環境の鳥の声、軽いそよ風、遠くの公園のざわめき。

6. ブランド／商品ヴォックスポップ

カフェの前でのドキュメンタリー街頭インタビュー、日中、手持ちのミディアムショット。女性インタビュアーがブランドロゴ入りのマイクを持ち、ビジネスカジュアルの男性に尋ねる：朝の通勤で一つだけ直せるとしたら何ですか？彼はため息をついて答える：入った瞬間に本当に出来上がっているコーヒー——待ち時間なしで。環境の街の交通音、入口から聞こえるエスプレッソマシンのシュー音、足音。

ブランドキャンペーンでは、このフォーマットはVeo 3 UGC広告ジェネレーターガイドで扱うUGC風広告のワークフローにそのまま組み込めます。

veo3ai.io での手順別ワークフロー

上記のどのプロンプトも数分で生成できます。

ジェネレーターを開く。 veo3ai.io のテキスト・トゥ・ビデオ・ジェネレーターにアクセスし、モデルとして Veo 3 を選びます。
プロンプトを貼り付ける。 ライブラリのプロンプトの一つを入れ、ロケーション、人物、セリフをあなたのアイデアに合わせて編集します。
最終版は速度より品質を選ぶ。 高速モードで安くコンセプトを試し、当たりを品質モードで再生成して、きれいなリップシンクとよりシャープなディテールを得ます。
アスペクト比を9:16に設定する ——TikTok・Reels・Shorts 向け。縦フレームはプラットフォームネイティブな見た目の一部です。
まず音声を確認する。 何よりも先に聞きましょう。発話は明瞭で、同期し、もごもごがありませんか？音声が成否を分けます。
小さな調整で再生成する ——行がずれていたら、セリフを短くし、トーンの記述を変え、シーンを簡素化します。たいてい2〜3回の試行で勝ち筋に当たります。
複数のQ&Aを繋ぐ ——30〜60秒のインタビューが欲しければ繋ぎ、編集ソフトで字幕を加えます。

特定の人物やセットの写真から始めたい場合は、イメージ・トゥ・ビデオのワークフローで参照フレームを使ってショットの起点を与え、見た目をより制御できます。

カメラ・構図・リアリズム設定

小さな選択が、説得力あるヴォックスポップと一目で分かる生成物を分けます。

目線の高さ、ミディアムショットで構図を取る。 腰上や胸上は本物のインタビューとして読まれます。極端なクローズアップは口や歯の周りのAIアーティファクトを誇張します。
手持ちで、わずかに不安定に依頼する。 固定された三脚ショットは作り物に見えます。わずかな手持ちの動き、自然なフレーミングし直し を加えて、機動的な感じを売り込みます。
自然光を使う。 ゴールデンアワー、曇りの自然光、ネオンの夜 はいずれも、実際の街の条件に合うため機能します。スタジオ照明の表現は避けます。
1ショットにつき話者は1人。 複数人が同時に話すと音声モデルが混乱します。代わりに、1人ずつのショットの間でカットを入れます。
環境音を名指しする。 遠くの交通音、足音、軽い風 という一節だけでも、クリップを本物の場所に根付かせ、生成される音のリアリティを高めます。

シリーズ全体で同じインタビュアーを保つには、Veo 3 キャラクター一貫性ガイドの手法に頼り、「司会者」が動画ごとに同一に見えるようにします。

よくある失敗とその修正

もごもご、または早口の発話 → セリフ行が長すぎます。8秒に無理なく収まるよう12〜22語に削ります。
モデルが句読点を読み上げる → 引用符を使っています。発話行の前をコロンに切り替えます。
間違った顔に間違った声 → 話者が明記されていません。記者が尋ねる： と 女性が答える： を加え、ターンを明示します。
硬く、作り物めいた見た目 → 三脚やスタジオを描写しています。手持ちの動きと自然光を加えます。
歪んだ口や余分な歯 → 寄りすぎです。ミディアムショットまで引いて再生成します。
無音の終わり → セリフがクリップより先に尽きました。彼女は静かに笑う のような短い反応を加えて末尾を埋めます。
場所のない死んだ音声 → 環境音を名指ししていません。常に短い音のベッドを加えます。

実際のユースケース

顔出しなしのコンテンツ・チャンネル。 ヴォックスポップや「しゃべる動物」インタビュー・チャンネルは、本物の人物を一度も撮らずに再生数を稼ぎます——クリエイターが今スケールさせているASMRとしゃべるペットのトレンドと密接に関連するフォーマットです。
ブランド・商品マーケティング。 模擬の顧客リアクションや街頭風の証言は、特にTikTok広告フォーマットで、安価でエンゲージメントの高いソーシャル広告になります。
教育・解説。 よくある誤解に答える「街の人」は、教育系ショートの導入として速く、引き込みやすい方法です。
コメディ・スケッチ。 背景ギャグ・フォーマット（プロンプト2番）は純粋な娯楽で、プラットフォームをまたいでよく広がります。
コンセプト検証。 マーケターは本格的な撮影に踏み切る前に、インタビュー風の広告アイデアを数分でプロトタイプします。

何を作るかのより広いヒントには、YouTube Shorts アイデア集がこのフォーマットとよく合います。

倫理と開示：公開前にこれを読む

街頭インタビューは本物に見えるからこそ強力であり、まさにそのために責任をもって扱う必要があります。

偽物を本物のニュースや本物の証言として通用させない。 偽情報や偽の推薦を広めるために使われる模擬インタビューは、現実の害を引き起こす可能性があり、プラットフォームのポリシーに違反します。
AIコンテンツを表示する。 多くのプラットフォームは現在、合成メディアの開示を求めています。シンプルな「AI生成」タグや画面上の注記が、規約順守を保ち、信頼を築きます。
SynthID が組み込まれている。 Veo 3 はすべての出力に Google の不可視ウォーターマーク SynthID を埋め込み、プラットフォームがAI生成コンテンツを検出できるようにします。これを破ろうとしてはいけません。
本物の特定可能な人物になりすまさない ——同意なしに、また公人の口に言葉を入れない。
娯楽か教育にとどめる。 このフォーマットはコメディ、マーケティング、解説で輝きます——欺くためではなく、そこで使いましょう。

透明に使えば、AI街頭インタビューは正当で成果の高い創作フォーマットです。欺くために使えば、視聴者とアカウントを失う近道です。

よくある質問

Veo 3 は街頭インタビューに特に向いていますか？ はい——このフォーマットには傑出したツールです。同期したセリフ、リップシンク、街の環境音を一回のパスで生成するからです。無音動画を出力するツールは、重い手作業の音声処理なしに説得力あるヴォックスポップを作れません。

街頭インタビュー・クリップ1本はどのくらいの長さにできますか？ Veo 3 の一回の生成は最大8秒で、これは1つの質問と回答に収まります。より長いインタビューには、各Q&Aを別々に生成して繋ぎ、字幕を加えます。

インタビュー相手がもごもご話したり早口になるのはなぜ？ セリフ行がクリップの長さに対して長すぎます。各行を約12〜22語に保ち、5〜8秒に自然に収まるようにします。

セリフに引用符を使うべきですか？ いいえ。発話はコロンで導入します（彼女は言う：）。引用符はしばしばモデルに句読点を誤読・読み上げさせます。

複数の動画で同じインタビュアーを保てますか？ はい。司会者を毎回同一に描写するか、参照画像とキャラクター一貫性の手法を使い、シリーズ全体で見た目を固定します。

AIだと開示する必要がありますか？ ほとんどのプラットフォームでは、はい——そしていずれにせよそうすべきです。Veo 3 はさらに各クリップに不可視の SynthID ウォーターマークを埋め込みます。

どのアスペクト比を使うべきですか？ TikTok・Reels・Shorts には縦9:16。後で切り抜くのではなく、最初から縦で生成します。

最初の街頭インタビューを作ろう

やらせの街頭インタビューは、AI動画がどこまで来たかを証明したフォーマットであり、今なお再生数を稼ぐ最も信頼できる方法の一つです。レシピは単純です。明瞭な手持ちショット、インタビュアー1人とインタビュー相手1人、環境音のための具体的なロケーション、そしてコロンで導入し8秒未満に保った引き締まったセリフ。これらを重ね、品質モードで生成し、まず音声を確認します。

上記のプロンプトの一つを veo3ai.io の Veo 3 ジェネレーターに貼り付け、質問をあなたのニッチに合わせて変え、今日最初のヴォックスポップを公開しましょう。ただ正直に——AIと表示し、リアリズムを欺きではなく娯楽のために働かせてください。

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video

Continue with more blog posts in the same locale.

Browse all posts

Veo 3 縦型動画（9:16）：TikTok・Reels・Shorts 向けの縦長 AI クリップの作り方

Veo 3 の縦型動画とは、スマホ画面を端から端まで埋め尽くすように生成された 9:16 のポートレート（縦長）クリップのことです。これはまさに TikTok、Instagram Reels、YouTube Shorts のために作られたフォーマットです。しかし Veo 3 はその歴史の大半において、まさにこの一点だけがオンデマンドで実現できません

Read article