Промпты Veo 3 для уличных интервью: вирусные ИИ-видео vox-pop с синхронным звуком

Создавайте вирусные ИИ-уличные интервью с Veo 3: библиотека промптов vox-pop, правила синтаксиса диалогов для синхронного звука, полный рабочий процесс и этика.

E

Emma Chen · 13 min read · Jun 25, 2026

Промпты Veo 3 для уличных интервью: вирусные ИИ-видео vox-pop с синхронным звуком

Постановочное уличное интервью — это тот формат, который прославил Veo 3. В мае 2025 года ролик, где «репортёр» останавливает прохожих на городском тротуаре, стал вирусным именно потому, что никто не мог распознать в нём генерацию: реплики, движение губ, неловкий смех и шум транспорта на фоне были полностью синтетическими и созданы из одного текстового промпта. С тех пор клипы в стиле «человек с улицы» превратились в один из самых результативных форматов в TikTok, Reels и Shorts, и почти все убедительные ролики делаются именно в Veo 3.

Причина проста: уличное интервью на 90% состоит из звука. «Говорящая голова» работает только тогда, когда голос синхронизирован с губами, тон соответствует лицу, а фоновый шум помещает человека на реальную улицу. Большинство ИИ-инструментов выдают немое видео, поэтому вам пришлось бы записывать озвучку, искать уличные звуковые эффекты и вручную совмещать всё покадрово. Veo 3 генерирует родной синхронный звук в том же проходе, что и видео, — именно поэтому он доминирует в этом формате. В этом руководстве вы получите рабочую структуру промпта, готовую к копированию библиотеку промптов для уличных интервью, правила синтаксиса диалогов, которые предотвращают «кашу» в речи, и рабочий процесс, позволяющий выпустить ролик за минуты.

Краткий ответ: Промпт Veo 3 для уличного интервью — это текстовое описание, которое задаёт интервьюера, собеседника, локацию и точные произносимые реплики, причём слова вводятся через двоеточие, а не кавычки, и каждая реплика держится в пределах примерно 5–8 секунд речи. Например: «Съёмка с рук, vox-pop на оживлённом тротуаре Нью-Йорка в час заката. Молодой человек в джинсовой куртке держит чёрный микрофон и спрашивает улыбающуюся женщину лет тридцати: Что в вашем городе переоценено сильнее всего? Она смеётся и отвечает: Честно? Очереди на бранч. Фоновый шум транспорта, отдалённые разговоры, естественный дневной свет.» Поскольку Veo 3 создаёт реплики, синхронизацию губ и уличный фон вместе, вы получаете убедительное интервью без какой-либо обработки звука.

Это практический сценарий действий. Вы получите анатомию рабочего промпта, готовую библиотеку под разные ниши, настройки камеры и кадрирования, самые частые ошибки и способы их исправления, реальные сценарии применения и этические правила, которые важно соблюсти перед публикацией.


Почему Veo 3 доминирует в формате уличного интервью

Три возможности Veo 3 делают этот формат возможным, и удаление любой из них разрушает иллюзию:

  • Родной синхронный звук. Veo 3 синтезирует речь, фоновый звук и эффекты под движение в кадре за одну генерацию. Голос создаётся именно под это лицо и эту артикуляцию, поэтому синхронизация губ выглядит естественно, а не как дубляж. Это та самая функция, что отличает убедительный vox-pop от очевидной подделки. Если хотите глубже разобраться в управлении звуковым слоем, посмотрите наше руководство по промптам для родного звука Veo 3.
  • Фотореалистичные люди с микромимикой. Уличные интервью держатся на тонких реакциях — полусекунда раздумий перед ответом, поднятая бровь, смущённый смешок. Veo 3 воспроизводит их достаточно убедительно, чтобы зритель воспринимал человека как настоящего.
  • Связная физика камеры с рук. Слегка трясущийся, перекадрирующийся «ручной» вид — часть визуального языка жанра. Veo 3 понимает движение камеры, описанное обычными словами, поэтому вы можете запросить документальную съёмку с рук без распада картинки в хаос.

Вместе это позволяет одному промпту выдавать готовый к публикации ролик. По сравнению со съёмкой настоящего vox-pop — где нужны локация, согласия на съёмку, микрофон и монтажёр — затраты и время сжимаются до одной генерации. Именно поэтому авторы ведут целые «безликие» каналы интервью на этом формате.


Анатомия промпта для уличного интервью

В каждом надёжном промпте для уличного интервью есть шесть строительных блоков. Выстройте их в этом порядке — и доля удачных результатов резко вырастет.

  1. Тип кадра и камера — задайте жанр визуально. Используйте фразы вроде vox-pop с рук, документальное уличное интервью, ракурс селфи или средний план на уровне глаз. Это закрепляет реалистичный, слегка несовершенный вид. Для более точного контроля движения наше руководство по промптам управления камерой Veo 3 разбирает каждый камерный термин, который понимает Veo 3.
  2. Локация и время сутокоживлённый перекрёсток Токио ночью, солнечная набережная Лос-Анджелеса, дождливая лондонская улица. Локация задаёт слой фонового звука, поэтому будьте конкретны.
  3. Интервьюер — опишите, кто держит микрофон: возраст, одежду и сам микрофон (чёрный микрофон с поролоновой насадкой и маленьким логотипом телеканала). Реквизит-микрофон мгновенно считывается как «интервью».
  4. Собеседник — возрастной диапазон, одежда, манера. Один человек в кадре — безопасный вариант по умолчанию; толпа и несколько говорящих — это там, где всё ломается.
  5. Диалог — точный вопрос и ответ, каждый вводится через двоеточие. Это самый важный блок, и у него свои правила (следующий раздел).
  6. Звуковая подложка — пропишите фон: шум транспорта, отдалённые разговоры, шаги, ветер. Хотя Veo 3 добавляет звук автоматически, называние даёт вам контроль над миксом.

Готовый промпт читается как один связный абзац, а не список пунктов. Veo 3 лучше всего разбирает описания сцены на естественном языке. Если хотите всю теорию построения любого промпта Veo 3, наше руководство по инженерии промптов Veo 3 — сопутствующее чтение.


Синтаксис диалога: правила, предотвращающие «кашу» в речи

Причина номер один провала клипов с уличным интервью — неправильное форматирование диалога. У Veo 3 здесь чёткие предпочтения, и их соблюдение — разница между внятной речью и ИИ-бормотанием.

  • Вводите речь двоеточием, а не кавычками. Пишите Она говорит: Я переехала сюда ради еды. Кавычки сбивают парсер и часто заставляют модель зачитывать знаки препинания вслух или пропускать строку.
  • Держите каждую реплику в пределах примерно 5–8 секунд речи. Это около 12–22 слов. Слишком длинно — и персонаж говорит неестественно быстро, чтобы уложиться в 8 секунд; слишком коротко — и вы получите тишину или бессвязный набор звуков в конце.
  • Помечайте говорящего перед репликой. Репортёр спрашивает:, затем Женщина отвечает: — это сохраняет ясность очерёдности, чтобы синхронизация губ привязалась к нужному лицу.
  • Пишите именно те слова, которые хотите услышать. Не описывайте тему («они говорят о погоде») в надежде на хороший звук. Неявный диалог даёт расплывчатое бормотание; явный диалог даёт чистую речь.
  • Подбирайте тон под лицо. Если нужна невозмутимая подача, скажите об этом: ровным, безразличным тоном. Veo 3 подстроит просодию, и это усиливает реализм.

Одна генерация в 8 секунд комфортно вмещает один вопрос и один ответ. Для более длинного интервью генерируйте каждую пару «вопрос-ответ» отдельным клипом и склеивайте — тот же подход мы описываем в руководстве по удлинению видео Veo 3 сверх 8 секунд.


Готовая библиотека промптов для уличных интервью

Каждый промпт ниже построен по описанной структуре и готов к вставке в Veo 3. Меняйте локацию, персонажей и реплики под свою нишу.

1. Классический городской vox-pop

Документальное уличное интервью с рук на оживлённом тротуаре Нью-Йорка в час заката, средний план на уровне глаз. Дружелюбный интервьюер в джинсовой куртке держит чёрный микрофон с поролоновой насадкой и маленьким логотипом телеканала и спрашивает улыбающуюся женщину около тридцати в жёлтом пальто: Что в жизни в этом городе переоценено сильнее всего? Она на секунду задумывается, потом смеётся и отвечает: Честно, очереди на бранч — два часа ради блинов. Фоновый шум транспорта, отдалённые разговоры, шаги по тротуару, естественный дневной свет.

2. Комедийный сюжет с гэгом на фоне

Стиль уличного интервью, съёмка с рук, на улице с заметными ямами, пасмурный дневной свет. Репортёр держит микрофон с логотипом телеканала и говорит пожилому мужчине в кепке: Жители надеются, что эту опасность наконец устранят — согласны? Мужчина кивает и отвечает: Эта яма годами была кошмаром. На фоне отвлёкшийся прохожий ступает в яму и спотыкается с комичным вскриком; репортёр и собеседник продолжают говорить, делая вид, что ничего не заметили. Звуки: их разговор, громкое падение и городской фоновый шум.

3. Нишевый вопрос (фитнес / здоровье)

Спокойный закатный vox-pop на набережной Лос-Анджелеса, мягкий тёплый свет, съёмка с рук. Интервьюер-женщина в спортивной одежде держит небольшой микрофон и спрашивает подтянутого мужчину лет сорока: Какую простую привычку любой может начать ради хорошего самочувствия? Он улыбается и отвечает: Пять минут глубокого дыхания каждое утро — это проясняет голову до начала дня. Фоновый шум океанских волн, лёгкий ветер, далёкие чайки.

4. Самоосознающий ИИ-поворот (вирусный крючок)

Уличное интервью с рук на неоновом перекрёстке Токио ночью. Молодая репортёр держит микрофон и спрашивает мужчину в серой толстовке: Быстрый вопрос — вы знаете, что прямо сейчас находитесь внутри сгенерированного ИИ видео? Он замирает, смотрит прямо в камеру и невозмутимо произносит: Погодите… вот почему у моего кофе нет вкуса. Фоновый гул города, отдалённый транспорт, лёгкий дождь, отражения на мокром асфальте.

5. Вариант для «безликого» канала (с животным)

Видео в стиле влога, ракурс селфи, уличное интервью в солнечном парке. Пушистый золотистый ретривер в крошечных очках сидит на скамейке, а закадровый интервьюер спрашивает: Что самое лучшее в жизни собаки? Пёс наклоняет голову и отвечает весёлым мультяшным голосом: Честно? Каждая прогулка ощущается как самая первая. Фоновое пение птиц, лёгкий ветерок, отдалённые разговоры в парке.

6. Брендовый / продуктовый vox-pop

Документальное уличное интервью у кофейни, дневной свет, средний план с рук. Интервьюер-женщина держит брендированный микрофон и спрашивает мужчину в одежде в стиле бизнес-casual: Если бы вы могли исправить одну вещь в своей утренней дороге на работу, что бы это было? Он вздыхает и отвечает: Кофе, который реально готов, когда я вхожу, — без ожидания. Фоновый шум улицы, шипение кофемашины из дверного проёма, шаги.

Для брендовой кампании этот формат напрямую встраивается в рабочий процесс рекламы в UGC-стиле, который мы разбираем в руководстве по генератору UGC-рекламы Veo 3.


Пошаговый рабочий процесс на veo3ai.io

Любой промпт выше можно сгенерировать за несколько минут:

  1. Откройте генератор. Перейдите в генератор текста в видео на veo3ai.io и выберите Veo 3 в качестве модели.
  2. Вставьте промпт. Подставьте один из промптов из библиотеки и измените локацию, персонажей и реплики под свою идею.
  3. Для финала выбирайте качество, а не скорость. Используйте быстрый режим, чтобы дёшево проверить идею, затем перегенерируйте удачный вариант в режиме качества ради чистой синхронизации губ и более резкой детализации.
  4. Установите соотношение сторон 9:16 для TikTok, Reels и Shorts. Вертикальный кадр — часть «родного» для платформ вида.
  5. Сначала проверяйте звук. Прежде всего послушайте: речь чёткая, синхронная, без «каши»? Звук здесь решает всё.
  6. Перегенерируйте с небольшими правками, если реплика звучит не так — сократите диалог, смените описание тона или упростите сцену. Обычно две-три попытки дают победителя.
  7. Склейте несколько пар «вопрос-ответ», если хотите интервью на 30–60 секунд, затем добавьте субтитры в монтажной программе.

Если предпочитаете стартовать с фотографии конкретного человека или места, рабочий процесс «изображение в видео» позволяет задать кадр референсным фреймом для большего контроля над видом.


Камера, кадрирование и настройки реализма

Мелкие решения отличают убедительный vox-pop от очевидной генерации:

  • Кадрируйте на уровне глаз, средний план. По пояс или по грудь читается как настоящее интервью. Крупные планы усиливают ИИ-артефакты вокруг рта и зубов.
  • Просите съёмку с рук, слегка нестабильную. Жёсткий штативный кадр выглядит постановочным. Добавьте лёгкое движение с рук, естественное перекадрирование, чтобы передать репортажный стиль.
  • Используйте естественный свет. Час заката, пасмурный дневной свет и неоновая ночь работают, потому что соответствуют реальным уличным условиям. Избегайте формулировок про студийный свет.
  • Один говорящий в кадре. Несколько одновременно говорящих сбивают звуковую модель. Лучше монтируйте между кадрами с одним человеком.
  • Называйте фон. Даже одна фраза — отдалённый транспорт, шаги, лёгкий ветер — заземляет ролик в реальном месте и улучшает реализм сгенерированного звука.

Чтобы сохранить одного и того же интервьюера на протяжении целой серии роликов, опирайтесь на приёмы из нашего руководства по консистентности персонажа Veo 3, чтобы ваш «ведущий» выглядел одинаково от видео к видео.


Частые ошибки и как их исправить

  • Бормотание или ускоренная речь → Реплика слишком длинная. Сократите её до 12–22 слов, чтобы уложиться в 8 секунд.
  • Модель зачитывает знаки препинания вслух → Вы использовали кавычки. Переключитесь на двоеточие перед репликой.
  • Не тот голос у не того лица → Говорящие не помечены. Добавьте Репортёр спрашивает: и Женщина отвечает:, чтобы очерёдность была явной.
  • Скованный, постановочный вид → Вы описали штатив или студию. Добавьте движение с рук и естественный свет.
  • Искажённый рот или лишние зубы → Вы слишком приблизились. Отодвиньтесь до среднего плана и перегенерируйте.
  • Тишина в конце → Диалог закончился раньше клипа. Добавьте короткую реакцию, например она тихо смеётся, чтобы заполнить хвост.
  • Мёртвый звук без локации → Вы не назвали фон. Всегда добавляйте короткую звуковую подложку.

Реальные сценарии применения

  • «Безликие» контент-каналы. Каналы с vox-pop и «говорящими животными» набирают просмотры, ни разу не снимая живого человека, — формат, тесно связанный с трендом ASMR и говорящих питомцев, который авторы сейчас масштабируют.
  • Бренд- и продукт-маркетинг. Имитация реакций клиентов и отзывов в уличном стиле даёт дешёвую и вовлекающую соцрекламу, особенно в формате рекламы для TikTok.
  • Образование и объяснялки. «Человек с улицы», отвечающий на распространённое заблуждение, — быстрый и увлекательный способ открыть образовательный ролик.
  • Комедия и скетчи. Формат с фоновым гэгом (промпт №2) — чистое развлечение, которое хорошо расходится по платформам.
  • Тестирование концепций. Маркетологи за минуты прототипируют рекламные идеи в стиле интервью, прежде чем тратиться на настоящую съёмку.

Для более широкого вдохновения, что снимать, наша подборка идей для YouTube Shorts хорошо сочетается с этим форматом.


Этика и раскрытие: прочитайте это перед публикацией

Уличные интервью сильны тем, что выглядят настоящими, — именно поэтому с ними нужно обращаться ответственно.

  • Не выдавайте подделки за реальные новости или реальные свидетельства. Имитация интервью, используемая для распространения дезинформации или фальшивых одобрений, способна нанести реальный вред и нарушает правила платформ.
  • Маркируйте ИИ-контент. Многие платформы теперь требуют раскрытия синтетических медиа. Простая отметка «сгенерировано ИИ» или пометка в кадре обеспечивает соответствие правилам и укрепляет доверие.
  • SynthID встроен. Veo 3 встраивает невидимый водяной знак Google SynthID в каждый вывод, чтобы платформы могли распознавать ИИ-контент. Не пытайтесь его обойти.
  • Не выдавайте себя за реальных, узнаваемых людей без согласия и не вкладывайте слова в уста публичных персон.
  • Оставайтесь в рамках развлечения или образования. Формат блистает в комедии, маркетинге и объяснялках — используйте его там, а не для обмана.

При прозрачном использовании ИИ-уличные интервью — законный и высокорезультативный творческий формат. При использовании для обмана — это быстрый способ потерять аудиторию и аккаунт.


Часто задаваемые вопросы

Хорош ли Veo 3 именно для уличных интервью? Да — это выдающийся инструмент для этого формата, потому что он генерирует синхронные реплики, синхронизацию губ и уличный фон за один проход. Инструменты, выдающие немое видео, не способны создать убедительный vox-pop без тяжёлой ручной работы со звуком.

Какой длины может быть один клип уличного интервью? Одна генерация Veo 3 — до 8 секунд, что вмещает один вопрос и ответ. Для более длинного интервью генерируйте каждую пару «вопрос-ответ» отдельно и склеивайте, затем добавьте субтитры.

Почему мой собеседник бормочет или говорит слишком быстро? Реплика слишком длинная для длины клипа. Держите каждую строку в пределах примерно 12–22 слов, чтобы она естественно укладывалась в 5–8 секунд.

Использовать ли кавычки для диалога? Нет. Вводите речь двоеточием (Она говорит:). Кавычки часто заставляют модель неверно читать или озвучивать знаки препинания.

Можно ли сохранить одного интервьюера в нескольких видео? Да. Описывайте ведущего одинаково каждый раз или используйте референсное изображение и приёмы консистентности персонажа, чтобы зафиксировать вид на протяжении серии.

Нужно ли раскрывать, что это ИИ? На большинстве платформ — да, и стоит делать это в любом случае. Veo 3 к тому же встраивает невидимый водяной знак SynthID в каждый клип.

Какое соотношение сторон использовать? Вертикальное 9:16 для TikTok, Reels и Shorts. Генерируйте вертикально с самого начала, а не обрезайте потом.


Сделайте своё первое уличное интервью

Постановочное уличное интервью — формат, доказавший, как далеко продвинулось ИИ-видео, и он всё ещё один из самых надёжных способов набрать просмотры. Рецепт прост: чёткий кадр с рук, один интервьюер и один собеседник, конкретная локация ради фона и плотные реплики, вводимые двоеточием и держащиеся в пределах восьми секунд. Сложите это, генерируйте в режиме качества и проверяйте звук в первую очередь.

Вставьте один из промптов выше в генератор Veo 3 на veo3ai.io, измените вопрос под свою нишу и выпустите свой первый vox-pop уже сегодня. Только будьте честны — маркируйте ролик как ИИ и позвольте реализму работать на развлечение, а не на обман.

Ready to create AI videos?
Turn ideas and images into finished videos with the core Veo3 AI tools.

Related Articles

Continue with more blog posts in the same locale.

Browse all posts