- Блог
- Veo 3.1 Ingredients to Video: объединение нескольких референсных изображений в один ИИ-ролик (2026)
Veo 3.1 Ingredients to Video: объединение нескольких референсных изображений в один ИИ-ролик (2026)
Veo 3.1 ingredients to video: объедините до трёх референсных изображений — персонаж, объект и сцена — в один согласованный ИИ-ролик. Пошаговый процесс, промпты и отличия от одиночного референса и frames to video.
Emma Chen · 12 min read · Jun 29, 2026


Veo 3.1 ingredients to video — это функция, которая позволяет перестать описывать сцену словами и начать собирать её из картинок. Вместо одного референсного изображения вы передаёте Veo 3.1 сразу несколько — персонажа, объект, фон, стиль — и модель смешивает эти «ингредиенты» в единый цельный ролик. В результате вы получаете гораздо более точный контроль над тем, кто в кадре, что он держит в руках и где всё происходит, чем когда-либо могли дать одни лишь текстовые промпты.
Это руководство — практическое пошаговое описание того, как использовать ingredients to video в Veo 3.1: что именно делает функция, сколько референсных изображений она принимает, чем она отличается от одиночного референса и от frames to video, повторяемый рабочий процесс, который можно запустить уже сегодня в Google Flow или приложении Gemini, готовые к копированию шаблоны промптов, лучшие сценарии применения и проверки качества, которые отличают чистую композицию от мутной. Если вы уже работаете с Veo на veo3ai.io, это органично встроится в ваш текущий процесс.
Короткий ответ: что делает Ingredients to Video
Ingredients to video позволяет загрузить несколько референсных изображений — в документации Google и в Flow каждое из них называют «ингредиентом» — а затем написать промпт, который объясняет Veo 3.1, как объединить их в один сгенерированный ролик. Каждый ингредиент может задавать свой элемент кадра: одно изображение для лица и одежды персонажа, одно для продукта или реквизита, одно для локации или визуального стиля. Veo 3.1 считывает их все одновременно и создаёт видео, где персонаж, объект и обстановка остаются согласованными с предоставленными фотографиями.
На практике:
- Вы предоставляете до трёх референсных изображений на одну генерацию (это текущий потолок во Flow, приложении Gemini и Gemini API).
- Каждое изображение контролирует свой аспект: субъект, объект, сцену или стиль.
- Вы добавляете текстовый промпт, который явно сопоставляет каждое изображение с его ролью и описывает действие.
- Veo 3.1 выдаёт 8-секундный ролик — теперь с нативным синхронным звуком и диалогами — и поддерживает нативный вертикальный формат 9:16 для соцсетей наряду со стандартным горизонтальным.
Используйте функцию, когда вам нужен один и тот же персонаж, делающий конкретное действие в конкретном месте, и у вас есть референсные фото для каждой из этих частей. Именно этот пробел генерация видео из текста не может закрыть самостоятельно.
Чем Ingredients отличается от одиночного референса и Frames to Video
Это та часть, которую пропускает большинство руководств, и именно в ней причина, по которой ingredients to video существует как отдельный режим. Veo 3.1 на самом деле даёт три разных пути на основе изображений, и они решают три разные задачи.

Одиночный референс (описан в нашем руководстве по работе с референсным изображением Veo 3) использует одно изображение, чтобы зафиксировать одну вещь — обычно лицо персонажа или продукт — и затем генерирует движение вокруг неё. Это самый быстрый способ сохранить одного субъекта согласованным между кадрами, но он не даёт отдельного контроля над окружением или реквизитом. Одно изображение — один якорь.
Frames to video (см. наше руководство по frames to video в Veo 3.1) берёт два изображения — начальный кадр и конечный кадр — и интерполирует движение между ними. Речь о переходе: модель строит мост от изображения A к изображению B во времени. Эти два изображения — одна и та же сцена в разные моменты, а не разные элементы.
Ingredients to video работает комбинаторно, а не интерполяционно. Вы даёте ей несколько разных элементов — человека здесь, куртку там, городскую улицу, настроение с зерном плёнки — и она собирает их в одну новую сцену, которой не было ни на одной отдельной фотографии. Вы не строите мост между двумя состояниями одного кадра; вы компонуете несколько субъектов и обстановку в свежий кадр. Поэтому ingredients — правильный инструмент для «помести этого человека, держащего этот продукт, в этой локации», а frames to video — правильный инструмент для «преврати этот открывающий кадр в тот закрывающий».
Если вы хотите увидеть более широкую картину того, как Veo и Gemini работают с референсными изображениями в разных режимах, руководство по промптингу изображений, видео и аудио в Gemini Omni описывает всю систему.
Где это можно использовать
Ingredients to video в Veo 3.1 доступна на всех площадках Google:
- Google Flow — специализированный инструмент для ИИ-кинопроизводства, где ingredients соседствует с Frames и Extend.
- Приложение Gemini — для быстрых генераций на основе промптов.
- Google Vids и YouTube — для авторов, работающих внутри этих продуктов.
- Gemini API и Vertex AI — для разработчиков, которые хотят вызывать ingredients to video программно (Vertex предоставляет её как платное превью с задокументированными ID моделей).
Интерфейс загрузки немного отличается между Flow и приложением Gemini, но основной принцип везде один: добавьте изображения-ингредиенты, разметьте или упорядочьте их, напишите промпт, ссылающийся на каждое из них, и сгенерируйте.
Пошагово: как использовать Ingredients to Video в Veo 3.1
Вот повторяемый процесс, который можно запустить уже сегодня.
Шаг 1: спланируйте три ингредиента
Прежде чем открывать инструмент, решите, что будет контролировать каждое из ваших (до трёх) изображений. Надёжное разделение:
- Субъект — персонаж или человек, в идеале чёткий, хорошо освещённый портрет или снимок в полный рост.
- Объект — продукт, реквизит или предмет, с которым взаимодействует субъект.
- Сцена или стиль — локация, фон или референсный кадр, задающий цвет и настроение.
Необязательно использовать все три слота. Два сильных и различимых изображения часто лучше трёх конкурирующих. Ограничение — это потолок (три), а не норма.
Шаг 2: подготовьте качественные референсные изображения
Качество входных данных напрямую определяет качество результата. Для каждого ингредиента:
- Используйте резкие файлы PNG или JPEG высокого разрешения.
- Сохраняйте согласованность освещения и ракурса между изображениями, если хотите, чтобы они выглядели как одна сцена.
- Изолируйте элемент: на портрете должен быть в основном человек, на снимке продукта — в основном продукт. Загромождённый фон сбивает модель с толку.
- Если нужно создать чистые ингредиенты, сгенерируйте их сначала в модели изображений (собственный процесс Google предлагает использовать генерацию изображений Gemini для построения согласованных персонажей и сцен перед передачей в Veo).

Шаг 3: загрузите ингредиенты в порядке приоритета
Во Flow или приложении Gemini добавьте каждое референсное изображение в панель ингредиентов. Порядок важен: ставьте самый важный элемент (обычно персонажа) первым. Модель считает более ранние изображения более приоритетными, когда элементы конкурируют за внимание в кадре.
Шаг 4: напишите промпт, сопоставляющий каждое изображение с ролью
Именно здесь большинство генераций удаются или проваливаются. Не пишите просто «женщина пьёт кофе в городе». Явно свяжите каждый ингредиент с его задачей:
«Женщина с референсного изображения 1, держащая чашку кофе с референсного изображения 2, идёт по дождливой неоновой улице с референсного изображения 3. Медленный наезд камеры, малая глубина резкости, она улыбается и делает глоток».
Называя «референсное изображение 1/2/3», вы точно говорите Veo 3.1, как собрать части, вместо того чтобы оно угадывало. Затем опишите действие, движение камеры и настроение — этого нет на ваших изображениях и оно должно прийти из текста.
Шаг 5: задайте формат и сгенерируйте
Выберите соотношение сторон — Veo 3.1 теперь генерирует нативный вертикальный формат 9:16 для TikTok, Reels и Shorts, а также стандартный 16:9. Сгенерируйте 8-секундный ролик. Поскольку ingredients теперь поддерживает нативный звук, вы также можете запросить диалог или фоновый звук в той же генерации.
Шаг 6: проверьте, итерируйте и расширьте
Сравните результат с вашими ингредиентами (см. чек-лист контроля качества ниже). Если какая-то часть «уплывает», скорректируйте формулировку промпта или замените референсное изображение на более чистое, а не перегенерируйте вслепую. Когда у вас есть понравившийся ролик, функции Extend и расширения сцены в Veo 3.1 позволяют перенести тех же персонажей за пределы одного 8-секундного ролика в более длинные связанные последовательности.
Шаблоны промптов для копирования
Адаптируйте их под свои ингредиенты. Принцип — сопоставить каждое изображение, затем описать действие и камеру — это и делает их рабочими.
Персонаж + размещение продукта:
«Человек с изображения 1 держит [продукт] с изображения 2, стоя в [локации] с изображения 3. Средний план, мягкий свет из окна, он поворачивает продукт к камере и улыбается. Естественный фоновый звук».
Согласованность персонажа в новой сцене:
«Тот же персонаж с изображения 1, теперь в лесной обстановке с изображения 2. Слежение сзади, пока он идёт вперёд, послеполуденный свет, кружащиеся листья. Шаги и пение птиц».
Перенос стиля на субъекта:
«Субъект с изображения 1, переданный в живописном визуальном стиле изображения 2. Медленный наезд, субъект поднимает взгляд, тёплая кинематографическая цветокоррекция, лёгкое оркестровое нарастание».
Два персонажа в одном кадре:
«Персонаж с изображения 1 и персонаж с изображения 2 сидят за столиком кафе из интерьера на изображении 3. Съёмка через плечо, они смеются и чокаются кружками. Атмосфера кафе и короткий диалог».
Вертикальная реклама для соцсетей:
«Модель с изображения 1 в куртке с изображения 2 на городской крыше с изображения 3. Нативный вертикальный 9:16, ручная динамика, она разворачивается к камере, бодрое настроение. Ветер и звук улицы».
Лучшие сценарии применения
Ingredients to video оправдывает себя везде, где нужен управляемый, повторяемый «кастинг».
Брендированные видео о продукте. Поместите реальное фото продукта, бренд-модель и локацию в один ролик, чтобы предмет, человек и обстановка соответствовали вашему гайдлайну — без съёмки. Это самое ценное применение для электронной коммерции и DTC-команд.
Согласованные персонажи в эпизоде. Сохраняйте одного и того же главного героя в нескольких кадрах, повторно используя тот же ингредиент-персонаж и меняя изображения сцены и объекта. Сочетайте это с расширением сцены в Veo 3.1, чтобы строить последовательности длиннее восьми секунд, сохраняя идентичность.
Реклама для соцсетей в вертикали. Нативный режим 9:16 плюс ingredients означает, что вы можете создавать контент для TikTok и Reels, где лицо, одежда и фон привязаны к вашим референсам.
От раскадровки к кадру. Если вы уже разработали персонажа и ключевой реквизит как статичные изображения, ingredients превращает эти раскадровки в движение без повторного описания всего текстом.
Сцены с музыкой и диалогом. С нативным звуком в той же генерации кадры с двумя персонажами-ингредиентами могут нести короткую реплику диалога, делая возможными разговорные сцены за один проход.
Чек-лист контроля качества
Прежде чем выпускать ролик ingredients, выполните эти проверки:
- Совпадение идентичности — действительно ли сгенерированный персонаж похож на вашу референсную фотографию от кадра к кадру? Следите за «уплыванием» лица в течение восьми секунд.
- Точность объекта — продукт или реквизит тот самый, с правильной формой, цветом и логотипом? Генеративные модели могут незаметно «перерисовать» объекты.
- Согласованность сцены — соответствует ли обстановка вашему ингредиенту сцены и согласуется ли освещение субъекта с освещением локации?
- Перетекание элементов — убедитесь, что части одного ингредиента не просачиваются в другой (например, цвет куртки не подкрашивает фон).
- Текст и руки — проверьте любой текст на продукте и руки субъекта, это всё ещё самые частые места сбоев в ИИ-видео.
- Синхронизация звука — если вы запрашивали диалог, убедитесь, что движение губ и звук совпадают.
Если проверка не пройдена, сначала исправьте вход: более чистое, изолированное референсное изображение решает больше проблем, чем ещё один «бросок костей» на том же промпте.
Реальные ограничения, о которых стоит знать
Ingredients to video мощная, но не волшебная. Сохраняйте честные ожидания:
- Потолок — три референса. Нельзя скомпоновать десять элементов; выберите три самых важных, а остальное оставьте промпту.
- Восемь секунд на генерацию. Более длинные истории требуют Extend или проходов расширения сцены, а не одного ролика.
- Конкурирующие референсы могут размываться. Если два изображения борются за одну роль (два лица оба читаются как «главный субъект»), результаты становятся непоследовательными — важны порядок и ясность промпта.
- Идеальная идентичность не гарантирована. Сходство в Veo 3.1 сильное, но всё же может «уплывать» при быстром движении или экстремальных ракурсах; проверяйте каждый ролик.
- Доступность и цены различаются по площадкам — уровни Flow, приложения Gemini и API отличаются, а Vertex AI предоставляет некоторые возможности как платное превью.
Ни одно из этого не повод избегать функции; это повод продуманно планировать три ингредиента и проверять результат.
Как это вписывается в рабочий процесс Veo 3.1
Ingredients to video — один из трёх режимов на основе изображений, к которым вы будете обращаться в зависимости от задачи:
- Используйте одиночный референс, когда нужно зафиксировать только одного субъекта. Начните с руководства по работе с референсным изображением.
- Используйте frames to video, когда у вас есть заданные начало и конец и нужен переход. Руководство по frames to video проходит его от начала до конца.
- Используйте ingredients to video, когда объединяете несколько разных элементов в одну новую сцену.
Многие реальные проекты используют все три: строят персонажей и реквизит как ингредиенты, генерируют основной кадр, затем используют frames to video для чистого перехода к следующему биту и Extend для удлинения последовательности. Вы можете запускать это на площадках Google или через veo3ai.io как часть единого пайплайна.
Частые ошибки, которых стоит избегать
Несколько закономерностей вызывают большинство разочаровывающих результатов ingredients, и все они легко исправляются, если знать, на что смотреть.
Загромождённые референсные изображения. Если на фото персонажа есть сильный фон, второй человек или яркий логотип, Veo 3.1 не знает, какая часть является «ингредиентом». Кадрируйте плотно, чтобы каждое изображение чётко представляло один элемент.
Промпт, игнорирующий изображения. Загрузить три референса и написать общий промпт вроде «кинематографичная сцена» — значит растратить всю функцию. Промпт должен называть изображения и назначать роли.
Конфликтующее освещение. Субъект, снятый при плоском студийном свете и помещённый в мрачную ночную сцену, будет выглядеть приклеенным. Выбирайте ингредиенты с примерно согласованным освещением или явно прописывайте нужное освещение в промпте.
Перегрузка слотов. Три референса, каждый из которых борется за главную роль, дают кашу. Часто два сильных дополняющих ингредиента дают более чистый и управляемый результат.
Пропуск итерации над входом. Когда ролик «уплывает», инстинкт — перегенерировать с теми же настройками. Чаще лучший ход — заменить референс на более резкий или уточнить одну строку промпта.
FAQ
Сколько референсных изображений может использовать ingredients to video в Veo 3.1? До трёх. Каждое может контролировать свой элемент — субъект, объект или сцену/стиль — и вы упорядочиваете их по приоритету, когда они конкурируют.
Отличается ли ingredients to video от загрузки одного референсного изображения? Да. Одиночный референс фиксирует одного субъекта; ingredients компонует несколько разных элементов (персонаж + объект + сцена) в один ролик. Они решают разные задачи.
Включает ли ingredients to video звук? Да. Обновление Veo 3.1 добавило нативный синхронный звук и диалоги, поэтому генерация ingredients может включать звук в том же проходе.
Можно ли делать вертикальные видео? Да. Veo 3.1 добавила нативный вертикальный формат 9:16 для ingredients, оптимизированный под мобильные платформы вроде TikTok, Reels и Shorts, наряду со стандартным 16:9.
Где это доступно? Google Flow, приложение Gemini, Google Vids, YouTube, а также программно через Gemini API и Vertex AI.
Какой длины каждый ролик? Каждая генерация выдаёт 8-секундный ролик. Для более длинного контента используйте функции Extend и расширения сцены в Veo 3.1, чтобы сохранять согласованность персонажей между связанными сегментами.
Заключение
Veo 3.1 ingredients to video — самый прямой способ одновременно контролировать кто, что и где в ИИ-ролике. Передавая модели до трёх референсных изображений — одно для персонажа, одно для объекта, одно для сцены или стиля — и написав промпт, сопоставляющий каждое изображение с его ролью, вы получаете скомпонованные, согласованные кадры, которые просто не способны дать текстовые промпты и одиночный референс. Это отличается от frames to video, которая строит мост между двумя ключевыми кадрами, и от одиночного референса, который фиксирует лишь одного субъекта. Спланируйте три ингредиента, подготовьте чистые входные данные, промптируйте по ролям и проверяйте каждый ролик. Затем попробуйте этот процесс сами с Veo 3.1 на veo3ai.io и превратите свои референсные фото в движущуюся сцену.
Related Articles
Continue with more blog posts in the same locale.

Какова максимальная длина видео Veo 3.1? Лимиты длительности (2026)
Клипы Veo 3.1 максимум 8 секунд за генерацию, но расширением можно дойти до ~148 секунд. Длительности, Fast vs Quality, правила video-to-video и FAQ.
Read article
Промпты для замедленного видео в Veo 3 (2026): кинематографическое слоу-мо и рампы скорости
Освойте слоу-мо в Veo 3: словарь промптов, 7 готовых промптов, рампы скорости, работа со звуком и типичные ошибки.
Read article
Промпты для видео от первого лица в Veo 3: как создавать POV-кадры (2026)
Как писать POV-промпты для Veo 3 для иммерсивного видео от первого лица: формула из 5 частей, 12 готовых примеров, синхронизированный звук и вертикальный workflow для TikTok и Shorts.
Read article