Veo 3.1 Ingredients to Video: 여러 참조 이미지를 하나의 AI 클립으로 합성하기 (2026)

Veo 3.1 ingredients to video: 인물·오브젝트·장면 등 최대 3장의 참조 이미지를 하나의 일관된 AI 클립으로 합성. 단계별 워크플로, 프롬프트, 단일 참조 및 frames to video와의 차이.

Emma Chen · 11 min read · Jun 29, 2026

Veo 3.1 Ingredients to Video — 여러 참조 이미지를 하나의 AI 클립으로 합성

Veo 3.1 ingredients to video는 장면을 말로 설명하는 대신 이미지로 '캐스팅'할 수 있게 해 주는 기능입니다. 참조 이미지 한 장이 아니라 인물, 오브젝트, 배경, 스타일 같은 여러 이미지를 Veo 3.1에 건네면, 모델이 그 '재료(ingredients)'들을 하나의 일관된 AI 클립으로 녹여 냅니다. 그 결과 누가 화면에 있고, 무엇을 들고 있으며, 어디에서 벌어지는지를 텍스트 프롬프트만으로는 결코 얻을 수 없는 수준으로 정밀하게 제어할 수 있습니다.

이 가이드는 Veo 3.1에서 ingredients to video를 사용하는 방법을 처음부터 끝까지 실전 중심으로 안내합니다. 이 기능이 실제로 무엇을 하는지, 참조 이미지를 몇 장까지 받는지, 단일 참조 이미지 및 frames to video와 어떻게 다른지, Google Flow나 Gemini 앱에서 오늘 바로 실행할 수 있는 재현 가능한 워크플로, 복사해서 바로 쓰는 프롬프트 템플릿, 최적의 활용 사례, 그리고 깨끗한 합성과 흐릿한 합성을 가르는 품질 점검까지 다룹니다. 이미 veo3ai.io에서 Veo를 쓰고 있다면 이것은 기존 워크플로에 그대로 들어맞습니다.

빠른 답변: Ingredients to Video가 하는 일

ingredients to video에서는 여러 장의 참조 이미지를 업로드할 수 있습니다. Google 문서와 Flow에서는 각 이미지를 '재료(ingredient)'라고 부릅니다. 그런 다음 이들을 하나의 생성 클립으로 어떻게 결합할지 Veo 3.1에 알려 주는 프롬프트를 작성합니다. 각 재료는 샷의 서로 다른 요소를 정의할 수 있습니다. 한 장은 인물의 얼굴과 의상, 한 장은 제품이나 소품, 한 장은 장소나 비주얼 스타일처럼 말이죠. Veo 3.1은 이들을 동시에 읽어 들여, 제공한 사진과 일치하는 인물·오브젝트·환경을 유지하는 영상을 생성합니다.

구체적으로는 다음과 같습니다.

생성 1회당 최대 3장의 참조 이미지를 제공합니다(이는 Flow, Gemini 앱, Gemini API 전반의 현재 상한입니다).
각 이미지가 서로 다른 측면을 제어합니다. 피사체, 오브젝트, 장면 또는 스타일입니다.
각 이미지를 그 역할에 명시적으로 연결하고 동작을 기술하는 텍스트 프롬프트를 추가합니다.
Veo 3.1은 8초 클립을 출력합니다. 이제 네이티브 동기 오디오와 대사가 함께 제공되며, 표준 가로형에 더해 소셜용 네이티브 세로형 9:16 포맷도 지원합니다.

같은 인물이 특정 장소에서 특정 동작을 해야 하고, 그 각 요소의 참조 사진이 있을 때 사용하세요. 바로 이것이 텍스트로 영상을 생성하는 방식만으로는 메울 수 없는 공백입니다.

Ingredients가 단일 참조 및 Frames to Video와 어떻게 다른가

이 부분은 대부분의 튜토리얼이 건너뛰는 지점이며, ingredients to video가 독립된 모드로 존재하는 이유 그 자체입니다. Veo 3.1에는 실제로 이미지로 구동되는 세 가지 서로 다른 경로가 있고, 각각 다른 문제를 해결합니다.

ingredients to video가 단일 참조 및 frames to video와 어떻게 비교되는가

단일 참조 이미지(당사 Veo 3 이미지 참조 워크플로에서 다룸)는 한 장의 이미지로 하나의 대상——보통 인물의 얼굴이나 제품——을 고정한 뒤 그 주변에 움직임을 생성합니다. 한 피사체를 여러 샷에 걸쳐 일관되게 유지하는 가장 빠른 방법이지만, 환경이나 소품을 따로 제어할 수는 없습니다. 한 장의 이미지, 하나의 앵커입니다.

Frames to video(당사 Veo 3.1 frames to video 가이드 참고)는 두 장의 이미지——시작 프레임과 끝 프레임——를 받아 그 사이의 움직임을 보간합니다. 이는 전환에 관한 것입니다. 모델이 이미지 A에서 이미지 B로 가는 다리를 시간에 걸쳐 만듭니다. 두 이미지는 서로 다른 순간의 같은 장면이지, 서로 다른 요소가 아닙니다.

Ingredients to video는 보간이 아니라 조합입니다. 서로 다른 여러 요소——여기 인물, 저기 재킷, 도시의 거리, 필름 그레인 분위기——를 주면, 어느 한 장의 사진에도 없던 새로운 장면으로 조립합니다. 한 샷의 두 상태를 잇는 것이 아니라, 여러 피사체와 환경을 새로운 프레임으로 합성하는 것입니다. 그래서 ingredients는 "이 인물이 이 제품을 들고 이 장소에 있게"에 알맞은 도구이고, frames to video는 "이 오프닝 샷을 저 클로징 샷으로 변형"에 알맞은 도구입니다.

Veo와 Gemini가 각 모드에서 참조 이미지를 어떻게 다루는지 전체 그림을 보고 싶다면, Gemini Omni 이미지·영상·오디오 프롬프트 가이드가 시스템 전체를 정리해 줍니다.

어디서 사용할 수 있나

Veo 3.1의 ingredients to video는 Google의 여러 표면에서 사용할 수 있습니다.

Google Flow — ingredients가 Frames, Extend와 나란히 있는 전용 AI 영상 제작 도구.
Gemini 앱 — 프롬프트 주도의 빠른 생성용.
Google Vids와 YouTube — 이들 제품 안에서 작업하는 크리에이터용.
Gemini API와 Vertex AI — ingredients to video를 프로그램으로 호출하려는 개발자용(Vertex는 모델 ID가 문서화된 유료 미리보기로 제공).

업로드 UI는 Flow와 Gemini 앱에서 약간 다르지만, 핵심 흐름은 어디서나 같습니다. 재료 이미지를 추가하고, 라벨을 붙이거나 순서를 정하고, 각각을 참조하는 프롬프트를 작성한 뒤 생성합니다.

단계별: Veo 3.1에서 Ingredients to Video 사용하는 법

오늘 바로 실행할 수 있는 재현 가능한 절차입니다.

1단계: 세 가지 재료를 계획한다

도구를 열기 전에, (최대 3장의) 각 이미지가 무엇을 제어할지 정합니다. 신뢰할 만한 분배는 다음과 같습니다.

피사체 — 인물 또는 캐릭터. 이상적으로는 선명하고 잘 조명된 얼굴 사진이나 전신 사진.
오브젝트 — 피사체가 상호작용하는 제품, 소품, 아이템.
장면 또는 스타일 — 장소, 배경, 또는 색과 분위기를 정하는 참조 프레임.

세 칸을 모두 쓸 필요는 없습니다. 강하고 분명히 구별되는 두 장이, 서로 경쟁하는 세 장보다 더 나은 결과를 내는 경우가 많습니다. 제약은 상한(3장)이지 할당량이 아닙니다.

2단계: 고품질 참조 이미지를 준비한다

입력의 품질이 곧 출력의 품질을 결정합니다. 각 재료에 대해 다음을 합니다.

고해상도의 선명한 PNG 또는 JPEG 파일을 사용합니다.
하나의 장면처럼 보이게 하려면 이미지 간 조명과 각도를 일관되게 유지합니다.
요소를 분리합니다. 인물 사진은 주로 인물, 제품 사진은 주로 제품이 보이게 합니다. 어수선한 배경은 모델을 혼란스럽게 합니다.
깨끗한 재료를 만들어야 한다면 먼저 이미지 모델로 생성합니다(Google의 자체 흐름은 Veo에 넘기기 전에 Gemini 이미지 생성으로 일관된 캐릭터와 설정을 만들 것을 권장).

ingredients to video 워크플로: 세 장의 참조 이미지에서 프롬프트를 거쳐 하나의 클립으로

3단계: 재료를 우선순위 순으로 업로드한다

Flow나 Gemini 앱에서 각 참조 이미지를 재료 패널에 추가합니다. 순서가 중요합니다. 가장 중요한 요소(보통 인물)를 맨 앞에 둡니다. 요소들이 화면 안에서 주목을 다툴 때, 모델은 앞쪽 이미지를 더 높은 우선순위로 취급합니다.

4단계: 각 이미지를 역할에 연결하는 프롬프트를 쓴다

여기서 대부분의 생성이 성공하거나 실패합니다. 그냥 "도시에서 커피를 마시는 여성"이라고 쓰지 마세요. 각 재료를 그 역할에 명시적으로 연결합니다.

"참조 이미지 1의 여성이, 참조 이미지 2의 커피잔을 들고, 참조 이미지 3의 비 내리는 네온 거리를 걷는다. 느린 달리 샷, 얕은 피사계 심도, 그녀는 미소 지으며 한 모금 마신다."

"참조 이미지 1/2/3"이라고 이름을 지정하면, 모델이 추측하게 두는 대신 부품을 어떻게 조립할지 Veo 3.1에 정확히 알려 줍니다. 그런 다음 동작, 카메라 움직임, 분위기를 기술합니다. 이것들은 이미지에 없으며 텍스트에서 와야 합니다.

5단계: 포맷을 설정하고 생성한다

화면비를 고릅니다. Veo 3.1은 이제 TikTok, Reels, Shorts용 네이티브 세로형 9:16과 표준 16:9를 모두 생성합니다. 8초 클립을 생성합니다. ingredients는 이제 네이티브 오디오를 지원하므로, 같은 패스에서 대사나 환경음을 프롬프트할 수도 있습니다.

6단계: 확인하고, 반복하고, 연장한다

출력을 재료와 대조합니다(아래 품질 점검 목록 참고). 어떤 요소가 흔들리면, 무작정 재생성하지 말고 프롬프트 표현을 조정하거나 더 깨끗한 참조 이미지로 교체합니다. 마음에 드는 클립이 나오면, Veo 3.1의 Extend와 장면 연장 기능으로 같은 인물을 단일 8초 클립을 넘어 더 길고 연결된 시퀀스로 이어 갈 수 있습니다.

복사해서 쓰는 프롬프트 템플릿

자신의 재료에 맞게 조정하세요. 각 이미지를 연결한 뒤 동작과 카메라를 기술한다는 패턴이 이들을 작동하게 만듭니다.

인물 + 제품 배치:

"이미지 1의 인물이 이미지 3의 [장소]에서 이미지 2의 [제품]을 들고 서 있다. 미디엄 샷, 부드러운 창문 빛, 그는 제품을 카메라 쪽으로 돌리며 미소 짓는다. 자연스러운 환경음."

새로운 장면에서의 인물 일관성:

"이미지 1과 같은 캐릭터가 이제 이미지 2의 숲 설정에 있다. 앞으로 걸어가는 그를 뒤에서 따라가는 트래킹 샷, 늦은 오후의 빛, 흩날리는 잎. 발소리와 새소리."

피사체로의 스타일 전이:

"이미지 1의 피사체를 이미지 2의 회화적 비주얼 스타일로 렌더링. 느린 푸시인, 피사체가 위를 올려다보고, 따뜻한 시네마틱 컬러 그레이딩, 부드러운 오케스트라의 고조."

한 샷에 두 캐릭터:

"이미지 1의 캐릭터와 이미지 2의 캐릭터가 이미지 3의 인테리어 카페 테이블을 사이에 두고 마주 앉는다. 어깨 너머 샷, 둘은 웃으며 잔을 부딪친다. 카페 환경음과 짧은 대사."

세로형 소셜 광고:

"이미지 1의 모델이 이미지 2의 재킷을 입고 이미지 3의 도시 옥상에 서 있다. 네이티브 세로형 9:16, 핸드헬드의 역동감, 그녀는 카메라 쪽으로 한 번 돈다, 경쾌하게. 바람과 거리 소리."

최적의 활용 사례

ingredients to video는 통제되고 재현 가능한 캐스팅이 필요한 모든 곳에서 진가를 발휘합니다.

브랜드 제품 영상. 실제 제품 사진, 브랜드 모델, 촬영 장소를 한 클립에 넣어 아이템·탤런트·환경이 모두 가이드라인을 따르게 합니다——촬영 없이. 이는 이커머스와 DTC 팀에게 가장 가치 있는 용도입니다.

에피소드 전체에서 일관된 캐릭터. 같은 캐릭터 재료를 재사용하고 장면과 오브젝트 이미지를 바꿔 가며 여러 샷에 걸쳐 같은 주인공을 유지합니다. 이를 Veo 3.1의 장면 연장과 결합하면 정체성을 유지한 채 8초를 훌쩍 넘는 시퀀스를 만들 수 있습니다.

세로형 소셜 퍼스트 광고. 네이티브 9:16 모드와 ingredients를 합치면, 얼굴·의상·배경이 당신의 참조에 고정된 모델·장소 기반 TikTok과 Reels 콘텐츠를 제작할 수 있습니다.

스토리보드에서 샷으로. 캐릭터와 핵심 소품을 이미 정지 이미지로 디자인했다면, ingredients는 그 정적 보드를 모든 것을 텍스트로 다시 기술하지 않고도 움직임으로 바꿉니다.

음악과 대사 장면. 같은 생성 안의 네이티브 오디오 덕분에, 두 캐릭터 재료 샷이 짧은 대사 한 줄을 담을 수 있어 한 번의 패스로 대화 장면이 가능해집니다.

품질 점검 목록

ingredients 클립을 공개하기 전에 다음을 점검하세요.

정체성 일치 — 생성된 캐릭터가 프레임마다 실제로 참조 사진을 닮았습니까? 8초 동안의 얼굴 흔들림에 주의합니다.
오브젝트 충실도 — 제품이나 소품이 형태·색·로고가 올바른 진짜입니까? 생성 모델은 오브젝트를 미묘하게 다시 디자인할 수 있습니다.
장면 정합성 — 환경이 장면 재료와 일치하고, 피사체의 조명이 장소의 조명과 맞습니까?
요소 번짐 — 한 재료의 일부가 다른 재료로 새어 나오지 않는지 확인합니다(예: 재킷 색이 배경을 물들이는 것).
텍스트와 손 — 제품 위의 모든 텍스트와 피사체의 손을 확인합니다. 여전히 AI 영상에서 가장 흔한 실패 지점입니다.
오디오 동기화 — 대사를 프롬프트했다면 입 움직임과 소리가 맞는지 확인합니다.

점검에 실패하면 먼저 입력을 고치세요. 더 깨끗하고 분리된 참조 이미지가 같은 프롬프트로 주사위를 한 번 더 굴리는 것보다 더 많은 문제를 해결합니다.

알아 둬야 할 실제 한계

ingredients to video는 강력하지만 마법은 아닙니다. 기대치를 정직하게 유지하세요.

참조는 3장이 상한. 열 개의 요소를 합성할 수는 없습니다. 가장 중요한 셋을 고르고 나머지는 프롬프트에 맡깁니다.
생성 1회당 8초. 더 긴 이야기에는 단일 클립이 아니라 Extend나 장면 연장 패스가 필요합니다.
경쟁하는 참조는 흐려질 수 있음. 두 이미지가 같은 역할을 다투면(두 얼굴이 모두 '주요 피사체'로 읽히는 등) 결과가 일관되지 않습니다. 순서와 프롬프트의 명확성이 중요합니다.
완벽한 정체성은 보장되지 않음. Veo 3.1의 유사도는 높지만, 빠른 움직임이나 극단적인 각도에서는 여전히 흔들릴 수 있습니다. 클립마다 확인하세요.
제공 여부와 요금은 다름——Flow, Gemini 앱, API 계층이 서로 다르고, Vertex AI는 일부 기능을 유료 미리보기로 제공합니다.

이 중 어느 것도 기능을 피할 이유는 아닙니다. 세 가지 재료를 의도적으로 계획하고 출력을 점검할 이유일 뿐입니다.

Veo 3.1 워크플로에 어떻게 들어맞는가

ingredients to video는 작업에 따라 선택하는 세 가지 이미지 구동 모드 중 하나입니다.

피사체 하나만 고정하면 될 때는 단일 참조 이미지를 씁니다. 이미지 참조 워크플로부터 시작하세요.
시작과 끝이 정해져 있고 전환을 원할 때는 frames to video를 씁니다. frames to video 가이드가 처음부터 끝까지 안내합니다.
서로 다른 여러 요소를 하나의 새로운 장면으로 결합할 때는 ingredients to video를 씁니다.

많은 실제 프로젝트는 셋 모두를 씁니다. 캐릭터와 소품을 재료로 만들고, 핵심 샷을 생성한 뒤, frames to video로 다음 비트로 깔끔하게 전환하고, Extend로 시퀀스를 늘립니다. 이를 Google의 여러 표면에서 실행하거나 veo3ai.io를 통해 하나의 파이프라인의 일부로 실행할 수 있습니다.

피해야 할 흔한 실수

ingredients의 실망스러운 결과 대부분은 몇 가지 패턴에서 비롯됩니다. 무엇을 살펴야 하는지 알면 모두 쉽게 고칠 수 있습니다.

어수선한 참조 이미지. 인물 사진에 강한 배경, 두 번째 인물, 눈에 띄는 로고가 함께 들어 있으면 Veo 3.1은 어느 부분이 '재료'인지 알지 못합니다. 각 이미지가 하나의 요소를 분명히 나타내도록 바짝 잘라 냅니다.

이미지를 무시하는 프롬프트. 참조 세 장을 올려놓고 "시네마틱한 장면" 같은 일반적인 프롬프트를 쓰면 기능 전체가 낭비됩니다. 프롬프트는 이미지를 지목하고 역할을 배정해야 합니다.

상충하는 조명. 평평한 스튜디오 조명으로 찍은 피사체를 어두운 밤 장면에 떨어뜨리면 붙여 넣은 것처럼 보입니다. 조명이 이미 대략 맞는 재료를 고르거나, 원하는 조명을 프롬프트에 명시하세요.

칸 과적. 모두 주연을 다투는 참조 세 장은 뒤죽박죽이 됩니다. 보완하는 강한 재료 두 개가 더 깨끗하고 제어하기 쉬운 결과를 주는 경우가 많습니다.

입력에서의 반복을 건너뛰기. 클립이 흔들리면 같은 설정으로 재생성하고 싶어집니다. 더 나은 수는 대개 더 선명한 참조 이미지로 교체하거나 프롬프트 한 줄을 다듬는 것입니다.

FAQ

Veo 3.1의 ingredients to video는 참조 이미지를 몇 장까지 쓸 수 있나요? 최대 3장입니다. 각 이미지가 서로 다른 요소——피사체, 오브젝트, 또는 장면/스타일——를 제어할 수 있고, 경쟁할 때는 우선순위 순으로 정렬합니다.

ingredients to video는 참조 이미지 한 장을 올리는 것과 다른가요? 네. 단일 참조는 하나의 피사체를 고정합니다. ingredients는 서로 다른 여러 요소(인물 + 오브젝트 + 장면)를 하나의 클립으로 합성합니다. 해결하는 문제가 다릅니다.

ingredients to video는 오디오를 포함하나요? 네. Veo 3.1 업데이트로 네이티브 동기 오디오와 대사가 추가되어, ingredients 생성이 같은 패스에서 소리를 포함할 수 있습니다.

세로형 영상을 만들 수 있나요? 네. Veo 3.1은 ingredients용 네이티브 세로형 9:16 포맷을 추가해, 표준 16:9에 더해 TikTok, Reels, Shorts 같은 모바일 우선 플랫폼에 최적화했습니다.

어디에서 사용할 수 있나요? Google Flow, Gemini 앱, Google Vids, YouTube, 그리고 Gemini API와 Vertex AI를 통해 프로그램으로도 사용할 수 있습니다.

각 클립의 길이는 얼마인가요? 각 생성은 8초 클립을 출력합니다. 더 긴 콘텐츠에는 Veo 3.1의 Extend와 장면 연장 기능을 써서 연결된 세그먼트 전체에 걸쳐 캐릭터를 일관되게 유지합니다.

결론

Veo 3.1 ingredients to video는 AI 클립에서 누가·무엇을·어디서를 동시에 제어하는 가장 직접적인 방법입니다. 인물에 한 장, 오브젝트에 한 장, 장면이나 스타일에 한 장——최대 세 장의 참조 이미지를 모델에 주고, 각 이미지를 역할에 연결하는 프롬프트를 작성하면, 텍스트 프롬프트나 단일 참조 이미지로는 결코 만들 수 없는 합성되고 일관된 샷을 얻습니다. 이는 두 키프레임을 잇는 frames to video와도, 피사체 하나만 고정하는 단일 참조와도 다릅니다. 세 가지 재료를 계획하고, 깨끗한 입력을 준비하고, 역할별로 프롬프트하고, 클립마다 확인하세요. 그런 다음 veo3ai.io의 Veo 3.1에서 직접 이 흐름을 시도해, 참조 사진을 움직이는 장면으로 바꿔 보세요.

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video