Veo 3 대화: 한 장면에서 두 캐릭터를 대화시키는 방법 (2026)

Veo 3에서 두 캐릭터의 사실적인 대화를 연출하기: 프롬프트 구조, 구별된 목소리, 말차례 교대, 립싱크, 완전한 예제.

Emma Chen · 8 min read · Jun 25, 2026

대부분의 AI 영상 도구는 캐릭터의 입술을 움직이게 할 수 있습니다. 하지만 두 사람이 진짜 대화를 나누게 만들 수 있는 도구는 거의 없습니다. 대사를 주고받고, 서로 반응하며, 서로 다른 목소리로, 단어에 정확히 맞아떨어지는 립싱크로 말이죠. 바로 이 기능이 Veo 3를 단순한 생성기가 아니라 작은 촬영 팀처럼 느껴지게 합니다. 그리고 가장 자주 틀리는 기능이기도 합니다. 두 캐릭터의 대화는 "한 캐릭터보다 두 배 어려운" 것이 아니라, 완전히 다른 프롬프트 기술이기 때문입니다.

이 가이드는 Veo 3에서 두 캐릭터가 대화하는 장면을 연출하기 위한 실전 매뉴얼입니다. 누가 언제 말하는지 모델이 알도록 프롬프트를 구성하는 법, 각 목소리를 구별되게 유지하는 법, 립싱크를 잡는 법, 그리고 8초짜리 클립 하나로 부족할 때 더 긴 대화를 이어 붙이는 법을 다룹니다. 아래는 모두 복사해 바로 쓸 수 있는 형식이며, 오늘 당장 실행할 수 있는 완전한 예제가 포함되어 있습니다.

지금까지 단일 화자 프롬프트만 써봤다면, 먼저 오디오 기초를 위해 Veo 3 네이티브 오디오 프롬프트 가이드부터 시작한 뒤 이 "두 캐릭터" 레이어로 돌아오세요.

왜 두 캐릭터 대화는 별개의 기술인가

한 캐릭터에게 말을 시킬 때 Veo 3의 일은 간단합니다. 하나의 얼굴, 하나의 목소리, 하나의 대사. 누가 말하는지 모호하지 않으니 립싱크가 고정됩니다. 두 번째 화자를 더하면 세 가지 새로운 문제가 동시에 나타납니다.

귀속(어트리뷰션) — 모델은 매 프레임마다 음성이 어느 얼굴에 속하는지 결정해야 합니다. 두 캐릭터의 외모나 목소리가 비슷하면, Veo 3는 대사를 두 입에 뭉개거나 잘못된 목소리를 잘못된 사람에게 입힙니다.
말차례 교대 — 진짜 대화에는 리듬이 있습니다. A가 말하고, B가 반응하고, B가 답하고, A가 끼어듭니다. Veo 3는 이를 저절로 얻지 못합니다. 연출 없이 두 대사를 던져 넣으면, 캐릭터가 동시에 말하거나 한쪽이 말하는 동안 다른 쪽이 굳어버립니다.
목소리 분리 — 똑같이 들리는 두 목소리는 한 사람이 양쪽 역을 연기하는 것으로 읽힙니다. 구별된 목소리 정체성이야말로 장면을 두 사람으로 성립시킵니다.

세 가지 모두의 해법은 같은 발상입니다——모호함을 제거하기. 각 캐릭터가 누구인지, 누가 어떤 대사를 말하는지, 듣는 동안 다른 사람이 무엇을 하는지를 Veo 3에 정확히 알려줍니다. 이 가이드의 나머지는 그것을 체계적으로 하는 방법입니다.

두 화자를 위한 프롬프트 기본 구조

신뢰할 수 있는 두 캐릭터 대화 프롬프트는 다음 순서로 다섯 블록을 갖습니다.

장면 + 설정 — 어디에 있는지, 분위기, 조명.
캐릭터 A 정의 — 외모, 의상, 목소리 묘사.
캐릭터 B 정의 — 외모, 의상, 목소리(의도적으로 A와 다르게).
주고받기 — 각 대사를 이름이나 고유한 시각 태그로 귀속시키고, 대사 사이에 반응 비트를 넣음.
카메라 + 오디오 — 숏 종류, 화면에 누가 있는지, 배경음.

뼈대는 다음과 같습니다.

Setting: [location], [time of day], [mood/lighting].

Character A — [name]: [distinct appearance + wardrobe]. Voice: [pitch, accent, pace, tone].
Character B — [name]: [clearly different appearance + wardrobe]. Voice: [a contrasting pitch, accent, pace, tone].

The exchange:
[Name A] says, "[short line]." [Name A] [physical reaction/gesture].
[Name B] [reaction while listening], then replies, "[short line]."
[Name A] [final beat], "[short line]."

Camera: [shot type — two-shot / over-the-shoulder / shot-reverse-shot]. Natural lip-sync, distinct voices, clear turn-taking. Ambient: [room tone / background sound].

이 템플릿의 성패를 가르는 두 가지 규칙이 있습니다.

모든 대사에 태그를 단다. 떠 있는 대사는 절대 쓰지 마세요. 항상 [Name] says, "...". 가장 흔한 실패는 귀속되지 않은 대사입니다——그러면 Veo 3는 추측하고, 틀리게 추측합니다.
대사를 짧게 유지한다. 8초에 두 캐릭터면 각자의 독백이 아니라 합쳐서 대략 2~4개의 짧은 대사입니다. 간결함이 립싱크를 팽팽하게 유지합니다. 더 많은 대화가 필요하면 클립으로 나눕니다(아래 참조).

프롬프트 엔지니어링의 더 깊은 원리는 Veo 3 베스트 프롬프트 가이드와 Veo 3 JSON 프롬프트 생성기 가이드에 있으며, 둘 다 이 대화 레이어와 잘 어울립니다.

두 목소리를 구별되게 만들기

두 캐릭터가 같은 목소리로 들리면 장면이 무너집니다. 다음 축 중 최소 두 가지로 대비를 만드세요.

축	캐릭터 A	캐릭터 B
음높이	낮은, 가슴 소리	높은, 밝은
속도	느린, 신중한	빠른, 끊어지는
억양	표준	지역 / 외국
톤	차분한, 따뜻한	긴장된, 날카로운
나이감	나이 든, 거친	젊은, 활기찬

파형을 묘사하는 것이 아니라 사람을 묘사합니다. "낮고 고른 목소리의 지친 50대 야간 근무 간호사"와 "빠르게 말하고 말끝을 흐리는 불안한 20대 인턴"은 첫 대사 이전부터 틀림없이 다른 두 사람으로 읽힙니다. 목소리는 캐릭터 묘사를 따르므로, 두 캐릭터가 구체적으로 다를수록 목소리도 더 분리됩니다.

실제 Veo 3 제작에서 나온 팁——캐릭터가 비슷해 보여야 할 때(형제자매, 쌍둥이, 같은 유니폼의 동료)는 의상과 목소리 태그에 더 강하게 기대세요. "빨간 스카프 한 쪽" / "안경 쓴 쪽"처럼요. 그리고 그 태그를 대화 연출 안에서 참조해, 귀속이 얼굴에만 의존하지 않게 합니다.

말차례 교대를 진짜처럼 연출하기

대화는 대사만이 아니라 반응입니다. 믿을 만한 장면과 "두 로봇이 읽는" 장면을 가르는 비결은 반응 비트입니다——다른 사람이 말하는 동안 듣는 이가 무엇을 하는지 묘사하는 짧은 구절이죠.

약한 예(반응 없음):

Anna says, "We're out of time." Ben says, "I know."

강한 예(반응 연출):

Anna leans across the table, urgent: "We're out of time."
Ben doesn't look up, jaw tight, then exhales: "I know."

두 번째 버전은 음성을 붙일 수 있는 신체 연기를 Veo 3에 줍니다. 듣는 이가 무언가를 합니다——시선을 돌리고, 턱을 굳히고, 숨을 내쉽니다——이는 듣고 있는 것으로 읽혀 말차례 교대를 자연스럽게 만듭니다. 대사당 반응 하나를 연출하면 장면은 즉시 음성 합성 데모 같은 느낌을 벗습니다.

한 클립 대 여러 클립: 접근법 선택

대화 장면을 만드는 방법은 두 가지이며, 처음에 올바르게 고르면 재생성을 크게 줄일 수 있습니다.

접근법 1 — 8초 투숏 한 개. 두 캐릭터가 화면에, 2~4개의 짧은 대사, 와이드 또는 투숏 프레이밍. 빠른 주고받기, 코미디 호흡, 두 얼굴을 모두 보여주고 싶은 말다툼에 가장 좋습니다. 프롬프트가 가장 쉽지만, 둘이 연달아 말하면 립싱크 정확도가 떨어집니다.

접근법 2 — 여러 클립에 걸친 숏-리버스숏. 화자 A의 대사를 클로즈업이나 어깨너머 숏으로 생성하고, 화자 B의 답을 대응되는 역앵글로 생성한 뒤, 편집에서 이어 붙입니다. 긴 대화, 감정적인 장면, 립싱크를 팽팽히 해야 하는 모든 것에 가장 좋습니다. 이것이 실제 영화가 대화를 찍는 방식이며, 각 클립에 화자가 정확히 한 명이므로 깨끗한 동기화로 가는 가장 신뢰할 수 있는 길입니다.

접근법 2에서는 캐릭터가 클립 간에 동일하게 유지되어야 합니다——이는 일관성 문제이므로, 이 가이드를 Veo 3 캐릭터 일관성 가이드와 함께 쓰세요. 그리고 한 대사가 8초를 넘겨야 한다면, Veo 3를 8초 이상으로 연장하는 가이드가 호흡 늘리기를 다룹니다. 각 역앵글의 프레이밍을 정확히 잡으려면 Veo 3 카메라 제어 프롬프트가 짝이 되는 글입니다.

완전한 예제: 다이너에서의 대치

각 조각이 제자리에 놓이는 것을 볼 수 있도록 장면을 처음부터 만들어 봅시다. 목표는 두 캐릭터, 긴장된 주고받기, 깨끗한 귀속, 구별된 목소리입니다.

1단계 — 두 캐릭터를 대비시켜 정의하기

Character A — MARA: late 40s, silver-streaked dark hair, worn leather jacket,
  sitting. Voice: low, steady, slight Southern drawl, speaks slowly.
Character B — DEV: mid 20s, buzzcut, bright yellow hoodie, standing, restless.
  Voice: higher, fast, urban American accent, slightly breathless.

대비가 모든 축에 실려 있음을 보세요——나이, 머리, 의상 색, 자세, 음높이, 속도, 억양. Veo 3가 한 특성에서 흔들려도 나머지가 분리를 떠받칩니다.

2단계 — 한 클립 버전(투숏)

Setting: a near-empty roadside diner at night, warm fluorescent light,
rain streaking the window behind them.

Character A — MARA: late 40s, silver-streaked dark hair, worn leather jacket, seated.
  Voice: low, steady, slight Southern drawl, slow.
Character B — DEV: mid 20s, buzzcut, bright yellow hoodie, standing by the booth, restless.
  Voice: higher, fast, urban American accent, breathless.

The exchange:
Mara stirs her coffee without looking up, calm: "Sit down, Dev."
Dev stays standing, glancing at the door, then snaps: "We don't have time for coffee."
Mara finally meets his eyes, unhurried: "We have exactly enough."

Camera: medium two-shot, both faces visible, shallow depth of field.
Natural lip-sync, distinct voices, clear turn-taking. Ambient: low diner hum, rain on glass.

이것은 완전하고 실행 가능한 프롬프트입니다. 세 대사, 각각 태그, 대사당 반응 하나, 대비되는 목소리, 배경음 지정.

3단계 — 더 팽팽한 동기화를 위해 숏-리버스숏으로 변환

투숏이 무른 립싱크를 준다면 나누세요. 대사 하나씩 세 클립을 생성해 이어 붙입니다.

CLIP 1 (close on Mara):
[same character + setting block]
Mara stirs her coffee, not looking up, low and calm: "Sit down, Dev."
Camera: close-up on Mara, over Dev's shoulder. Tight lip-sync. Ambient: diner hum, rain.

CLIP 2 (reverse on Dev):
[same character + setting block]
Dev glances at the door, restless, then snaps fast: "We don't have time for coffee."
Camera: reverse close-up on Dev, over Mara's shoulder. Tight lip-sync. Ambient: diner hum, rain.

CLIP 3 (back on Mara):
[same character + setting block]
Mara lifts her eyes to him, unhurried: "We have exactly enough."
Camera: close-up on Mara. Tight lip-sync. Ambient: diner hum, rain.

세 클립을 이 순서로 타임라인에 놓으면, 견고한 립싱크의 깨끗한 컷 기반 대화 장면이 됩니다——각 클립은 동기화할 입이 항상 하나뿐이었습니다. 마라와 데브가 컷 사이에서 흔들리지 않도록, 캐릭터와 설정 블록을 세 프롬프트 모두에서 글자 단위로 동일하게 유지하세요.

4단계 — 클립 간 목소리 고정(선택적 마무리)

클립 간에 목소리가 약간 바뀌면——여러 클립에서 흔한 아티팩트——표준 제작 해법이 있습니다. 보컬 트랙을 내보내, 캐릭터마다 고정한 하나의 목소리로 음성 도구(보통 ElevenLabs 보이스 체인저)에 통과시킨 뒤 재동기화합니다. 이렇게 하면 마라는 모든 컷에서 정확히 마라의 목소리가 됩니다. 이는 Veo 3 프롬프트가 아니라 편집 단계지만, 클라이언트 작업을 위해 알아둘 가치가 있습니다.

흔한 실패와 해결법

한 대사에서 두 캐릭터의 입이 모두 움직인다. 원인: 귀속되지 않은 대화 또는 거의 동일한 묘사. 해결: 대사에 이름 태그를 달고 캐릭터를 더 구별되게 만든다.

잘못된 목소리가 잘못된 캐릭터에서 나온다. 원인: 목소리가 너무 비슷해 Veo 3가 뒤바꾼다. 해결: 음높이/억양/속도 간격을 넓히고, 대사 안에 의상 태그를 넣는다.

서로 동시에 말한다. 원인: 말차례 교대가 연출되지 않음. 해결: 반응 비트를 추가해 대사 사이에 한 캐릭터가 눈에 띄게 듣게 한다.

복잡한 투숏에서 동기화가 어긋난다. 원인: 8초 클립에 대사가 너무 많음. 해결: 대사 수를 줄이거나 숏-리버스숏으로 전환한다.

컷 사이에서 캐릭터 외모가 달라진다. 원인: 프롬프트 간에 캐릭터 블록이 바뀜. 해결: 묘사를 한 글자도 틀리지 않게 복사하거나 참조 이미지를 사용한다.

둘이 빠르게 말하면 음성이 탁해진다. 원인: 빠른 동시 발화는 Veo 3에 가장 어려운 경우. 해결: 절대 동시에 말하게 하지 말고, 항상 간격을 두고 대사를 순서대로 배치한다.

두 캐릭터 대화의 실제 활용 사례

콩트와 짧은 코미디 — 설정/펀치라인 연결은 대비되는 두 목소리의 팽팽한 투숏에서 가장 잘 살아납니다.
광고·UGC 장면 — 고객이 질문하고 "친구"가 답하는 형식은 전환율이 가장 높은 짧은 포맷 중 하나이며, Veo 3는 배우 없이 해냅니다.
설명·교육 클립 — "호기심 많은 학습자 / 인내심 있는 전문가" 쌍은 딱딱한 주제를 볼 만하게 만듭니다.
내러티브 영화 테스트 — 감독은 실사 촬영 전에 숏-리버스숏으로 장면을 프리비주얼라이즈합니다.
현지화 버전 — 연출이 잡히면 목소리 억양을 바꿔 같은 장면을 여러 시장용으로 양산합니다.

대화가 특히 한 가지 질문의 "거리 인터뷰" 형식이라면, 그것은 다른 연출입니다. 단일 응답자를 위해 만들어진 Veo 3 거리 인터뷰 프롬프트 가이드를 보세요(대화가 아니라 단일 응답자용). 대화 주변의 영화적 룩에는 Veo 3 시네마틱 프롬프트와 Veo 3 비주얼 스타일 가이드가 조명과 색보정을, 목소리 아래의 음향 레이어는 Veo 3 오디오 생성 가이드가 다룹니다.

빠른 시작 체크리스트

두 캐릭터 장면을 생성하기 전에 확인하세요.

[ ] 두 캐릭터를 대비된 외모와 목소리로 정의
[ ] 각 대사에 이름 또는 고유한 시각 태그
[ ] 대사당 반응 비트 하나 연출
[ ] 8초 클립에 짧은 대사는 2~4개까지
[ ] 숏 종류 선택(빠르면 투숏, 팽팽한 동기화면 숏-리버스숏)
[ ] 배경음 지정
[ ] 여러 클립일 때 캐릭터와 설정 블록을 동일하게

Veo 3에서 시도하기

가장 빠르게 체화하는 방법은 다이너 예제를 실행한 뒤, 자신의 두 캐릭터를 넣고 목소리 대비와 반응 비트가 결과를 어떻게 바꾸는지 관찰하는 것입니다. veo3ai.io에서 Veo 3를 무료로 사용할 수 있으며, 숏-리버스숏으로 넘어가기 전에 먼저 단일 투숏부터 시작할 수 있습니다. 플랫폼이 완전히 처음이신가요? Google Veo 3 사용 가이드가 첫 클립을 안내하고, Veo 3 프롬프트 가이드가 대화를 쌓아 올릴 기초를 다룹니다.

자주 묻는 질문

Veo 3가 두 캐릭터의 진짜 대화를 만들 수 있나요? 네——Veo 3는 구별된 목소리와 립싱크로 동기화된 대화를 생성하며, 이것이 돋보이는 능력입니다. 핵심은 각 대사를 이름이 있는 캐릭터에 귀속시키고 반응 비트로 말차례 교대를 연출하는 것이며, 태그 없는 대화를 프롬프트에 던져 넣지 않는 것입니다.

Veo 3 한 클립에 대사가 몇 줄 들어가나요? 두 화자가 있는 8초 클립이면 합쳐서 2~4개의 짧은 대사를 목표로 하세요. 그 이상이면 타이밍이 압축되고 립싱크가 저하됩니다. 긴 대화는 숏-리버스숏으로 여러 클립에 나눠 이어 붙입니다.

한 명만 말하는데 왜 두 캐릭터의 입이 다 움직이나요? 대화의 귀속이 불명확하거나 캐릭터 묘사가 너무 비슷할 때 일어납니다. 각 대사에 이름 태그를 달고 외모와 목소리의 대비를 키워 Veo 3가 구별하게 하세요.

여러 클립에서 각 캐릭터의 목소리를 같게 유지하려면? 각 프롬프트에서 목소리 묘사를 동일하게 유지하고, 그래도 흔들리면 음성을 내보내 각 캐릭터의 보컬 트랙을 음성 도구의 고정된 한 목소리로 통과시킨 뒤 재동기화하세요. 이미지 일관성과 결합하면 얼굴과 목소리 모두 안정됩니다.

대화 장면은 한 클립인가요, 여러 클립인가요? 두 얼굴을 모두 보여주고 싶은 빠르고 가벼운 주고받기에는 단일 투숏. 길거나 감정적으로 중요한 장면에는 여러 클립의 숏-리버스숏——단일 화자 클립은 귀속 모호함이 없어 가장 팽팽한 립싱크를 줍니다.

거리 인터뷰와의 차이는? 거리 인터뷰는 카메라를 향해 질문에 답하는 한 사람(단일 화자)이지만, 두 캐릭터 대화는 화면 속 두 캐릭터가 말차례를 주고받는 것입니다. 연출이 다르므로, 진짜 대화에는 이 가이드의 대화 구조를 사용하세요.

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video