Veo 3 영상에서 자막 지우는 법: 깨진 캡션 버그 해결하기 (2026)

Veo 3는 대사 클립에 깨진 자막을 구워 넣습니다. 생성 단계에서 막고 후반 작업에서 지우는 2026 완전 매뉴얼.

Emma Chen · 10 min read · Jun 25, 2026

Veo 3 AI 영상에서 박힌 자막·캡션을 지우는 방법

완벽한 Veo 3 프롬프트를 작성했습니다. 캐릭터도 딱 맞고, 조명은 영화 같고, 목소리도 사람 같죠. 그런데 화면 아래쪽에 깨지고 철자가 반쯤 틀린 자막 띠가 박혀서 나타납니다. 캡션은 요청한 적이 없습니다. 심지어 「no subtitles」라고 적었는데도 그대로 떠 버립니다.

이런 경험이 있다면, 당신이 뭔가 잘못한 게 아닙니다. Veo 3의 자동 자막 동작은 이 모델에서 가장 많이 보고되는 문제 중 하나로, Reddit 스레드부터 MIT Technology Review까지 두루 다뤄졌습니다. 캡션은 흔히 의미가 없고, 픽셀에 구워져 있으며(끌 수 있는 트랙이 아닙니다), 나중에 없애려면 추가 크레딧이 들 수도 있습니다.

이 가이드는 자막 없는 깔끔한 Veo 3 영상을 위한, 검증된 완전 실전 매뉴얼입니다. 왜 Veo 3가 자막을 붙이는지, 생성 단계에서 자막을 막는 프롬프트 기법, 그리고 예방에 실패했을 때 후반 작업에서 지우는 방법을 정확히 배웁니다. 아래 프롬프트는 모두 복사·붙여넣기 가능합니다. 다 읽고 나면, 박힌 글자 없이 '말하는 캐릭터' 클립을 만드는 재현 가능한 워크플로를 갖게 됩니다.

Veo 3는 왜 요청하지도 않은 자막을 붙일까

버그를 확실히 고치려면 그 출처를 이해해야 합니다. 이건 당신이 끄는 걸 깜빡한 설정이 아니라, 모델이 학습된 방식에서 비롯된 부작용입니다.

1. 학습 데이터가 캡션투성이였다. Veo 3는 방대한 실사 영상으로부터 영상과 동기화된 소리를 생성하는 법을 배웠습니다. 그 영상의 상당수—뉴스, 소셜 영상, 튜토리얼, 영화 장면—에는 이미 자막이나 화면 캡션이 구워져 있었습니다. 모델은 클립에 말소리가 들어 있다고 판단하면, 말소리를 화면 글자와 연결하도록 학습되어 있습니다. 그래서 '친절하게' 캡션을 그려 넣습니다.

2. 캡션은 별도 트랙이 아니라 구워진 것이다. 바로 이 점이 대부분을 당황하게 합니다. 일반 영상 편집기에서 자막은 켜고 끌 수 있는 레이어입니다. 하지만 Veo 3 출력물에서 글자는 렌더링된 이미지 자체의 일부—배우 얼굴, 배경과 같은 픽셀입니다. '자막: 끄기' 버튼이 없는 이유는 자막 레이어 자체가 없기 때문입니다. 그래서 내보낸 뒤 단순히 끌 수 없습니다.

3. 글자가 자주 깨져 있다. 모델이 글자를 조판하는 게 아니라 그리기 때문에, 캡션은 오타, 중복, 완전한 횡설수설이 되기 일쑤입니다. 이는 보통 자막보다 더 나쁩니다—전문적인 클립을 망가진 것처럼 보이게 만드니까요.

4. 깔끔한 결과가 가장 필요한 순간에 가장 피하기 어렵다. 이 버그는 대사와 내레이션에 의해 촉발됩니다. 즉, Veo 3의 대표 기능—캐릭터가 실제로 말하는 네이티브 오디오—를 쓰는 바로 그 순간이, 원치 않는 글자가 가장 잘 나오는 순간입니다. 이 가이드는 바로 그 모순을 해결합니다.

이를 알면 전략은 두 겹입니다. 프롬프트 구조로 생성 단계에서 캡션을 막고, 재생성이 크레딧 값을 못 할 때는 후반 작업에서 지우는 것입니다. 무료이니 예방부터 시작하죠.

1부 — 생성 단계에서 자막 막기 (무료 해법)

예방은 언제나 삭제보다 쌉니다. 다음 네 가지 기법은 겹쳐 쓸 수 있습니다—가장 신뢰할 만한 깔끔한 결과를 위해 모두 함께 사용하세요. Gemini 앱, Google Flow, Google AI Studio, Veo 3 API에서 작동합니다.

기법 1: 대사에는 따옴표가 아니라 콜론을 쓴다

이것이 단독으로 가장 효과가 큰 변경입니다. 말하는 대사를 어떻게 서식화하느냐가 캡션 출현에 크게 영향을 줍니다.

대사를 따옴표나 아포스트로피로 감싸면, 모델에게 '쓰여진 글자'를 보여 주는 셈입니다—그리고 쓰여진 글자야말로 모델이 화면에 그려 내기 쉬운 대상입니다. 대신 단순한 콜론을 쓰면, 모델은 그 줄을 소리만으로 취급할 가능성이 훨씬 높아집니다.

❌ 캡션을 유발 (따옴표):

A barista says: "Your latte is ready, enjoy your morning."

✅ 더 깔끔 (콜론, 따옴표 없음):

A barista says: Your latte is ready, enjoy your morning.

대사 안의 아포스트로피도 따옴표처럼 작동하므로 피하세요. 클립이 끈질기게 버티면 축약형을 풀어 쓰세요(「don't」 대신 「do not」).

기법 2: 대사를 프롬프트 '맨 앞'에 둔다

프롬프트 순서는 많은 사람의 예상보다 더 중요합니다. 내레이션이나 대사를 프롬프트 맨 앞에—영상 묘사보다 먼저—두면 자막이 눈에 띄게 줄고, 덤으로 립싱크도 좋아진다고 여러 크리에이터가 보고했습니다. 한 크리에이터는 말소리를 맨 위로 옮긴 뒤 자막 없는 생성이 10번 연속 나왔다고 전했습니다.

❌ 대사가 끝에 묻혀 있음:

A slow dolly-in on a chef in a warm, busy kitchen, golden hour light through
the window, shallow depth of field. The chef looks up and says: Tonight we cook
something special.

✅ 대사를 먼저:

The chef says: Tonight we cook something special.
Visual: a slow dolly-in on a chef in a warm, busy kitchen, golden hour light
through the window, shallow depth of field.

기법 3: 대사 바로 뒤에 명시적 「no subtitles」를 넣는다

부정 지시는 도움이 되지만 배치가 중요합니다. 제약은 긴 단락의 맨 끝이 아니라 대사 바로 뒤에 붙이세요. 끝에 두면 모델이 무시할 수 있습니다.

The guide says: Follow me to the overlook. (no subtitles, no captions, no on-screen text)

잘 듣는 표현(대략 강한 순):

(no subtitles)
no captions, no subtitles, no text overlay
clean frame, no words on screen, no burned-in text
Do not add any subtitles or captions.

기법 4: 네거티브 프롬프트 칸을 채운다

Google Flow, Google AI Studio, 또는 Veo 3 API에서 생성한다면 전용 네거티브 프롬프트 칸이 있습니다. 사용하세요. 메인 프롬프트 안의 제약과는 별개로, 모델에게 더 명확한 두 번째 신호를 줍니다.

네거티브 프롬프트 (복사·붙여넣기):

subtitles, captions, closed captions, on-screen text, text overlay, watermark,
words on screen, lower-third text, burned-in text, sign language overlay

네거티브 프롬프트 칸이 여러 상황에서 어떻게 작동하는지는 Veo 3 네거티브 프롬프트 가이드에서 자세히 다룹니다. 전체 문법과, 같은 방식으로 억제할 수 있는 다른 아티팩트(손가락 증가, 일그러진 로고, 깜빡임)도 함께 설명합니다.

통합 '깔끔한 대사' 공식

네 기법을 모두 합치면, 자막 없는 대화 클립을 높은 성공률로 만들어 내는 템플릿이 됩니다.

[SPEAKER] says: [대사, 일반 텍스트, 따옴표·아포스트로피 없음].
(no subtitles, no captions, no on-screen text)

Visual: [피사체 + 동작], [배경], [조명], [카메라 움직임], [렌즈/피사계 심도].
Audio: [환경음], [목소리 톤], natural delivery.

Negative prompt: subtitles, captions, on-screen text, text overlay, watermark, words on screen

같은 구조는 전환율 높은 광고 포맷의 토대도 됩니다—그런 용도라면 Veo 3 UGC 광고 생성기 워크플로, 그리고 대사·효과음·립싱크를 다루는 더 넓은 Veo 3 네이티브 오디오 프롬프트 가이드와 함께 쓰세요.

2부 — 후반 작업에서 자막 지우기 (예방이 실패했을 때)

예방이 100%는 아닙니다. 특히 긴 대사나 두 사람이 말하는 장면에서는 여전히 캡션이 붙어 돌아오는 클립이 있습니다. 글자가 구워져 있으니, 이제는 글자 문제가 아니라 픽셀 문제입니다. 손상이 적은 순서대로 네 가지 삭제 방법을 소개합니다.

방법 1: 아래쪽 띠를 잘라낸다

Veo 3의 자동 캡션은 거의 항상 화면의 아래 3분의 1에 자리합니다. 가장 빠른 해법은 그 띠를 잘라내는 것입니다.

아무 편집기(CapCut, Premiere, DaVinci Resolve, 심지어 사진 앱)에서 화면 아래 12~18%를 잘라냅니다.
피사체가 가운데에 남도록 다시 프레이밍합니다.

트레이드오프: 화면 일부를 잃고 살짝 줌인되므로 720p/1080p 클립이 무뎌질 수 있습니다. 세로 9:16 콘텐츠에 가장 잘 맞습니다. 생성할 때 아래쪽에 여백을 두고 구도를 잡아 두면, 잘라내도 중요한 걸 잃지 않습니다.

방법 2: 로어서드나 B롤로 덮는다

지우는 대신 캡션을 가립니다.

아래쪽 띠 위에 직접 만든(올바른 철자의) 자막 박스, 브랜드 바, 로어서드를 얹습니다.
또는 몇 초짜리 B롤을 PIP 띠로 겹칩니다.

이렇게 하면 버그가 디자인 선택으로 바뀌고, 어차피 자막 바를 넣을 예정이던 소셜 영상에는 가장 빠른 길입니다. 그 위에 올바르게 적은 진짜 자막을 얹으세요.

방법 3: AI 텍스트/오브젝트 제거

구워진 글자 뒤의 픽셀을 복원해 덧칠해 주는 도구가 여럿 있습니다: 전용 AI 영상 오브젝트 제거 기능, 인페인팅 도구, 「remove text from video」류 유틸리티 등입니다. 결과는 배경이 얼마나 복잡한지에 달려 있습니다—민무늬 벽은 깔끔하게 지워지지만, 움직이고 디테일이 많은 배경은 번질 수 있습니다. 전체 내보내기 전에 항상 몇 프레임을 미리 확인하세요.

트레이드오프: 가장 좋은 도구는 유료이고, 디테일한 배경 처리는 완벽하지 않습니다. 잘라내면 구도가 망가지는 히어로 샷에만 한정해 쓰세요.

방법 4: 생성을 다시 돌린다 (최후의 수단)

클립이 결정적이고 후반 작업으로도 못 살리면 다시 생성합니다—단 1부의 네 예방 기법을 모두 적용한 뒤에만요. 같은 결함 프롬프트로 재생성하면 같은 결과를 위해 크레딧만 태웁니다. 결과를 실제로 바꾸는 건 콜론 서식·대사 먼저·네거티브 프롬프트를 갖춘 버전입니다.

재생성을 더 싸게 하려면, 먼저 저비용 요금제에서 시험하고 그다음 상위로 확장하세요. Veo 3 무료 액세스 가이드와 Veo 3 요금 분석에서 프리미엄 크레딧을 태우지 않고 프롬프트를 시험하는 법을 설명합니다.

삭제 방법 결정표

상황	최선의 방법	이유
세로 소셜 클립, 자막이 아래쪽	아래 띠 잘라내기	빠르고 무료, 9:16에 자연스러움
어차피 자막을 넣을 영상	직접 만든 로어서드로 덮기	버그를 기능으로
영화적 히어로 샷, 화면 전체가 중요	AI 텍스트 제거	구도 보존
핵심 클립, 후반으로 못 고침	수정 프롬프트로 재생성	수정 프롬프트로만 유효

3부 — 두 사람이 말하는 장면: 가장 어려운 경우

한 사람만 말하는 클립은 보통 1부로 해결됩니다. 두 캐릭터의 대화는 더 어렵습니다—Veo 3는 양쪽 대사에 자막을 붙일 수 있고, 때로 대사를 엉뚱한 입에 배정합니다.

두 가지가 도움이 됩니다.

1. 화자를 이름만이 아니라 위치와 외모로 지정한다. 모델은 '안나'가 누구인지 모르지만, '왼쪽의 빨간 재킷 여성'은 따라갈 수 있습니다.

The woman on the left in the red jacket says: Did you finish the report?
The man on the right in the grey shirt says: Almost, give me ten minutes.
(no subtitles, no captions, no on-screen text)

2. 각 대사를 짧게 유지한다. 긴 대사는 자막의 가장 큰 유발 요인입니다. 대화를 여러 짧은 클립—한 번에 한 차례 주고받기—으로 나눠 편집기에서 이어 붙이세요. 짧은 대사는 립싱크 정확도도 높입니다.

같은 캐릭터로 여러 샷의 장면을 만든다면, 더 큰 과제는 얼굴과 의상의 일관성입니다. Veo 3 캐릭터 일관성 가이드가 참조 이미지와 시드 기법을, Veo 3 거리 인터뷰 프롬프트가 대사 중심 포맷의 실제 예를 다룹니다.

4부 — Veo 3.1은 자막 버그를 고쳤을까?

Veo 3.1은 많은 것을 개선했습니다—프롬프트 준수 향상, 더 강한 캐릭터 고정, 더 깔끔한 오디오—하지만 자동 캡션 동작은 대사 중심 프롬프트에서 여전히 나타납니다. 같은 예방 스택이 유효합니다. 오히려 3.1의 지시 준수가 좋아지면서, 콜론 서식과 대사-먼저 기법이 원래 Veo 3보다 더 확실히 먹힙니다.

근본 원인에 대해 한마디: 구글이 이를 완전히 없애기는 정말 어렵습니다. 동작이 학습 데이터에 박혀 있어서, 진짜 수정은 캡션이 담긴 영상을 재라벨링하거나 걸러내고 다시 학습시키는 것을 뜻합니다—느리고 비용이 큰 작업이죠. 요약하면, 공식 토글을 기다리지 마세요. 이 가이드의 프롬프트·후반 작업 워크플로가 오늘의 현실적 해법이며, Veo 3, Veo 3 Fast, Veo 3.1 전반에서 계속 작동합니다.

최신 버전의 새 기능은 Veo 3.1 신기능 가이드를 보세요. 또 대사가 더 큰 image-to-video 파이프라인의 일부라면, Veo 3 image-to-video 가이드가 참조 프레임과 네이티브 오디오의 상호작용을 설명합니다.

자막을 다시 불러오는 흔한 다섯 가지 실수

기법을 아는 사람조차 자기 클립을 망칩니다. 자막을 슬며시 되살리는 패턴과 그것을 끊는 법을 소개합니다.

실수 1: '이번 한 번만' 따옴표를 남긴다. 대사를 따옴표로 쓰는 건 자연스럽습니다—대본이 그렇게 생겼으니까요. 하지만 따옴표는 화면 글자의 가장 강력한 유발 요인입니다. 간단한 테스트에서도 매번 콜론 형식을 쓰는 습관을 들이세요.

실수 2: 한 단락 분량의 대사를 쓴다. 대사가 길수록 자막 확률은 높아지고 립싱크는 나빠집니다. 각 대사를 클립당 짧은 한 문장 정도(8~12단어)로 제한하고, 대화 흐름은 편집기에 맡기세요. 이는 Veo 3의 자연스러운 8초 클립 길이 안에도 들어맞습니다.

실수 3: 제약을 맨 끝에만 둔다. 90단어 프롬프트 끝에 붙인 「no subtitles」는 나머지 전부와 모델의 주의를 두고 경쟁하다 자주 집니다. 제약을 대사 줄 바로 뒤에 두고, 네거티브 프롬프트 칸으로 뒷받침하세요.

실수 4: 아래 여백 없이 화면 끝까지 구도를 잡는다. 피사체를 화면 아래 끝에 바짝 붙였는데 자막이 떠 버리면, 피사체를 안 자르고 자막만 잘라낼 여지가 없습니다. 대사 클립을 생성할 땐 항상 아래쪽에 약간의 빈 공간을 남기세요.

실수 5: 똑같은 프롬프트로 재생성한다. 변경 없이 크레딧만 태우니 가장 비싼 실수입니다. 생성은 확률적이라 동일 프롬프트도 가끔은 깔끔하게 돌아옵니다—하지만 그건 수정이 아니라 도박입니다. 다음 생성에 크레딧을 쓰기 전에 항상 프롬프트를 바꾸세요(콜론, 대사 먼저, 제약, 네거티브 칸).

다섯 가지를 모두 피하면 깔끔한 출력 비율이 '가끔'에서 '거의 항상'으로 뛰어오릅니다. 프롬프트 구조가 Veo 3 생성 전반을 어떻게 제어하는지는 Veo 3 프롬프트 엔지니어링 가이드에서 더 깊이 다룹니다.

깔끔한 대사 완전 워크플로 (처음부터 끝까지)

먼저 대사를 쓴다—일반 텍스트로, 따옴표도 아포스트로피도 없이.
콜론으로 서식화: [Speaker] says: [대사].
바로 뒤에 제약을 붙인다: (no subtitles, no captions, no on-screen text).
그 아래에 영상 블록을 추가: 피사체, 동작, 배경, 조명, 카메라, 렌즈.
네거티브 프롬프트 칸을 채운다—캡션 차단 목록으로.
아래 여백을 두고 구도를 잡는다—잘라내기가 아프지 않게.
먼저 저비용 요금제로 생성—프롬프트가 깔끔한지 확인하려고.
결과의 아래 3분의 1을 점검. 깔끔하면 상위로 확장. 자막이 있으면 2부의 삭제 방법을 적용하거나 수정 프롬프트로 재생성.
필요하면 후반 작업에서 직접 만든 올바른 자막을 추가—이제 글자를 당신이 제어합니다.

이대로 하면 자막 버그는 반복되는 골칫거리가 아니라, 클립마다 한 번 체크하는 항목이 됩니다.

자주 묻는 질문

「no subtitles」라고 분명히 적었는데 왜 Veo 3는 자막을 붙이나요? 동작이 학습 데이터에서 비롯되고, 모델이 확실히 따르는 단일 지시가 아니기 때문입니다. 긴 프롬프트 끝에 둔 단독 「no subtitles」는 자주 무시됩니다. 콜론(따옴표 대신)도 쓰고, 대사를 먼저 두고, 네거티브 프롬프트 칸도 채우면 훨씬 나은 결과를 얻습니다. 기법을 겹쳐 쓰세요—단독으로 완벽한 건 없습니다.

설정에서 자막을 그냥 끌 수 없나요? 없습니다. Veo 3 자막은 별도 트랙이 아니라 픽셀에 구워져 있어 토글이 없습니다. 선택지는 생성 단계에서 막거나 후반 작업에서 지우는 것뿐입니다.

따옴표가 정말 자막을 일으키나요? 실제로는 그렇습니다—대사를 감싼 따옴표와 아포스트로피는 그 글자가 화면에 그려질 확률을 높입니다. 단순한 콜론(A man says: hello)으로 바꾸는 것이 가장 일관된 단일 해법입니다.

잘라내면 영상 화질이 떨어지나요? 아래쪽을 적당히(12~18%) 잘라내면 살짝 줌인되어 저해상도 클립이 무뎌질 수 있습니다. 생성할 때 아래에 빈 공간을 남기거나, 잘라낸 뒤 업스케일해 화질 저하를 피하세요.

자막 버그가 Veo 3.1과 Veo 3 Fast에도 영향을 주나요? 네, 현재의 모든 Veo 3 변형에서 대사 중심 프롬프트에 동작이 나타납니다. 같은 워크플로가 유효하며, 3.1의 향상된 프롬프트 준수 덕분에 프롬프트 측 수정이 더 확실해집니다.

두 사람이 말할 때—왜 엉뚱한 캐릭터가 말하나요? 화자가 명확히 구분되지 않으면 Veo 3는 대사를 잘못 배정할 수 있습니다. 각자를 위치와 외모로 지정하고('왼쪽의 빨간 재킷 여성'), 대사를 짧게 유지하며, 긴 대화를 별도 클립으로 나누세요.

결론

Veo 3의 자동 자막은 성가시지만 예측 가능합니다—그리고 예측 가능한 문제에는 재현 가능한 해법이 있습니다. 생성 단계에서는 네 가지 무료 기법(따옴표 대신 콜론, 대사 먼저, 내장된 「no subtitles」 제약, 채워 넣은 네거티브 프롬프트 칸)으로 막고, 후반 작업에서는 잘라내기, 오버레이, AI 텍스트 제거, 수정 재생성으로 지우세요. 이 두 겹 워크플로를 익히면, 클립을 망가져 보이게 하는 깨진 글자 없이 Veo 3의 최고 기능—진짜로 말하는 캐릭터—를 끌어낼 수 있습니다.

실전에 옮길 준비가 되셨나요? veo3ai.io에서 Veo 3로 자막 없는 깔끔한 대화 영상을 생성하세요. 위의 깔끔한 대사 공식부터 시작하세요.

Ready to create AI videos?

Turn ideas and images into finished videos with the core Veo3 AI tools.

Text to Video Image to Video