- Blog
- Flujo de trabajo con referencia de imagen en Veo 3 2026: mantén personajes y productos consistentes
Flujo de trabajo con referencia de imagen en Veo 3 2026: mantén personajes y productos consistentes
Un flujo de trabajo práctico con referencias de imagen en Veo 3 para mantener productos, personajes, mascotas y recursos visuales de marca consistentes en distintas tomas de video con IA.
Emma Chen · 18 min read · May 1, 2026

Flujo de trabajo con referencia de imagen en Veo 3 2026: Mantén personajes y productos consistentes

La referencia de imagen es uno de los flujos de trabajo más útiles para Veo 3 porque muchos proyectos de video fallan por una razón simple: el sujeto cambia. Un personaje se ve diferente de una toma a otra. La etiqueta de un producto se deforma. Una mascota pierde su forma. Un empaque cambia de color. El avatar de un fundador se convierte en otra persona. Una ubicación comienza con una dirección de iluminación y termina con otra. El video puede verse impresionante, pero es difícil usarlo en una campaña real porque la identidad visual es inestable.
Un flujo de trabajo con referencia de imagen en Veo 3 resuelve esto al tratar la imagen de referencia como el ancla de la escena. En lugar de pedirle al modelo que invente todo a partir de texto, comienzas con una hoja de personaje, foto de producto, maqueta de empaque, fotograma de storyboard, visual de marca o imagen clave aprobada. Luego, el prompt le indica a Veo 3 qué debe moverse mientras protege la identidad del sujeto. El objetivo no es solo un video más bonito. El objetivo es una continuidad usable.
Esta guía se centra en la consistencia práctica: cómo preparar imágenes de referencia, cómo escribir prompts que preserven personajes y productos, cómo planificar secuencias de tomas, cómo evaluar resultados y cómo construir un proceso de revisión repetible. Está escrita para marketers, equipos de ecommerce, creadores, agencias, educadores, equipos de videojuegos y cualquier persona que cree videos cortos donde el sujeto deba seguir siendo reconocible.
Usa este flujo de trabajo cuando text-to-video te dé la escena correcta pero el sujeto equivocado. Úsalo cuando una campaña necesite el mismo producto protagonista en varios clips. Úsalo cuando un personaje deba aparecer en una apertura, un primer plano, una toma de acción y un fotograma de CTA sin convertirse en otra persona. Úsalo cuando necesites un sistema visual, no una única generación afortunada.
Respuesta rápida: ¿Qué es un flujo de trabajo con referencia de imagen en Veo 3?
Un flujo de trabajo con referencia de imagen en Veo 3 comienza con una imagen fija que define el sujeto y luego usa prompts para generar movimiento mientras preserva ese sujeto. La imagen de referencia puede ser una foto de producto, hoja de personaje, mascota de marca, diseño de empaque, pantalla de app, ubicación o fotograma de storyboard aprobado. El prompt debe describir el movimiento, la cámara, la iluminación y el entorno, pero también debe indicar a Veo 3 que preserve los marcadores de identidad importantes.
Un flujo de trabajo simple se ve así:
- Elige una imagen de referencia de alta calidad.
- Identifica los detalles visuales que no deben cambiar.
- Escribe un prompt de movimiento alrededor de esos detalles fijos.
- Genera clips cortos y controlados.
- Rechaza los resultados donde la identidad del sujeto se desvíe.
- Usa el mejor clip como bloque de construcción para una secuencia.
- Repite con prompts similares para otras tomas.
Para fundamentos más amplios de prompts, lee ejemplos de prompts para Veo 3. Para contexto de flujos de trabajo gratuitos, consulta límites de Google AI Studio Veo 3. Para compararlo con otros modelos, revisa Veo 3 vs Runway Gen-4.5.
Por qué la consistencia importa más que un clip bonito
Las demos de video con IA suelen premiar la toma individual más sorprendente. La producción premia la repetibilidad. Si estás creando un clip experimental, puede ser aceptable una pequeña desviación del sujeto. Si estás creando anuncios de producto, teasers de lanzamiento, videos de fundadores, tráilers de juegos, intros de cursos o contenido social de marca, la consistencia se convierte en la diferencia entre un resultado usable y uno inutilizable.
Puede que un espectador no analice conscientemente cada detalle, pero nota cuando un producto cambia de forma, cuando el rostro de un personaje se ve diferente o cuando un color de marca cambia entre tomas. Esa inconsistencia debilita la confianza. En social pagado, puede hacer que un anuncio parezca menos creíble. En ecommerce, puede representar mal el producto. En storytelling, rompe la continuidad. En educación, distrae de la lección.
El valor de la imagen de referencia es el control. Le da al modelo un objetivo visual. También le da a tu equipo un estándar de revisión. En lugar de discutir si un clip “se ve bien”, puedes preguntar si conserva la referencia aprobada. ¿El logo sigue siendo legible? ¿El personaje mantiene el mismo cabello, ropa y silueta? ¿El producto sigue pareciéndose al SKU real? ¿La pantalla de la app conserva el diseño principal? Si la respuesta es no, rechaza el clip aunque el movimiento sea atractivo.
Prepara la imagen de referencia
La imagen de referencia debe ser limpia, bien iluminada e inequívoca. Si la imagen contiene demasiados sujetos, es posible que el modelo no sepa qué conservar. Si el producto es demasiado pequeño, la identidad se desviará. Si el personaje está oculto por sombras dramáticas, el video generado puede inventar detalles faltantes. Una buena imagen de referencia no necesita ser sofisticada, pero sí debe comunicar el sujeto con claridad.
Usa esta lista de verificación antes de subirla:
| Verificación de referencia | Qué buscar | Por qué importa |
|---|---|---|
| Tamaño del sujeto | El sujeto principal es lo suficientemente grande | Los sujetos pequeños se desvían más rápido |
| Fondo limpio | El fondo no compite | El modelo puede identificar el sujeto |
| Rasgos legibles | El rostro, logo, empaque o forma es visible | Se conservan los marcadores de identidad |
| Iluminación estable | No hay sombras extremas sobre detalles clave | Menos rasgos inventados |
| Relación de aspecto correcta | Coincide con el formato de video objetivo | Menor riesgo de recorte |
| Versión segura para la marca | Producto, colores y diseño aprobados | Reduce los ciclos de revisión |
Para personajes, usa un retrato limpio o una hoja de personaje. Para productos, usa una foto frontal del producto más un segundo ángulo si tu flujo de trabajo lo permite. Para pantallas de apps, usa una pantalla simplificada que muestre el diseño principal sin texto legal diminuto. Para ubicaciones, usa una imagen amplia que defina claramente el entorno.
Identifica los detalles no negociables
Antes de escribir el prompt, enumera los detalles que deben mantenerse estables. Este es el paso más importante porque “hazlo consistente” es demasiado vago. Veo 3 necesita instrucciones concretas de preservación.
Para un personaje, los elementos no negociables podrían incluir color de pelo, chaqueta, rango de edad, forma del rostro, gafas, zapatos y silueta general. Para un producto, podrían incluir forma del envase, color de la etiqueta, posición del logo, material, color de la tapa, tamaño y ángulo principal. Para una mascota, podrían incluir proporciones, ojos, textura, paleta y expresión. Para una ubicación, podrían incluir hora del día, arquitectura, mobiliario, señalización y temperatura de color.
Convierte esos detalles en una cláusula del prompt:
Conserva la forma exacta del producto, el cuerpo blanco de la botella, la tapa azul, la posición de la etiqueta frontal, la marca minimalista del logo y la iluminación limpia de estudio de la imagen de referencia.
o:
Mantén la misma identidad del personaje: pelo negro corto, gafas redondas, chaqueta bomber verde, silueta delgada, expresión tranquila y estilo animado cálido.
Esta cláusula debe aparecer antes de describir el movimiento. La preservación va primero porque define los límites de la toma.

Fórmula de prompt para referencia de imagen
Usa esta fórmula de prompt:
Usando la imagen de referencia como ancla de identidad, crea un video de [duración/estilo/formato] de [sujeto] haciendo [acción]. Conserva [detalles no negociables]. Añade [movimiento de cámara], [iluminación], [entorno] y [estado de ánimo]. No cambies [logos/texto/rostro/forma del producto]. Mantén al sujeto reconocible durante todo el clip.
Ejemplo para un producto:
Usando la imagen de referencia como ancla de identidad, crea un video vertical de producto de cinco segundos de la botella de cuidado de la piel de pie sobre una encimera de baño limpia. Conserva el cuerpo blanco de la botella, la tapa azul, la ubicación de la etiqueta frontal, los hombros redondeados y el estilo premium minimalista. Añade un acercamiento lento, luz suave de la mañana, reflejo sutil del agua y una atmósfera limpia de spa. No cambies el logo, la etiqueta, la forma de la botella ni el color de la tapa.
Ejemplo para un personaje:
Usando la imagen de referencia como ancla de identidad, crea una toma cinematográfica de seis segundos del mismo personaje caminando por un espacio de trabajo de estudio luminoso. Conserva el pelo negro corto, las gafas redondas, la chaqueta bomber verde, la estructura facial y la expresión tranquila y segura. Añade una toma de seguimiento fluida, luz diurna suave, poca profundidad de campo y movimiento natural. No cambies la identidad ni la ropa del personaje.
Ejemplo para una pantalla de app:
Usando la imagen de referencia como ancla visual, crea una toma de demo de producto de cuatro segundos del mismo panel de app en una tablet. Conserva el diseño del panel, los botones azules principales, las tarjetas de gráficos y la interfaz blanca y limpia. Añade una inclinación sutil de cámara, un reflejo suave y un movimiento de dedo en suspensión. No inventes nuevo texto de UI ni cambies el diseño.
Construye una secuencia sin perder continuidad
La parte más difícil no es generar un solo clip. Es generar varios clips que parezcan pertenecer al mismo conjunto. Para una secuencia de producto, empieza con una toma hero, luego crea tomas de primer plano, uso, entorno y CTA. Para una secuencia de personaje, empieza con un plano medio, luego crea tomas de reacción, acción, detalle y cierre. Mantén la misma referencia y la misma cláusula de preservación en cada prompt.
Una secuencia de producto podría verse así:
- Producto hero sobre fondo limpio.
- Producto levantado con un movimiento suave de la mano.
- Primer plano de la textura o característica.
- Entorno lifestyle con el mismo producto.
- Packshot final con CTA.
Una secuencia de personaje podría verse así:
- El personaje entra en la escena.
- El personaje mira una pantalla.
- El personaje reacciona a un resultado.
- El personaje camina por el entorno.
- El personaje aparece en la tarjeta de título final.
No cambies demasiadas variables entre tomas. Si la primera toma tiene una luz cálida de estudio y la segunda una luz nocturna de neón, la continuidad se vuelve más difícil. Si el estilo de cámara cambia de documental handheld a comercial brillante, la secuencia puede sentirse ensamblada de forma artificial. Mantén una biblia de estilo compartida: iluminación, sensación de lente, color grading, movimiento, descripción del sujeto y entorno.
Flujo de trabajo para la consistencia de producto
Los videos de producto no perdonan errores porque el objeto representa algo real. Un producto generado que parece casi correcto aún puede estar mal. Usa imágenes de referencia cuando necesites precisión en el empaque, consistencia de color, continuidad de materiales o escala del producto.
Empieza con un packshot limpio. Si el producto tiene un logotipo o una etiqueta con mucho texto, no esperes texto perfecto en cada frame. Usa el clip generado como material de movimiento y superpone el texto oficial en la edición cuando sea necesario. Para anuncios de ecommerce, la forma, el color y la reconocibilidad del producto importan más que pedirle al modelo que reproduzca cada pequeña línea de la etiqueta.
Cláusulas recomendadas para prompts de producto:
- “preserva la silueta exacta y las proporciones del empaque”
- “no cambies el diseño de la etiqueta”
- “el área del logotipo permanece estable y orientada hacia el frente”
- “el producto permanece centrado y reconocible”
- “sin sabores, afirmaciones, insignias ni etiquetas adicionales inventadas”
- “el movimiento de cámara es lo bastante sutil como para mantener el empaque legible”
Para primeros planos de producto, pide movimiento de materiales en lugar de cambios de identidad. Ejemplos: condensación en una lata, sombra suave bajo una botella, luz reflejándose en un borde metálico, partículas de polvo en un haz de estudio, producto girando ligeramente sin cambiar de forma.
Flujo de trabajo de consistencia de personajes
Los personajes necesitan protección de identidad: rostro, cuerpo, cabello, ropa y estilo. Si estás creando un avatar de creador, una mascota de marca, un personaje de juego o un presentador educativo, empieza con una imagen de referencia sólida. Una hoja de personaje con vistas frontal y lateral es mejor que una captura casual, pero incluso un retrato limpio es mejor que usar solo prompts de texto.
Usa descripciones estables en todos los prompts. No describas al personaje de forma diferente de una toma a otra. Si el personaje lleva una chaqueta verde en la primera toma, no digas “chaqueta azul” en la segunda. Si el estilo es animación 3D, no cambies a fotorrealista a menos que quieras intencionalmente una nueva versión.
Al revisar los resultados, compáralos lado a lado con la referencia. Mira primero el rostro, luego la silueta, después la ropa y finalmente el estilo. Rechaza clips donde el sujeto se convierta en una persona parecida pero diferente. Un clip hermoso con el personaje equivocado no es un buen clip.
Errores que debes evitar con imágenes de referencia
El primer error es subir un collage demasiado cargado. El modelo puede animar el objeto equivocado. El segundo error es depender de texto diminuto. La tipografía pequeña puede cambiar durante la generación. El tercer error es pedir una gran transformación cuando necesitas consistencia. Si dices “convierte este producto en una versión futurista”, el modelo puede obedecer y cambiar el producto. El cuarto error es cambiar la iluminación y el entorno de forma demasiado agresiva entre tomas.
El quinto error es no documentar el prompt ganador. Cuando un clip funciona, guarda el prompt, la imagen de referencia, la seed o los ajustes si están disponibles, la duración, la relación de aspecto y las notas de revisión. La consistencia mejora cuando el flujo de trabajo se vuelve repetible.
Lista de revisión
Usa esta lista antes de publicar:
- El sujeto sigue coincidiendo con la imagen de referencia.
- La forma, los colores y los detalles clave del producto se mantienen estables.
- El rostro, la ropa y la silueta del personaje siguen siendo reconocibles.
- No aparecen afirmaciones falsas, etiquetas inventadas ni características de producto engañosas.
- El movimiento de cámara mejora la toma sin ocultar detalles.
- El clip coincide con la relación de aspecto planificada.
- Las tomas de la secuencia comparten iluminación, gradación de color y estilo.
- La edición final incluye subtítulos u overlays oficiales cuando el texto exacto importa.
FAQ
¿Qué es un flujo de trabajo de referencia de imagen en Veo 3?
Es un proceso en el que una imagen fija ancla la identidad de un personaje, producto, ubicación o recurso de marca mientras Veo 3 genera movimiento a su alrededor.
¿Puede una referencia de imagen mantener un producto perfectamente preciso?
Mejora la consistencia, pero aun así debes revisar cuidadosamente la forma del producto, la etiqueta, el logotipo y las afirmaciones. Superpone el texto legal o de producto exacto en la edición cuando la precisión sea importante.
¿Qué imágenes funcionan mejor como referencias?
Funcionan mejor las imágenes limpias, de alta resolución, con un sujeto claro, iluminación estable y detalles de identidad visibles. Evita collages recargados y texto diminuto.
¿Cómo mantengo el mismo personaje entre tomas?
Reutiliza la misma imagen de referencia y la misma cláusula de preservación en cada prompt. Mantén coherentes la ropa, la iluminación, el estilo y el lenguaje de cámara.
¿Debería usar texto a video o imagen a video?
Usa texto a video para inventar escenas amplias. Usa imagen a video o referencia de imagen cuando importen la identidad del sujeto, la precisión del producto o la continuidad de marca.
¿Cuántos clips debería generar?
Para proyectos importantes, genera al menos tres variaciones por toma y rechaza cualquier resultado en el que la identidad del sujeto se desvíe.
Conclusión final
La referencia de imagen en Veo 3 no es solo una función práctica. Es un flujo de trabajo de producción para lograr consistencia. Empieza con una referencia sólida, define detalles de identidad no negociables, escribe prompts centrados en la preservación, genera clips cortos y controlados, y revisa los resultados comparándolos con la imagen original. Ese proceso te ayuda a convertir el video con AI de experimentos aislados en secuencias utilizables de personajes, productos y marcas.
Flujo de trabajo avanzado: crea un paquete de referencias
Para proyectos importantes, no dependas de una sola imagen casual. Crea un pequeño paquete de referencias antes de generar. Un paquete de referencias es una carpeta de anclajes visuales aprobados que definen el sujeto desde varios ángulos útiles. Puede incluir una toma frontal del producto, una toma lateral, una toma lifestyle, una referencia de color, un primer plano del empaque y el fondo final de marca. Para personajes, puede incluir vista frontal, vista de medio cuerpo, referencia de expresión, referencia de ropa y un fotograma de entorno.
El paquete de referencias no necesita ser complicado. Su función es reducir la ambigüedad. Cuando el equipo está de acuerdo con el paquete, quien escribe el prompt sabe qué detalles están protegidos y quien revisa sabe con qué comparar. Esto es especialmente útil para agencias porque evita comentarios de clientes como “el clip se ve bien, pero no es nuestro producto”. El estándar de aprobación existe antes de que comience la generación.
Cuando uses un paquete de referencias, elige la imagen principal para cada toma. No subas ni referencies todas las imágenes si la herramienta solo necesita un anclaje. Usa la imagen frontal del producto para tomas de producto, la imagen lifestyle para escenas contextuales y el primer plano para tomas de características. Mantén nombres de archivo descriptivos: hero-product-front, hero-product-side, founder-avatar-green-jacket, mascot-approved-expression o dashboard-clean-layout. Esto hace que el flujo de trabajo sea más fácil de repetir.
Matriz de tomas para campañas consistentes
Una matriz de tomas te ayuda a planificar un conjunto de videos sin perder continuidad. En lugar de generar clips aleatorios, define el propósito de cada toma y la regla de preservación para cada una.
| Toma | Propósito | Prioridad de referencia | Idea de movimiento | Enfoque de revisión |
|---|---|---|---|---|
| Packshot principal | Presentar el producto | Forma y etiqueta del producto | Acercamiento lento | Etiqueta, color, silueta |
| Uso en estilo de vida | Mostrar el contexto | Escala y color del producto | Interacción con la mano | El producto sigue siendo el mismo SKU |
| Primer plano de función | Explicar el beneficio | Material y detalle | Barrido de luz macro | Sin afirmaciones inventadas |
| Reacción del personaje | Añadir emoción | Rostro y ropa | Toma media con seguimiento | Misma persona, mismo atuendo |
| Fotograma de CTA | Terminar con claridad | Producto + paleta de marca | Plano fijo sostenido | Fotograma final legible |
Esta matriz es útil porque separa la ambición creativa del control de calidad. Cada toma tiene una razón. Cada toma también tiene una regla de rechazo. Si la toma de estilo de vida se ve hermosa pero el producto cambia al color equivocado, falla. Si la toma principal es precisa pero aburrida, genera una nueva variación de movimiento. Esto acelera la producción porque el feedback se vuelve específico.
Consejos de edición después de la generación
Incluso un clip sólido de Veo 3 suele necesitar edición. Usa el resultado generado como una base de movimiento. Recorta comienzos y finales débiles. Estabiliza el ritmo con subtítulos, superposiciones de producto, música o voz en off. Si el texto exacto de la etiqueta del producto importa, superpón el texto oficial o muestra una imagen fija verificada del producto después del movimiento generado. Si la identidad del personaje es importante, corta antes de que el rostro empiece a desviarse.
Para secuencias de varias tomas, iguala el color y el contraste en la edición. Los clips de IA generados desde la misma referencia aún pueden variar en brillo, saturación o sensación de lente. Una corrección de color sencilla puede hacer que la secuencia se sienta más consistente. Añade el mismo estilo de subtítulos y tratamiento de CTA en todos los clips. La consistencia no solo se genera; también se edita.
Medición: qué rastrear
Si usas referencias de imagen para marketing, rastrea los resultados prácticos. Mide cuántos clips generados fueron utilizables, cuántos fueron rechazados por deriva de identidad, qué cláusulas del prompt mejoraron la consistencia y qué imágenes de referencia funcionaron mejor. Con el tiempo, esto se convierte en un dataset de producción para tu equipo.
Los campos útiles de seguimiento incluyen: nombre de la imagen de referencia, versión del prompt, tipo de sujeto, relación de aspecto, duración del clip, aceptado o rechazado, motivo de rechazo, plataforma final y nota de rendimiento. Esto convierte el video con IA de un juego creativo de adivinanzas en un workflow repetible. El objetivo no es solo crear un video mejor; es aprender qué patrones de referencia y prompt protegen de forma fiable los activos de tu marca.

Related Articles
Continue with more blog posts in the same locale.

Generador de videos de previsualización de apps con Veo 3 2026: crea clips para tiendas de apps y productos
Un flujo práctico con Veo 3 para generar videos de previsualización de apps, clips para tiendas de apps, lanzamientos de producto, promos móviles, capturas, prompts y revisiones de QA.
Read article
Flujo de storyboard largo para Veo 3 2026: prompts multi-shot que mantienen la continuidad
Un flujo práctico de storyboard largo para Veo 3 para crear videos de IA multi-shot con continuidad, prompts reutilizables, mapas de escenas, revisiones de tomas y una estructura lista para edición.
Read article
Seedance 2.0 gratis vs Veo 3 gratis 2026: acceso, calidad y límites
Una comparación práctica de 2026 entre Seedance 2.0 gratis y Veo 3 gratis: acceso, calidad de salida, límites, flujos de trabajo y cuándo elegir cada opción gratuita de video con IA.
Read article