Superposición y capas en vídeo y diseño

Name: Polimake
Author: Polimake

Superposición en vídeo y diseño: de la cámara multiplano de Disney al compositing digital. Capas, modos de fusión, jerarquía y errores que arruinan la imagen.

Polimake · Platform

El equipo detrás de Polimake. Exploramos la intersección entre tecnología, creatividad y automatización.

Publicado: 5 de junio de 2025

Cuando un montador habla de "poner un texto encima del vídeo," cuando un diseñador ajusta el orden de capas en Photoshop, cuando un desarrollador define el z-index de un menú flotante, todos están haciendo la misma cosa: superposición. Combinar elementos visuales para que coexistan en la misma imagen sin perder legibilidad.

Suena trivial. No lo es. La diferencia entre una pieza profesional y una amateur muchas veces se decide en este terreno: cómo se apilan los elementos, en qué orden, con qué transparencia, con qué jerarquía. Una mala superposición convierte un buen vídeo en un anuncio confuso, una marca cuidada en una marca ruidosa, una pantalla limpia en una saturada de información.

Este artículo recorre qué es la superposición, de dónde viene técnicamente, cómo se trabaja hoy, y dónde se equivocan los equipos cuando empiezan a apilar capas.

De la cámara multiplano al compositing digital

La idea de superponer imágenes para crear una composición más rica es muy anterior a los ordenadores. En el cine de animación, Walt Disney Studios desarrolló la cámara multiplano, patentada en 1936 y usada por primera vez en el corto The Old Mill (1937), que filmaba varias capas de dibujo en planos físicos a distintas distancias, produciendo una sensación de profundidad inalcanzable hasta entonces. Snow White and the Seven Dwarfs (1937) y Bambi (1942) la llevaron al estándar.

En cinematografía con actores reales, el compositing nació antes pero se sofisticó en los años 60. Mary Poppins (1964) usó el "sodium vapor process" para combinar actores con animación; Star Wars (1977) refinó el optical compositing con la VistaVision; The Abyss (1989) introdujo el primer compositing digital significativo en una película comercial; Forrest Gump (1994) hizo del compositing digital una herramienta narrativa central, insertando a Tom Hanks en metraje histórico.

En diseño gráfico, el concepto de "capas" llegó al gran público con Photoshop 3.0, lanzado en 1994. Antes, los diseñadores trabajaban en una sola capa y los cambios eran destructivos. Las capas permitieron componer no destructivamente: cada elemento vive aislado, se puede mover, ocultar o eliminar sin afectar al resto. Es difícil hoy imaginar el impacto que tuvo, pero cambió por completo la forma de trabajar.

En vídeo, After Effects (CoSA, 1993; adquirido por Adobe en 1994) trasladó el modelo de capas al motion graphics, y Nuke (Foundry, 1993, dominante en VFX desde mediados de los 2000s) llevó el compositing profesional al estándar nodal usado hoy en cine.

En web, las capas son z-index: una propiedad CSS estandarizada en CSS 2.0 (W3C, 1998) que decide qué elemento aparece encima de cuál cuando se solapan. Los desarrolladores frontend pasan más tiempo del que admitirían peleándose con stacking contexts.

Cuatro contextos, animación, cine, diseño gráfico, web, y la misma idea de fondo: ordenar visualmente lo que ocupa el mismo espacio.

Cómo funciona técnicamente

Cuando dos elementos visuales se superponen, el ordenador tiene que decidir píxel a píxel qué se ve. Eso depende de tres parámetros:

Orden de capas. Las capas se apilan de abajo hacia arriba. La capa superior es la que se ve por encima de las inferiores. En After Effects, Premiere o Photoshop esto es un panel vertical donde la capa de arriba en la lista se renderiza encima en la imagen. En CSS, el z-index (y los stacking contexts) cumple esta función.

Transparencia (opacity / alpha). Cada capa puede ser parcialmente transparente. Una opacidad del 100% bloquea completamente lo de abajo; al 50%, la capa de abajo se ve a través con la mitad de fuerza; al 0%, la capa es invisible. La transparencia puede ser uniforme (toda la capa al mismo nivel) o variable por píxel mediante un canal alpha (un PNG-32 ya lleva alpha por píxel; un JPG no soporta alpha en absoluto).

Modo de fusión (blending mode). En lugar de simplemente "tapar" lo de abajo, la capa puede combinarse matemáticamente con las capas inferiores. Multiplicar, pantalla, superponer, luz suave, oscurecer, aclarar… Cada modo aplica una operación distinta píxel a píxel. Photoshop popularizó esta nomenclatura (originada en imprenta y trasladada a software a finales de los 80) y casi todo el software moderno usa los mismos nombres y matemáticas.

Los modos de fusión más usados:

Multiplicar (Multiply): oscurece. Útil para tinta sobre fondo claro.
Pantalla (Screen): aclara. Útil para luces, destellos, sobre fondo oscuro.
Superponer (Overlay): combina multiplicar y pantalla según luminosidad. Útil para añadir contraste o textura.
Luz suave (Soft Light): como overlay pero más sutil. Útil para acabados delicados.
Oscurecer (Darken) y Aclarar (Lighten): comparan y eligen el píxel más oscuro o más claro entre capas.

Conocer estos cinco cubre la mayoría de necesidades de motion graphics y diseño. El resto son refinamientos.

Usos típicos en vídeo

Cuando se habla de superposición en vídeo, normalmente se refiere a estos casos:

Lower thirds. El bloque de texto en el tercio inferior con nombre y cargo del entrevistado. Originado en informativos televisivos de los 80, se ha vuelto casi universal en vídeo corporativo. Una capa de texto sobre una capa de fondo (rectángulo, gradient, forma de marca), todo con animación de entrada y salida.

Subtítulos quemados (burned-in). Texto fijo dentro de la imagen, no removible por el reproductor. La opción correcta para Reels, TikTok y Stories donde el 80%+ del consumo es sin sonido.

Logo bug. Logotipo permanente en una esquina, típicamente superior derecha, durante todo el vídeo. Identifica el canal o la marca. En broadcast es estándar; en formatos digitales se usa con menos frecuencia.

Overlay de marca. Elementos visuales, líneas, formas, gradientes, que envuelven el contenido para alinearlo con la identidad de la marca. Pueden ser persistentes (todo el vídeo) o de transición.

Pantalla partida (split screen). Dos o más vídeos visibles a la vez. Cada uno en su propia capa con máscara que define qué área ocupa.

Llamadas visuales (call-outs). Flechas, círculos, etiquetas que apuntan a un elemento del vídeo. Frecuente en tutoriales y vídeos explicativos.

Picture-in-picture. Un vídeo más pequeño superpuesto a otro más grande. Habitual en vídeos donde alguien comenta sobre una pantalla compartida o gameplay.

Texto kinético (kinetic typography). Texto animado que enfatiza palabras o ritmo. Una técnica con su propia historia, popularizada en los créditos de Saul Bass desde los años 50 (su trabajo para Vertigo en 1958 sigue siendo referencia) y democratizada por After Effects.

Efectos de transparencia y double exposure. Imágenes que se mezclan creando capas semitransparentes, recurso visual habitual en branding aspiracional, vídeos musicales, contenido editorial.

Recursos B-roll superpuestos. Imágenes complementarias que enriquecen la narración principal. Típico en documentales: el entrevistado habla y la imagen va alternando entre su rostro y planos relacionados con lo que cuenta.

La jerarquía visual: qué se ve primero

Una superposición técnicamente correcta puede ser visualmente desastrosa. La pregunta que importa no es solo "qué hay en la pantalla" sino "qué quiero que el espectador mire primero."

La jerarquía visual se construye con tres herramientas:

Tamaño. Lo grande domina. El elemento más grande de la pantalla suele leerse primero.

Contraste. Lo que destaca contra su fondo se lee antes. Texto blanco sobre fondo oscuro tiene más jerarquía que texto blanco sobre fondo claro, aunque el segundo sea más grande.

Posición. En lectura occidental, el ojo va de arriba-izquierda a abajo-derecha. Los elementos en el primer cuadrante reciben más atención por defecto.

Una superposición que ignora estas tres dimensiones produce ruido visual: muchos elementos compitiendo, ninguno claramente dominante, el espectador sin saber dónde mirar y al final sin recordar nada.

La regla heurística más útil: un solo elemento dominante por momento. Si hay un lower third, no compite con un texto kinético al mismo tiempo. Si hay un overlay de marca importante, no se le suma una llamada visual. Si la cara del entrevistado es lo importante, los gráficos respiran a su lado, no encima.

Errores que repiten todos los principiantes

Demasiadas capas activas a la vez. Tres elementos compitiendo por la atención producen frustración. Si todo está destacado, nada lo está.

Texto ilegible por contraste insuficiente. Texto blanco sobre fondo claro, texto fino sobre imagen contrastada. Solución: caja de fondo semitransparente, sombra suave, contorno fino, o reservar una zona de fondo plano para el texto.

Tipografía mal usada. Tipografías condensadas en tamaños pequeños, kerning suelto, dos o tres tipografías mezcladas sin lógica. La superposición de texto requiere tipografía cuidada o se nota.

Animación excesiva. Cada capa entrando y saliendo con una animación distinta. El conjunto se siente caótico. Solución: vocabulario reducido y consistente, una o dos animaciones de entrada, una o dos de salida, en toda la pieza.

Logo bug enorme. Un logo del 15% de la pantalla durante todo el vídeo distrae más que identifica. La regla broadcast tradicional ronda el 5-7% del lado más corto.

Margen de seguridad ignorado. Texto demasiado pegado al borde puede ser cortado por interfaces de redes sociales (los iconos de TikTok ocupan los bordes derecho e inferior; Instagram Stories tiene zonas reservadas para usuario y respuestas). Solución: zona segura interior del 10-15% por cada lado.

Inconsistencia entre piezas de la misma campaña. Cada vídeo de la campaña tiene su propio sistema de overlays, su propio lower third, su propia tipografía. Resultado: la marca se siente improvisada. Solución: un sistema de motion definido, tipografías, colores, animaciones, posiciones, márgenes, y aplicado en todas las piezas.

Modos de fusión usados como decoración. Aplicar overlay solo "porque queda interesante" suele empeorar la imagen. Cada modo de fusión resuelve un problema concreto; usarlos sin propósito introduce ruido.

Ignorar el formato de destino. Un overlay diseñado para 16:9 horizontal puede caer fuera del encuadre en una versión 9:16 vertical, o quedar tapado por la interfaz de la red social. Diseñar pensando en todas las versiones desde el principio evita el rediseño en la última semana.

Cómo cambia el contexto digital

Las redes sociales, Instagram, TikTok, YouTube Shorts, han cambiado las convenciones de superposición.

Texto grande y temprano. Como el consumo es sin sonido y el espectador decide en 1-2 segundos si sigue viendo, el texto principal aparece en los primeros segundos y ocupa una porción notable de la pantalla.

Subtítulos quemados estilizados. Ya no son la franja blanca de Netflix. Son texto animado, con resaltados de color, ritmo sincronizado con la voz, parte del lenguaje visual de la pieza.

Stickers y elementos nativos. TikTok, Instagram y BeReal tienen sus propios elementos visuales, encuestas, cuenta atrás, menciones, que coexisten con los overlays editoriales. Hay que dejar espacio para que la plataforma añada los suyos sin romper el diseño.

Verticalidad. Encuadres y composiciones diseñados para vertical, no portados desde horizontal. Los lower thirds tradicionales no funcionan en vertical: no hay "tercio inferior" del mismo modo. La información va en el centro o en zonas seguras específicas.

Cómo encajar la superposición en el flujo

La diferencia entre un equipo que produce piezas coherentes y uno que improvisa cada vez es si la superposición está sistematizada o no.

Plantillas de motion con lower thirds, overlays, tipografías y animaciones predefinidas, listas para aplicar en cualquier proyecto.
Sistema de marca documentado con reglas de uso de logo, márgenes, colores, tipografías, no un PDF de manual ignorado, sino archivos vivos en el software de edición.
Plantillas adaptadas a cada formato (16:9, 9:16, 1:1, 4:5) para que la versión vertical no sea un recorte improvisado.
Revisión visual sistemática: un check antes de exportar que valide jerarquía, contraste, márgenes seguros, consistencia con campaña.

Operaciones creativas es lo que asegura que esto no dependa de la memoria de quien edita ese día. En Polimake, Studio define el sistema de motion y supervisa coherencia de marca; Media ejecuta la superposición en cada pieza siguiendo plantillas; Studio coordina las solicitudes para que las plantillas se apliquen en todos los formatos sin saltos.

Esto se relaciona con motion graphics como territorio más amplio, con la fase de postproducción donde la superposición se trabaja, y con la imagen corporativa que define cuándo y cómo aparecen los elementos de marca.

Para cerrar

Superponer elementos visuales es lo más fácil del mundo en cualquier software moderno: arrastras una capa, cae encima de la otra, listo. Hacerlo bien, que comunique en lugar de saturar, que respete jerarquía, que mantenga coherencia entre piezas, que sobreviva a recortes y formatos distintos, es lo que separa una marca cuidada de una ruidosa.

La técnica detrás, ordenes de capa, opacity, modos de fusión, márgenes seguros, se aprende en una semana. La disciplina, no apilar por instinto, mantener un sistema, revisar antes de publicar, es lo que tarda años. Y es lo que, al final, decide si los espectadores recuerdan tu mensaje o solo recuerdan que la pantalla estaba llena de cosas.

Referencias rápidas

Una sola jerarquía dominante por momento. Si todo destaca, nada destaca.
Contraste primero, animación después. Texto ilegible no se arregla con efectos.
Margen de seguridad del 10-15% por cada lado para sobrevivir a interfaces.
Logo bug pequeño, alrededor de 5-7% del lado corto.
Cinco modos de fusión cubren el 90%: multiplicar, pantalla, superponer, luz suave, oscurecer/aclarar.
Plantillas de motion, no decisiones manuales cada vez.
Diseñar para todos los formatos desde el inicio (16:9, 9:16, 1:1).
Subtítulos quemados para canales de consumo silencioso; SRT separado para los demás.
Sistema de marca aplicado, no un manual ignorado en un PDF.

De la cámara multiplano al compositing digital

Cómo funciona técnicamente

Usos típicos en vídeo

La jerarquía visual: qué se ve primero

Errores que repiten todos los principiantes

Cómo cambia el contexto digital

Cómo encajar la superposición en el flujo

Para cerrar

Referencias rápidas

Contenido relacionado

Bruto o archivo virgen: qué es y cómo gestionarlo

Fases de animacion sencilla

Por qué producir vídeo suele ser tan caro (y cómo controlarlo)