Mezcla de audio: qué es y cómo se hace bien
Mezcla de audio explicada en serio: dB, LUFS, EBU R128, mezclar para cada plataforma (Spotify -14, broadcast -23) y cómo evitar el error que destruye más vídeos.
El equipo detrás de Polimake. Exploramos la intersección entre tecnología, creatividad y automatización.
Hay una asimetría brutal en cómo se reciben los problemas técnicos en un vídeo: una imagen ligeramente fuera de foco se perdona, una sombra mal puesta también, hasta una transición torpe pasa desapercibida. Un audio mal mezclado, no. En segundos, la audiencia abandona o, al menos, baja el volumen y deja de prestar atención. Estudios sobre comportamiento de espectadores muestran que la calidad del sonido afecta la percepción de credibilidad de la marca antes incluso que la calidad de la imagen.
Y sin embargo, la mezcla de audio sigue siendo la fase más subestimada en muchas producciones. "El audio es lo último," "ya lo arreglamos en post," "se entiende, vale así." Esos atajos producen las piezas que suenan a vídeo casero por mucha producción visual que tengan detrás.
Este artículo recorre qué es realmente una mezcla de audio, los estándares de loudness que toda producción profesional debería cumplir, las decisiones técnicas que más afectan a una pieza, y los errores que se siguen viendo en 2026 incluso en producciones con presupuesto generoso.
Qué es exactamente una mezcla
Una mezcla de audio es el proceso de combinar varias pistas independientes —voz, música, efectos, ambientes— en un único archivo final que suene bien en su contexto de reproducción. Cada pista llega con su propio volumen, color, dinámica, y la mezcla las equilibra para que ninguna ahogue a las demás y para que el resultado tenga el carácter buscado.
En un vídeo corporativo típico, una mezcla puede incluir:
- Voz del entrevistado o presentador (pista principal cuando hay diálogo).
- Voz en off narrativa.
- Música de fondo (música bed).
- Efectos puntuales (transiciones, énfasis sonoros).
- Sonido ambiente (ambient sound, room tone) que da textura.
Cada elemento tiene su volumen, su EQ (ecualización tonal), su compresión, su efecto espacial. Lograr que coexistan sin pelearse es la mezcla.
Una breve historia: del estudio al móvil
La mezcla de audio como disciplina tiene un siglo. En los años 20-40, los Bell Labs y la radio comercial desarrollaron las primeras técnicas sistemáticas. El multitrack recording —grabar pistas separadas en lugar de una sola toma— se introdujo a mediados de los 50: Les Paul popularizó la grabación a múltiples pistas con su estudio doméstico hacia 1953-54, y Atlantic Records adoptó el formato 8-track en 1957.
Phil Spector desarrolló a principios de los 60 la "Wall of Sound", técnica de capas densas que cambió la producción pop. George Martin, productor de los Beatles, empujó las posibilidades del estudio entre 1963 y 1969 con grabaciones que hoy siguen estudiándose en escuelas de producción. Las consolas SSL desde finales de los 70 establecieron el estándar de las salas profesionales.
La revolución digital llegó en 1989 con Pro Tools (Digidesign, ahora Avid). Por primera vez, la mezcla podía hacerse en un ordenador con resultados profesionales. Logic Pro (originalmente Notator/Emagic, comprado por Apple en 2002), Ableton Live (2001), Cubase, Reaper democratizaron el acceso.
El gran cambio reciente —y el que más afecta a producción de marca— ha sido el cambio de contexto de reproducción. Históricamente, el audio se mezclaba para cines, salas de concierto, salas de estar con altavoces decentes. Hoy, la mayoría del audio se consume en altavoces de móvil, en auriculares de mala calidad, en bolas Bluetooth, en altavoces inteligentes. Una mezcla que ignora ese contexto fracasa por mucho que suene espectacular en estudio.
Los estándares de loudness: dB, LUFS, EBU R128
Aquí entra el tecnicismo más importante de la mezcla profesional moderna. Saltarlo es lo que distingue producción seria de improvisada.
Históricamente, el audio se medía en dBFS (decibelios respecto a Full Scale): nivel de pico instantáneo. Un dBFS = 0 es el máximo absoluto digital; pasar de ahí satura. Un dBFS = -6 es la mitad del máximo; -12 es un cuarto.
El problema: dBFS solo mide picos, no qué tan "alto" se percibe el audio. Una voz comprimida puede sonar mucho más alta que una orquesta sin comprimir, aunque ambas tengan los mismos picos. Por eso la "guerra de loudness" —donde música y comerciales subían cada vez más comprimidos para sonar "más fuertes"— se descontroló entre los 90 y los 2000.
La solución fue LUFS (Loudness Units relative to Full Scale). Estándar ITU-R BS.1770 publicado en 2006 y refinado en versiones posteriores. LUFS mide loudness percibido —cómo suena al oído humano—, ponderando frecuencias y promediando en el tiempo. Es la métrica honesta.
Los estándares de target loudness que toda mezcla profesional debe respetar:
Broadcast (TV):
- EBU R128 (Europa, 2010): -23 LUFS integrated, max true peak -1 dBTP.
- ATSC A/85 / CALM Act (EE.UU., aplicable desde diciembre 2012): -24 LKFS.
- AS/NZS 4646 (Australia, NZ): -24 LKFS.
- Programas y comerciales por debajo de estos niveles son rechazados por las cadenas o sancionados.
Streaming (música y audio):
- Spotify: -14 LUFS desde 2017 (antes -11). Audio que llega más alto se baja automáticamente.
- Apple Music: -16 LUFS.
- YouTube: -14 LUFS.
- Amazon Music: -14 LUFS.
- Tidal: -14 LUFS.
Cine:
- Cinema (sala): estándar de mezcla a -27 LUFS o equivalente con calibración Dolby. Mucho más dinámica que streaming.
Podcast:
- AES TD1004 (recomendación AES, 2017): -16 LUFS para podcasts (mono o estéreo).
La consecuencia para mezcla de marca: una mezcla profesional necesita versiones distintas según el destino. Mezclar a -23 LUFS para broadcast y subir el mismo archivo a Spotify produce un audio de 9 LUFS por debajo del estándar; las plataformas pueden subirlo automáticamente —pero la curva tonal y la dinámica original ya están comprometidas. Mejor master diferenciado por destino.
Cómo se trabaja una mezcla en la práctica
Más allá de loudness final, los pasos típicos de una mezcla:
1. Limpieza. Eliminar ruidos, hum eléctrico, clicks, plosivas (las "p" explosivas), de cada pista. Herramientas: iZotope RX (estándar profesional, especialmente RX 11 en 2026), Adobe Audition Speech Enhancement, Auphonic. Los modelos de IA recientes —iZotope Voice De-noise, Adobe Enhance Speech (lanzado público 2023)— han transformado esta fase: lo que antes requería una hora de cleanup manual hoy se hace en minutos con calidad superior.
2. Equilibrio de niveles (gain staging). Ajustar la ganancia de cada pista para que vivan en un rango razonable, sin saturar ni quedarse demasiado bajas. Errores aquí se propagan a todo el resto del proceso.
3. Ecualización (EQ). Filtrar frecuencias problemáticas, realzar las que aportan inteligibilidad o carácter. La voz típicamente se beneficia de un corte alto bajo (high-pass) hacia 80-100 Hz para quitar rumble, y un realce sutil en 2-4 kHz para inteligibilidad.
4. Compresión. Reducir el rango dinámico para que las partes más bajas se oigan y las más altas no saturen. Crítica para voz en vídeo —una compresión 3:1 con ratio adecuado vuelve la voz uniforme y comprensible.
5. Reverb y efectos espaciales si la pieza los pide. Una voz puede beneficiarse de un toque de reverb sutil para "encajar" en un escenario; demasiado satura.
6. Balance entre pistas. La voz típicamente entre -16 y -12 dBFS de pico en una mezcla con música. La música bed entre -28 y -24 dBFS cuando hay voz; sube a -16 a -12 cuando la voz no está. Los efectos puntuales pueden ser más altos para puntuar.
7. Automation. Cambios de volumen y EQ a lo largo de la pieza. La música baja al entrar la voz y sube al salir; reverb se intensifica en momentos emotivos; un sonido se atenúa para no competir con un cambio de plano.
8. Mastering / loudness final. Limitador en el master bus para asegurar que el pico no pasa de -1 dBTP, y meter LUFS hasta el target del destino.
9. Pruebas en distintos sistemas. Auriculares de estudio, auriculares de consumo, altavoces de monitor, altavoz de móvil, coche si es posible. Cada sistema revela problemas distintos.
El error más común en vídeo de marca
Si solo hubiera espacio para señalar uno: música demasiado alta sobre la voz. La música bed que en estudio suena "discreta" y emocional, en el móvil de la audiencia tapa por completo lo que se está diciendo. Y como el espectador no entiende, abandona.
La regla empírica que rara vez falla: cuando hay diálogo, la música debe estar al menos 10-12 dB por debajo de la voz. Si dudas, baja la música otros 3 dB. La música no es ahí para ser oída con detalle; es para crear contexto emocional bajo el discurso. El espectador no la apreciará menos por estar más baja; al contrario, no entenderá la voz si está más alta.
Otros errores que se repiten
Voz con ruido de fondo. Habitación con eco, aire acondicionado, ordenador zumbando. Una voz con ruido es voz que cansa. Soluciones: grabar con micrófono más cerca, en habitación más muerta, o usar IA de cleanup.
Plosivas y sibilancias sin tratar. Las "p" y "b" explosivas, las "s" silbantes —cada una requiere herramienta específica (de-popper, de-esser).
Cortes bruscos entre clips. Cada corte de audio entre tomas debería tener un crossfade suave. Los cortes secos producen "clicks" audibles que sacan al espectador del contenido.
Diferencias de volumen entre escenas. Si el primer entrevistado está mezclado a -16 LUFS y el siguiente a -12, el espectador percibe el salto y lo lee como problema técnico. Mezclar todo a un loudness común es básico.
Saturación / clipping. Picos por encima de -1 dBTP producen distorsión audible. Limitador en el master bus debería evitarlo, pero si las pistas individuales saturan antes, el mastering no salva.
Efectos exagerados. Cada efecto sonoro de transición —el "swoosh," el "boom," el "ding" del logo final— compite con la voz si está mal puesto y mal mezclado. El criterio: ¿este efecto añade algo o solo decora?
Mezclar solo en auriculares de estudio. Los Sennheiser HD 650 o equivalentes son herramienta de profesional, pero la audiencia oye en altavoces baratos de móvil. Probar en sistemas de consumo es indispensable.
No revisar el LUFS final. Subir un archivo sin medir su loudness es esperar que la plataforma lo iguale automáticamente —cosa que hace, pero comprometiendo la curva original.
Mezclar antes de aprobar la edición. Mezclar es lento. Si la duración o el orden de los clips cambia, hay que rehacer la mezcla. Mejor mezclar después de aprobar el corte fino del vídeo.
No conservar las stems. Las stems son las pistas de audio individuales (voz, música, efectos) exportadas por separado. Conservarlas permite remezclar más tarde —cambiar voz por otra traducción, ajustar para otro canal, sustituir música por una de licencia distinta. Sin stems, hay que volver a empezar.
Cómo encajar la mezcla en el flujo
La mezcla bien hecha no se improvisa. Necesita tiempo, herramientas y proceso.
Tiempo: una mezcla profesional de un vídeo corporativo de 2-3 minutos requiere típicamente 4-8 horas de trabajo de un ingeniero competente. Para piezas más complejas (multidiálogo, música original, doblaje), considerablemente más.
Herramientas: Pro Tools, Logic Pro, DaVinci Resolve Fairlight (integrado en DaVinci, gratuito), Reaper (low-cost). Plugins de iZotope (Ozone, RX, Neutron), FabFilter Pro-Q3, Waves, Soundtoys.
Proceso: mezcla en una sala con monitorización adecuada (no en oficina con ruido de fondo), con auriculares de calidad y altavoces de monitor, validando en sistemas de consumo antes de aprobar.
Operaciones creativas son lo que asegura que la mezcla no es la fase apresurada del último día. En Polimake, Studio define los criterios de calidad de audio por tipo de pieza; Media ejecuta producción con tiempo y herramientas adecuadas, exportando stems y máster por canal; Studio coordina los plazos para que la mezcla tenga su espacio antes de la entrega.
Esto se relaciona con la grabación de spots donde el audio decide la calidad percibida, con la postproducción como fase donde la mezcla vive, y con la decisión de formato de entrega que define qué loudness pide cada destino.
Para cerrar
La mezcla de audio es el detalle que la audiencia no nombra y que decide si la pieza se ve completa o se abandona. Una pieza con imagen brillante y audio mediocre se lee como amateur; una con imagen modesta y audio impecable se lee como profesional. La asimetría favorece invertir más de lo intuitivo en sonido.
La práctica que mejor envejece: tratar la mezcla como fase con su tiempo, sus estándares (LUFS, EBU R128, target por plataforma), sus herramientas y su criterio. Probar en sistemas de consumo antes de aprobar. Conservar stems. Mezclar versiones por destino, no un solo máster genérico. Cuando esa disciplina existe, la pieza suena bien donde se reproduzca, y el espectador no piensa en el audio —que es exactamente la señal de una mezcla bien hecha.
Referencias rápidas
- dBFS mide picos; LUFS mide loudness percibido (lo que importa).
- Broadcast Europa: -23 LUFS (EBU R128), max true peak -1 dBTP.
- Streaming música: -14 a -16 LUFS según plataforma.
- Podcast: -16 LUFS (AES TD1004).
- Cine: mezcla más dinámica, calibrada distinta.
- Música bajo voz: 10-12 dB por debajo, mínimo.
- Stems siempre: voz, música, efectos como pistas separadas exportables.
- Master por destino, no genérico.
- Probar en sistemas de consumo (móvil, auriculares baratos, coche), no solo monitorización pro.
- Herramientas IA (iZotope, Adobe Enhance Speech, Auphonic) han transformado la fase de cleanup.
- Mezclar después de aprobar la edición, no al revés.