Actualización de Netflix ofrece Optimización de la experiencia Aural en dispositivos Android con xHE-AAC

Netflix anuncia una nueva actualización y ahora transmite HE-AAC extendido con MPEG-D DRC (xHE-AAC) a dispositivos Android que mejora la calidad del audio, tal como comentan en su blog.

En Netflix, nos apasiona ofrecer un gran audio a nuestros miembros. Comenzamos a transmitir sonido envolvente de 5.1 canales en 2010, Dolby Atmos en 2017 y audio de velocidad de bits adaptable en 2019. Continuando con esta tradición, estamos orgullosos de anunciar que Netflix ahora transmite HE-AAC extendido con MPEG-D DRC (xHE-AAC) a dispositivos Android mobile compatibles (Android 9 y posteriores). Con su capacidad para mejorar la inteligibilidad en entornos ruidosos, adaptarse a conexiones celulares variables y escalar a calidad de estudio, xHE-AAC será una delicia sónica para los miembros que transmiten en estos dispositivos.

Características xHE-AAC

MPEG-D DRC

Una forma en que xHE-AAC aporta valor a los miembros de Netflix es a través de sus metadatos obligatorios MPEG-D DRC. Usamos api descritas en la clase MediaFormat para controlar la experiencia en descodificadores. En esta sección primero describiremos la sonoridad y el rango dinámico, y luego explicaremos cómo funciona MPEG-D DRC en xHE-AAC y cómo lo usamos.

Niveles de diálogo y rango dinámico

Para entender la utilidad de la gestión de la sonoridad y el control de rango dinámico, primero debemos entender los fenómenos que estamos controlando. Por ejemplo, comencemos con la forma de onda de un programa, que se muestra a continuación en la Figura 1.

Para medir el rango dinámico de un programa, dividimos la forma de onda en segmentos cortos, como intervalos de medio segundo, y calculamos el nivel RMS de cada segmento en dBFS. El resumen de esas mediciones se puede trazar en una sola línea vertical, como se muestra a continuación en la Figura 2. El sonido ambiental de una fogata puede ser hasta 60 dB más suave que el coche que explota en una escena de acción. El rango dinámico de un programa es la diferencia entre sus sonidos más silenciosos y los más fuertes. Así que en nuestro ejemplo, diríamos que el programa tiene un rango dinámico de 60 dB. Revisaremos este ejemplo en la sección que analiza el control de rango dinámico.

La sonoridad es la percepción subjetiva de la presión sonora. Aunque está más directamente correlacionado con el nivel de presión sonora, también se ve afectado por la duración y la composición espectral del sonido. Las investigaciones han demostrado que, en los contenidos cinematográficos y televisivos, el nivel de diálogo es el elemento más importante para la percepción de los espectadores de la sonoridad de un programa. No todos los programas tienen el mismo nivel de diálogo o el mismo rango dinámico.

La película de acción contiene diálogos a -27 dBFS, dejando espacio para efectos fuertes como explosiones. Por otro lado, el concierto en vivo tiene un rango dinámico relativamente pequeño, con diálogos cerca de la parte superior de la mezcla. Otros programas tienen diferentes niveles de diálogo y rangos dinámicos variables. Cada espectáculo se mezcla en función de un conjunto único de condiciones.

Ahora, imagina que estabas viendo estos programas, uno tras otro. Si cambiaste del espectáculo de acción al concierto en vivo, ¡probablemente estarías buceando para que el control de volumen lo baje! Luego, cuando el drama se enciende, es posible que no pueda entender el diálogo hasta que vuelva a subir el volumen. Si fueras a cambiar a mitad de los espectáculos, el efecto podría incluso ser más pronunciado. Esto es lo que la gestión de la sonoridad tiene como objetivo resolver.

Gestión de la sonoridad

El objetivo de la gestión de la sonoridad es reproducir todos los títulos a un volumen consistente, en relación entre sí. Cuando está funcionando eficazmente, una vez que estableces tu volumen a un nivel cómodo, nunca tendrás que cambiarlo, incluso cuando cambias de una película a un documental, a un concierto en vivo. Netflix tiene como objetivo específico reproducir todos los diálogos al mismo nivel. Esto es consistente con las recomendaciones estándar de radiodifusión de televisión de América del Norte ATSC A/85 y AES71 para la distribución de video en línea.

Las métricas de sonoridad de todo el contenido de Netflix se miden antes de la codificación. Dado que nuestro objetivo es jugar todos los diálogos al mismo nivel, utilizamos la medición basada en anclaje (diálogo), como se recomienda en A/85. El nivel de diálogo medido se entrega en metadatos MPEG-D DRC en la secuencia de bits xHE-AAC, utilizando el conjunto de metadatos anchorLoudness. En el ejemplo de la Figura 3, la demostración de la acción tendría un anclaLoudness de -27 dBFS; el documental, -20 dBFS.

En Android, Netflix utiliza KEY_AAC_DRC_TARGET_REFERENCE_LEVEL para establecer el nivel de salida. El decodificador aplica una ganancia igual a la diferencia entre el nivel de salida y los metadatos anchorLoudness, para normalizar todo el contenido de modo que el diálogo siempre se genere en el mismo nivel. En el cuadro 4, el nivel de salida se fija a -27 dBFS. El contenido con mayor sonoridad de anclaje se atenúa en consecuencia.

Ahora, en nuestro escenario de reproducción imaginaria, ya no se alcanza el control de volumen al cambiar del programa de acción al concierto en vivo, o al cambiar a cualquier otro programa.

Cada dispositivo puede establecer un nivel de salida de destino en función de sus capacidades y el entorno del miembro. Por ejemplo, en un dispositivo móvil con altavoces pequeños, a menudo es deseable utilizar un nivel de salida más alto, como -16 dBFS

Algunos programas —en particular, la acción y el thriller— se amplificaron para alcanzar el nivel de producción deseado. Al hacerlo, el contenido más alto de estos programas se recortaría, introduciendo una distorsión armónica indeseable en el sonido, por lo que el decodificador debe aplicar limitación de picos para evitar la salida falsa. Esto no es ideal, pero puede ser un inconveniente deseable para lograr un nivel de salida suficiente en algunos dispositivos. Afortunadamente, xHE-AAC proporciona una opción para mejorar la protección de picos, como se describe en la sección Metadatos de muestra de audio pico a continuación.

Mediante el uso de metadatos y ganancia del lado de decodificación para normalizar la sonoridad, Netflix aprovecha xHE-AAC para minimizar el número total de etapas de ganancia en el sistema de extremo a extremo, maximizando la calidad del audio. Los dispositivos conservan la capacidad de personalizar el nivel de salida en función de las condiciones de escucha únicas. También conservamos la opción de derrotar la normalización de la sonoridad por completo, para un modo «puro», cuando las condiciones de escucha son óptimas, como en un entorno de cine en casa.

Control de rango dinámico

El control de rango dinámico (DRC) tiene una amplia variedad de usos creativos y prácticos en la producción de audio. Al reproducir contenido, el objetivo del control de rango dinámico es optimizar el rango dinámico de un programa para proporcionar la mejor experiencia de escucha en cualquier dispositivo, en cualquier entorno. Netflix aprovecha los metadatos de carga útil uniDRC(), contenidos en xHE-AAC MPEG-D DRC, para aplicar cuidadosamente y cuidadosamente una REPÚBLICA DEMOCRÁTICA DEL Congo sofisticada cuando sabemos que será beneficioso para nuestros miembros, en función de su dispositivo y su entorno.

Conclusión

Las lecciones que hemos aprendido al implementar xHE-AAC en dispositivos Android no son únicas, esperamos que se apliquen a otras plataformas que admiten el nuevo códec. Netflix siempre se esfuerza por ofrecer la mejor experiencia de miembro, en cada entorno de escucha. Así que la próxima vez que experimentes The Crown, prepárate para estar inmerso y no tener que llegar al control de volumen o agarrar tus auriculares. Tags: Tecnología, Netflix, xHE-AAC, Android