En septiembre de 2015, el códec de vídeo líder en términos de eficiencia de compresión era HEVC (codificación de vídeo de alta eficiencia o H.265). La especificación fue aprobada por el UIT-T en abril de 2013, y ya había implementaciones disponibles tanto en forma de software como de hardware. Parecía que la industria del vídeo estaba preparada para la transición de H.264/AVC a este nuevo códec, como ya hizo con MPEG-2 muchos años antes.
Desgraciadamente, motivados por el gran éxito de anteriores programas de concesión de licencias de patentes relacionadas con códecs de vídeo, ya había dos consorcios de patentes activos y se anunció un tercero. Se suponía que cada uno de ellos actuaría como ventanilla única para obtener los derechos de patente necesarios para aplicar la norma. Y lo que es peor, mientras que los programas de licencias anteriores ofrecían topes en los pagos de cánones (es decir, un pago máximo por empresa para la tecnología concreta), esto ya no era así en algunos de los consorcios. Esto creaba graves problemas, sobre todo para las empresas de distribución de vídeo por Internet, que tendrían que pagar costes por emisión.
La respuesta de la industria del vídeo por Internet fue tomar cartas en el asunto. Las empresas de contenidos de vídeo Amazon, Netflix y YouTube/Google se asociaron con los desarrolladores de tecnología de software Cisco, Google, IBM, Microsoft y Mozilla y con los desarrolladores de chips ARM, Intel y NVIDIA y fundaron el Alianza para los Medios Abiertos. El objetivo de la alianza es crear un códec de vídeo de código abierto y libre de derechos que supere a HEVC. El proyecto se puso en marcha en septiembre de 2015 e incorporó los trabajos en curso sobre códecs de vídeo libres realizados por empresas individuales (VP9/VP10 de Google, Daala de Mozilla y Thor de Cisco). El objetivo era producir no solo una especificación técnica, sino también un software de código abierto que la aplicara.
Vidyo fue invitada a unirse al grupo en febrero de 2016, y yo fui invitado a ocupar la copresidencia del Subgrupo de Comunicaciones en Tiempo Real (RTC SG). El objetivo principal del organismo matriz, el Grupo de Trabajo de Códecs (Codec WG), es la eficiencia de la compresión para la distribución de vídeo (es decir, streaming HLS o DASH). El RTC SG aborda los requisitos específicos de las aplicaciones en tiempo real, incluida la codificación de bajo retardo, la resistencia a errores y la compatibilidad con la escalabilidad temporal y espacial.
Los últimos 18 meses han sido un periodo de intensa actividad. En agosto de 2017 recibimos la aprobación de nuestra propuesta para la sintaxis de alto nivel del códec, basada en lo que se denominan "unidades de flujo de bits abiertas" (OBU). La sintaxis de alto nivel describe cómo se empaquetan en "bins" los distintos componentes de los datos de vídeo para que las aplicaciones puedan manejarlos de forma transparente.
En diciembre de 2017 también recibimos la aprobación de nuestra propuesta sobre cómo soportar la escalabilidad espacial (y temporal) en AV1, como se conoce ahora el códec. El diseño imita el trabajo que realizamos anteriormente con Google sobre escalabilidad espacial en el códec de vídeo VP9. El soporte de escalabilidad espacial es esencial para utilizar AV1 en nuestro VidyoCloud de alto rendimiento basado en SFU, exactamente de la misma forma que lo fue con H.264/AVC y VP9. De esta forma podemos utilizar todas las innovaciones que se diseñaron en nuestro sistema y disfrutar de la mayor eficiencia de codificación que ofrece AV1.
Aunque pasará algún tiempo antes de que el mercado disponga de implantaciones comerciales que aprovechen plenamente las capacidades de la AV1, esperamos que se convierta en un competidor importante en un plazo de 12 a 18 meses. El hecho de que Apple y Facebook se hayan unido a la alianza en los últimos meses es un indicio más de que el viento sopla a favor de AV1. Los chips compatibles con AV1 deberían llegar a finales de 2019, si no antes. Parte del reto de implementar un nuevo códec está en las optimizaciones utilizadas en la parte del codificador, especialmente cuando se requiere rendimiento en tiempo real.
Es la primera vez en la historia de los códecs de vídeo que una alianza industrial de tal envergadura respalda un foro del sector para competir con las normas oficiales elaboradas por organizaciones internacionales de normalización con sede en Ginebra. Es realmente el comienzo de una nueva era.
La situación se describe muy elocuentemente en una entrada de blog, "Crisis, causas y solución,", por Leonardo Chiariglione, presidente (formalmente, "Convocante") de MPEG (Motion Pictures Experts Group), uno de los dos comités que desarrollan estas normas y que forma parte del Organización Internacional de Normalización. El Dr. Chiariglione argumenta:
"Sin duda, AOM dará una estabilidad muy necesaria al mercado de códecs de vídeo, pero será a costa de reducir, si no detener del todo, el progreso técnico".
La presunción es que la falta de derechos de patente hará que las empresas y las organizaciones académicas y de investigación dejen de invertir en nueva tecnología de códecs de vídeo y, por tanto, el progreso se ralentizará o incluso se detendrá.
Puedo entender el argumento. Hay que tener en cuenta que varias de las innovaciones que se convirtieron en la base de H.264/AVC proceden en realidad de organizaciones académicas y de investigación que no fabrican ningún producto. El rendimiento de su inversión sólo puede proceder de los derechos de patente.
Sin embargo, para contrarrestar esa desconcertante situación está el hecho de que, por primera vez, todos los fabricantes de navegadores -Apple, Google, Microsoft y Mozilla- forman parte de la misma organización de desarrollo de códecs de vídeo. Aunque no ha habido ningún anuncio concreto, es probable que por fin tengamos compatibilidad con el mismo códec de gama alta en los principales navegadores, lo que supondría un gran hito para WebRTC. Si las implementaciones no se limitan a los descodificadores de streaming, puede que por fin tengamos el santo grial de la interoperabilidad para las aplicaciones en tiempo real.
Vidyo cuenta con una arquitectura de sistemas que ofrece soporte de vídeo WebRTC nativo y sin fisuras en toda su infraestructura VidyoCloud. Poder utilizar un único códec en toda la gama de sistemas, desde teléfonos y tabletas hasta ordenadores de sobremesa y sistemas de sala, ofrecería enormes ventajas de rendimiento y calidad a nuestros clientes, especialmente en los servicios sanitarios y financieros, donde las aplicaciones basadas en navegador se utilizan mucho. Si se cumple el potencial de interoperabilidad universal de AV1, marcará sin duda el comienzo de una nueva era en el sector de la videocomunicación".