A settembre 2015 il codec video leader in termini di efficienza di compressione è stato HEVC (High Efficiency Video Coding, o H.265). La specifica è stata approvata dall'ITU-T nell'aprile 2013 e le implementazioni erano già disponibili sia in forma software che hardware. Sembrava che il settore video fosse pronto a passare da H.264/AVC a questo nuovo codec, come è successo con l'MPEG-2 molti anni prima.
Purtroppo, motivati dal grande successo dei precedenti programmi di licenza di brevetti relativi ai codec video, erano già attivi due pool di brevetti e ne è stato annunciato un terzo. Ognuno di essi avrebbe dovuto fungere da sportello unico per l'ottenimento dei diritti di brevetto per l'implementazione dello standard. Ma la cosa peggiore è che, mentre i programmi di licenza precedenti prevedevano dei massimali per il pagamento delle royalty (cioè un pagamento massimo per azienda per una determinata tecnologia), questo non era più vero per alcuni dei pool. Ciò ha creato seri problemi, soprattutto per le aziende di distribuzione di video sul Web, che avrebbero dovuto pagare i costi per ogni singolo flusso.
La risposta dell'industria video basata su Internet è stata quella di prendere in mano la situazione. Le aziende di contenuti video Amazon, Netflix e YouTube/Google si sono associate con gli sviluppatori di tecnologie software Cisco, Google, IBM, Microsoft e Mozilla e con gli sviluppatori di chip ARM, Intel e NVIDIA e hanno fondato la società Alleanza per i media aperti. L'obiettivo dell'alleanza è quello di costruire un codec video open-source e royalty-free che superi le prestazioni di HEVC. Il progetto è stato lanciato nel settembre 2015 e ha incorporato il lavoro in corso su codec video liberi svolto da singole aziende (VP9/VP10 di Google, Daala di Mozilla e Thor di Cisco). L'obiettivo era quello di produrre non solo una specifica tecnica, ma anche un software open-source che la implementasse.
Vidyo è stata invitata a far parte del gruppo nel febbraio 2016 e io sono stato invitato a ricoprire il ruolo di co-presidente del sottogruppo Real-Time Communications (RTC SG). L'obiettivo principale dell'organo principale, il gruppo di lavoro sui codec (Codec WG), è l'efficienza della compressione per la distribuzione di video (cioè lo streaming HLS o DASH). L'RTC SG si occupa dei requisiti specifici delle applicazioni in tempo reale, tra cui la codifica a basso ritardo, la resilienza agli errori e il supporto della scalabilità temporale e spaziale.
Gli ultimi 18 mesi sono stati un periodo di intensa attività. Nell'agosto 2017 abbiamo ricevuto l'approvazione della nostra proposta per la sintassi di alto livello del codec, basata sulle cosiddette "unità bitstream aperte" (OBU). La sintassi di alto livello descrive il modo in cui i diversi componenti dei dati video sono impacchettati in "bins" in modo da poter essere gestiti in modo trasparente dalle applicazioni.
Nel dicembre 2017 abbiamo anche ricevuto l'approvazione della nostra proposta su come supportare la scalabilità spaziale (e temporale) in AV1, come il codec è ora conosciuto. Il progetto imita il lavoro svolto in precedenza con Google su scalabilità spaziale nel codec video VP9. Il supporto della scalabilità spaziale è essenziale per l'utilizzo di AV1 nel nostro VidyoCloud basato su SFU ad alte prestazioni, esattamente come per H.264/AVC e VP9. In questo modo possiamo utilizzare tutte le innovazioni che sono state progettate nel nostro sistema e godere della migliore efficienza di codifica offerta da AV1.
Anche se ci vorrà un po' di tempo prima che siano disponibili sul mercato implementazioni commerciali che sfruttino appieno le capacità di AV1, ci aspettiamo che AV1 diventi un concorrente significativo entro 12-18 mesi. Il fatto che Apple e Facebook si siano uniti all'alleanza negli ultimi mesi è un'ulteriore indicazione del fatto che i venti sono favorevoli all'AV1. I chip che supportano AV1 dovrebbero arrivare alla fine del 2019, se non prima. Parte della sfida nell'implementazione di un nuovo codec risiede nelle ottimizzazioni utilizzate nella porzione di codificatore, soprattutto quando sono richieste prestazioni in tempo reale.
È la prima volta nella storia dei codec video che un'alleanza industriale di tale portata si schiera dietro un forum di settore per competere con gli standard ufficiali prodotti dalle organizzazioni internazionali di standard con sede a Ginevra. È davvero l'alba di una nuova era.
La situazione è descritta in modo molto eloquente in un post del blog, "Una crisi, le cause e una soluzione,", da Leonardo Chiariglione, il presidente (formalmente, "Convenor") di MPEG (Motion Pictures Experts Group), uno dei due comitati che sviluppano questi standard e che fa parte dell'organizzazione con sede a Ginevra Organizzazione internazionale degli standard. Il dottor Chiariglione sostiene che:
"L'AOM darà certamente la necessaria stabilità al mercato dei codec video, ma ciò avverrà al costo di una riduzione, se non di un blocco totale, del progresso tecnico".
La presunzione è che la mancanza di royalties sui brevetti faccia sì che le aziende e le organizzazioni accademiche e di ricerca smettano di investire in nuove tecnologie di codec video, e che quindi il progresso rallenti o addirittura si fermi.
Posso certamente capire l'argomentazione. Si noti che molte delle innovazioni che sono diventate la base di H.264/AVC provengono da organizzazioni accademiche e di ricerca che non producono alcun prodotto. Qualsiasi ritorno sul loro investimento può provenire solo dalle royalties sui brevetti.
A contrastare questa situazione sconcertante, tuttavia, c'è il fatto che, per la prima volta, tutti i produttori di browser - Apple, Google, Microsoft e Mozilla - fanno ora parte della stessa organizzazione di sviluppo di codec video. Sebbene non vi sia stato alcun annuncio specifico, è probabile che si possa finalmente avere il supporto per lo stesso codec di fascia alta in tutti i principali browser, il che rappresenterebbe un'enorme pietra miliare per WebRTC. Se le implementazioni non si limiteranno ai soli decodificatori di streaming, potremmo finalmente avere il Santo Graal dell'interoperabilità per le applicazioni in tempo reale.
Vidyo ha un'architettura di sistema che offre un supporto video WebRTC nativo e senza soluzione di continuità nell'intera infrastruttura VidyoCloud. La possibilità di utilizzare un unico codec su tutta la gamma di sistemi, dai telefoni ai tablet, dai desktop ai sistemi di sala, offrirebbe enormi vantaggi in termini di prestazioni e qualità ai nostri clienti, soprattutto nei settori della sanità e dei servizi finanziari, dove le applicazioni basate su browser sono molto utilizzate. Se il potenziale di interoperabilità universale dell'AV1 sarà realizzato, segnerà certamente l'inizio di una nuova era nel settore della comunicazione video.