この3部構成のブログシリーズでは、VP9、スケーラビリティ、そしてVidyoの新しい高性能VP9コーデックを取り上げます。パート1では、時間的スケーラビリティについて説明しましたが、今日は空間的スケーラビリティについて説明します。
続きを読む VP9を変えずに改善する - 前編
第二のスケーラビリティは空間的なスケーラビリティであり、少し複雑である。例として、ビデオストリームを720pでエンコードすると仮定する(つまり、各フレームのピクセルは1280×720)。 スケーラブルな方法でエンコードするということは、1280×720の最高解像度でビデオを表現できることに加え、640×360や320×180などの低解像度でも表現できることを意味する。この例では、解像度が各次元で2の累乗で下がっていることに注意してください。これは必須条件ではありませんが、2:1または1.5:1の比率は、空間スケーラビリティの典型的な例です。最も低い解像度はベースレイヤーと呼ばれ、より高い解像度を構成するために必要なデータはエンハンスメントレイヤーと呼ばれる。
この場合の用語は、符号化データがどのように構成されるかを反映している。画像を符号化する場合、エンコーダーは元の画像をベースレイヤーの解像度まで縮小する。そして、それをエンコードし、再構築された画像(デコーダーで利用できるのと同じ画像)を、より高い解像度の画像をエンコードするための参照として使用する。

図3:2つの空間レイヤーと1つの時間レイヤーでエンコードされたビデオ
図3 は、2つの空間レイヤーと時間スケーラビリティのない例(単一の時間レイヤーだけ)を使って、ピクチャーの構造がどのように機能するかを示している。一番下のセットは低解像度のピクチャ(ベースレイヤ)で、IPPP構造の 図1.さらに、空間エンハンスメントレイヤー(S)があり、このレイヤーでは、以前のエンハンスメントレイヤーのピクチャーのみならず、対応するベースレイヤーのピクチャーからもピクチャーが予測される。このレイヤー間の依存関係は、圧縮効率の向上(ピクチャーの低解像度バージョンは、高解像度ピクチャーのほとんどの部分に対する優れた予測因子である)と、エラー堅牢性の向上(高解像度が破損または失われた場合、常に低解像度バージョンを使用できる)の両方にとって非常に重要である。
空間的なスケーラビリティと時間的なスケーラビリティのコンセプトを1つの設計で組み合わせることで、空間解像度とフレームレートを自由に組み合わせることができるようになった。空間レイヤーが2つ、時間レイヤーが3つの例で説明しよう、 図4 は画像構造がどのように見えるかを示している。

図4:スケーラビリティの組み合わせ:2つの空間レイヤーと3つの時間レイヤー
720p 30fpsのオリジナル・ソースを仮定すると、この構造により、720pまたは360p、30、15、7.5fpsの任意の組み合わせを提供できるレイヤーのセットを得ることができる。 最も重要なことは、エンコーダーに通知したり、信号処理を実行したりすることなく、任意の品質ポイントから別の品質ポイントにデコードを切り替えることができることである。
スケーラブルコーディングによって提供される適応性は、Vidyoの特許取得済みSelective Forwarding Unit (SFU)アーキテクチャを使用したマルチポイントビデオの実装において重要な役割を果たします。SFUは、ユーザー、ネットワーク、アプリケーションのニーズに応じてレイヤーデータを選択的に転送することで、ビデオを操作することができます。スケーラビリティ(空間的、時間的両方)は、エラーのロバスト性を高めるためにも重要です。エンジニアリング設計原則の詳細については、以下をご覧ください。 私のBlogGeek.meの記事.
空間的・時間的スケーラビリティを利用したストリームの操作は非常に簡単だが、それを作成するのはそうではない。もし 図42つの画像やレイヤーをつなぐ矢印のひとつひとつに、エンコーダーが行わなければならない何千もの個別の決定が隠されているのだ。デコーダーのタスクは、エンコーダーの指示に従うだけなので、ずっとシンプルだ。
エンコーダーは作曲家、デコーダーは作曲家が作った楽譜に従って音楽を再生するシンセサイザーと考えることができる。しかし、キーボードの88鍵とは異なり、エンコーダーのパラメーターは民間旅客機のコックピットのような形をしている(図5参照うまく機能させるためには、何千もの個々のパラメーターを調整しながら設定する必要がある)。

図5:A380-800のコックピット(ルフトハンザ・ドイツ航空ウェブサイトより)
パフォーマンス比較などをお届けするパート3はまた後日。