ROADオーディオコーデック分析

Habréの記事「非線形ダイナミクスとカオス理論のオーディオデータ圧縮用の新しいアルゴリズムの開発タスクへの適用」で 、5つの以前には見られなかったユニークな特性を持つ真新しいオーディオコーデックが発表されました。 そのような定式化は、何が何であったかを少し整理したいという興味と欲求を喚起しました。



さらに、クレームされた固有の特性が考慮され、いくつかのテスト測定が行われます。



物件概要



プレビュー



この記事では、この特性を説明するためのかなり複雑な式について説明していますが、実際にはすべてがはるかに単純です。 実際、このプロパティは、次の図に示すように、信号全体が圧縮されるのではなく、その一部のみが圧縮されることを意味します。







ここで、初期信号は緑、青-特定の数のポイント(サンプル)で平均化されて明示的に保存され、赤-残りの部分は圧縮されます。



非常に大まかな近似では、信号の高周波部分のみが圧縮されていると言えます。 より正確には、周波数領域では、平均化された信号と残留信号の分離は、たとえば次のようになります(48 kHzでの4倍の平均化の場合)。







または(48 kHzでの32倍の平均化の場合):







さらに正確なビューは、取得した特定の信号に依存します。 たとえば、最初の画像の正弦波の場合:







ここでは、平均化により両方の信号に逆位相の高調波が発生し、加算中に相互に補償されます。 明らかに、信号の1つで高調波の位相または振幅が変化すると(たとえば、圧縮の結果)、完全な補償は発生しなくなり、元の信号の歪みにつながります。 これは、後で特定の測定で表示されます。



部分的な互換性



このプロパティは、前のものから明らかに続きます。 信号の一部は圧縮せずに保存されるため、エンコードされた部分を無視して再生できます。 著者はこれを美徳として提示していますが、非常に疑わしいようです。 プレーヤーで再生できないオーディオファイルをダウンロードした場合、一部のコーデックが欠落していることは明らかです。 ただし、ファイルの品質が低下して再生される場合は、サウンドを改善するコーデックを探すよりも、ファイルが破損していると想定する方が論理的です。



オーバークロック



この言葉で、著者はデコーダレベルでオーバーサンプリング (リサンプリング、リサンプリング)の可能性を呼びました。 これは、ソフトウェアオーディオプレーヤーやサウンド出力デバイスに組み込まれているリサンプラーを含む他のリサンプラーの使用に比べて大きな利点をもたらす場合、美徳と呼ばれます。



リサンプラーの品質は、元の周波数帯域外のスプリアス高調波の抑制の程度によって決まります。 以下に、このコーデックにはこの品質がないことを示します。



ダイナミックレンジ拡張



そして、ここで事実の明らかな談合がすでに起こっています。 オーディオ信号をデジタル化する場合、ダイナミックレンジが減少するだけでなく、量子化ノイズが非線形に表示されます。 フィルターで除去するのは非常に難しいため、実際にはディザリングノイズシェーピングテクニックによって単純にマスクされます。



要求されたダイナミックレンジ拡張を保証するために、失われた情報を回復することは不可能です。 サウンドストリームの新しいサンプルが拡張された範囲で合成されるという事実は、新しい量子化ノイズが発生しないことを意味します-サウンド再生デバイスも精度が限られているため、処理段階でのみです。 さらに、すべてのリサンプラーにはこのプロパティがあります。



非決定的デコード



説明に基づいて、デコード後に毎回わずかに異なる結果が得られると想定できます。 ただし、実際の比較では、結果が同一であることが示されました。 これは、実際、このプロパティには意味がないことを意味します。同じ成功で、数字2と3を入れて数字5を取得する順序で非決定性を見ることができます。



テストデータテスト



この記事にはレナの画像がありますが、単一の波形はありません。 このギャップは、コーデックによって導入された歪みを考慮したコンテキストで埋められます。



測定には、65536サンプルの継続時間を持つ合成信号が使用されます(その後のフーリエ解析の便宜上)。 測定結果は、時間(緑)と周波数(青)の両方の領域で、対数振幅-周波数特性の形で表示されます。



念のため
3 dBの振幅の変化は、 1.4倍の変化ほぼ等しくなります。

6 dBの振幅の変化は、 2回の変化ほぼ等しくなります。

12 dBの振幅の変化は、 4回の変化ほぼ等しくなります。



エンコード時に、次のパラメーターが使用されました。





MLS-最大長シーケンス



これは、この種の測定の標準ツールです。 外観と耳では、それはホワイトノイズのように見えますが、唯一の違いは、一定の期間に限定され、個別の特徴があることです。 オーディオ測定では、通常、すべての振幅が定数に等しく、位相が擬似乱数値に等しい逆フーリエ変換によって形成されます。



周波数応答のタイプごとに測定した後、0 dBからの振幅の偏差により、個々の周波数でのシステムの応答を評価できます。



時間領域の歪みについてノイズを分析することは非常に問題があるため、ここでは周波数領域での測定結果のみを示します。



ソース信号:











測定結果:



サンプルの長さ= 4:







サンプルの長さ= 8:







サンプルの長さ= 16:







サンプルの長さ= 32:







ここでは、高周波での減衰と強いノイズが明確に確認できます。パラメーターサンプルの長さの増加に伴い増加します(おそらく平均化されたポイントの数を決定します)。



対数掃引トーン



周波数が絶えず増加または減少する正弦波です。



ここでは、周波数が減少すると、振幅が減少して周波数応答の傾きを補正し(線形スイープトーンでは必要ありません)、平滑化ウィンドウも適用されます。

周波数応答に加えて、非線形歪み(歪み)を評価するためによく使用されます。 ここでは、係数を考慮せず、結果を視覚的に評価します。



ソース信号:











測定結果:



サンプルの長さ= 4:











サンプルの長さ= 8:











サンプルの長さ= 16:











サンプルの長さ= 32:











波形は、高周波情報の一部が失われていることを明確に示しており、圧縮率が大きいほど強くなります。



同時に、周波数応答はそれが失われただけではなく、高調波(平均化によるデシメーション中に必然的に発生する)とノイズに置き換えられることを示しています。



オシログラムでは、反対の性質の歪み、つまり、存在しない場所での音の外観も見ることができます。 これが間違いなのか、アルゴリズムの機能なのかを判断するのは困難です。



8トーンのシーケンス



これには、対照(55 Hz)から5オクターブ(7040 Hz)の「la」までのノート「la」が含まれています。



ソース信号:











測定結果:



サンプルの長さ= 4:











サンプルの長さ= 8:











サンプルの長さ= 16:











サンプルの長さ= 32:











ここで、明確な高調波歪みの存在を明確に述べることができます。 正弦波は純粋なトーンであるため、歪みがあると高調波が発生します-高調波がはっきりと見えます(たとえば、最初のグラフの5 kHzの周波数で)。



最後の測定から440Hzの周波数の正弦波をもう少し詳しく考えてみましょう:







ここでは、他の正弦波の断片から組み立てられていることがわかります。 ブロックの端の隙間もはっきりと見えます。



加速およびダイナミックレンジテスト



デコーダには、サンプリングレートを2倍または4倍、量子化の深さを24ビットに増やす機能があります。 前の信号でこの機能をテストします(パラメーターのサンプル長= 4):











信号の形状は、さらに大きな歪みが生じていることを示しています。 周波数応答は、拡張された周波数範囲がノイズで満たされていることを示しています。 ダイナミックレンジの拡大に似たものは何も観察されません(たとえば、ノイズリダクションの形で)。



おわりに



もちろん、上記のグラフから、このコーデックが実際に使用できないことはまったくわかりません。 誰かにとって、「フラクタル圧縮」と「カオスの理論」という言葉は、そこにあるどのグラフィックスよりもずっと大きな重みを持つ可能性があります。 同様に、誰かが彼の歪みを耳にとって特別で心地よいものと知覚する可能性があり、それは音を改善するだけです。



しかし、個人的には、フラクタル圧縮の概念自体は、その出現の最初からはかなり先入観があり、一種の「聖杯」のように思われます。 実際、Fractal Geometry of Natureのリリース以来、特に新しいものは何も登場していません-同じフラクタルの葉と木、MaldebrotとJulia、Koch、Hilbert、Peano曲線とSierpinski三角形のセット(および元の記事も)この点で例外ではありませんでした )。 さらに、それらはすべて排他的な幾何学的性質を持っています-分数メトリック次元を持つ自己相似集合の特性を備えた「オーディオフラクタル」の存在をまだ誰も発表していません。



All Articles