最新の画像コーデックが音を絞る方法。 JPEG2000対MP3

この実験では、一般的なJPEG2000画像圧縮形式を使用して、オーディオファイルを保存するという珍しいタスクを行います。



一般的に、音と画像は非常に似ています。 音を波形で表現すると、時間とともに音信号に変化が生じます。 同様に、画像ピクセルを1行取得すると、距離に応じて輝度が変化します。



時間の経過に伴う音信号の振動の振幅が大きいほど、音は大きくなります。 画像のアナログは、コントラストの増加です。



音信号の変化が速いほど、音の周波数が高くなります。 同様に、ピクセルの列の明るさの急激な変化は、画像の細部の数が多いことを示しています。



さらに、行のピクセルの明るさが十分に滑らかに変化するため、コーデックがこのプロパティを使用できるようになるという音声信号。



1つの小さな問題が残っています。 音は1次元の信号であり、画像は2次元です。 サウンドファイルは1つの長いピクセル行であり、画像は多くのピクセル行であると想像できます。 ただし、ピスケルの隣接する行は非常に似ています。



音波にはアナログがあります-基本周波数です。 それに加えて、主波の長さに正確に適合する高調波の束があります。 メインウェーブの長さに沿って音声信号をカットしてまとめた場合、隣接するピースは互いに似たものになります。



実験のために、私のお気に入りの曲Ame Caleen-A demi-nueから30分のサウンドファイルを準備しました。 16ビットのモノラル形式での記録には2570 KBかかります。



このファイルの基本周波数は実験的に決定されました。 そして、前述のように、レコードはこの波の周期の長さに等しい断片にカットされます。 結果は画像ファイルです。 ピクセル表現形式は、グレースケールで16ビットです。 つまり、サウンドサンプルの形式に完全に対応しています。 画像サイズ909x1448ピクセル。







JPEG2000が16ビット/ピクセルグレースケールをサポートしていると非常に便利です。 JPEG2000での圧縮には、ImageMagickが使用されました。 ImageMagickを使用すると、画像を弱くまたは強く圧縮できるため、結果として得られる録音の品質に影響します。 ImageMagickのライバルは、Adobe Auditionパッケージから通常のmp3コーデックを選択しました。



実験の本質は、mp3と同じサイズのjp2ファイルを取得するコーデックを選択し、結果のサウンドファイルの品質を比較することでした。



中程度の圧縮と強力な圧縮によって品質がどれほどひどくなるかを評価したかったのです。 コーデックパラメーターを選択することで、ソースファイルは強力な圧縮の場合は最大32KB、中程度の場合は最大400KB圧縮されました。



中圧縮では、JPEG2000ははっきりと聞こえるノイズ信号をサウンドに追加します。 それ以外の場合、サウンドはオリジナルに非常に似ています。 強力な圧縮により、JPEG2000には多くの歪み、クリック音、音の鈍さ、底部と上部の不快感があります。 しかし、興味深いことに、同様の条件でのMP3とは異なり、すべての歪みを通して、歌手の声がはるかに良く聞こえます。



JPEG2000の強力な圧縮のために、追加の画像変換が実行されました(音質を拡張するため):画像サイズを縮小します。 画像の幅を減らすことは、音声のサンプリングレートを減らすことに似ています。 そして、画像の高さを減らすことは、音を高速化するようなものです。



JPEG2000の非可逆圧縮もテストされました(つまり、ほとんど歪みのない圧縮)。 jp2ファイルは、アンデッドイメージと比較して71%縮小しています。 悪くはありませんが、特殊なロスレスコーデック(FLACやAPEなど)は40〜50 %%のレベルです。

別の結果。 JPEG XRロスレス圧縮は81%を示しました。



以下はImageMagick起動コマンドです。



400KBでの圧縮の例:

convert -depth 16 -size 909x1448 wav.txt.gray -depth 16 -type Grayscale -define jp2:rate = 0.1565 tn.jp2

tn.jp2タイプのグレースケールtn3.grayを変換



32K圧縮の場合:

convert -depth 16 -size 909x1448 wav.txt.gray -depth 16 -type Grayscale -resize -454x924 -define jp2:rate = 0.0325 tn.jp2

変換tn.jp2 -typeグレースケール-resize -909x1448 tn3.gray



以下は、結果を含むファイルへのリンクです。 これには、JPEG2000およびmp3コーデックで受信したオーディオファイルと、「音声付きの画像」の例が含まれています。

http://depositfiles.com/files/jmd4yfdf5



All Articles