🍯 🔲 👋🏻 PNG形式の例でアルゴリズムを圧縮する 🤴🏼 🧛🏼 🚣🏿

次の実験室作業の一環として、同僚と私は16進ダンプファイルPNGを解析するタスクに直面しました。 RFC 2083標準によれば、PNG形式には、 Deflateアルゴリズムによって圧縮されたピクセルデータが格納されます。したがって、ダンプを解析するときは、Inflateアルゴリズムを使用して圧縮データを解凍する必要がありました。

分析は、次の4x4ピクセル画像で実行されます。

Deflate標準RFC 1951を使用して圧縮されたデータストリームは、 RFC 1950標準のzlib形式でPNGに格納されます。この標準を解析に使用します。 zlibヘッダーは、Deflate設定を定義します。次の構造になっています。

1バイト		1バイト			4バイト
CMF		Flg			独裁者
4ビット	4ビット	2ビット	1ビット	5ビット
シンフォ	SM	FLEVEL	フィクション	Fcheck

フィールドの詳細：

CMF（圧縮方法とフラグ）。このバイトは、それぞれ4ビットの2つのセル（CM（圧縮方式）、CINFO（圧縮情報））に分割されます。
CM（圧縮方式）。このフィールドは、ファイルで使用される圧縮方法を定義します。 CM = 8は、Deflateが最大32キロバイトのウィンドウサイズで使用されることを意味します。
CINFO（圧縮情報）。 CM = 8の場合、CINFOは、ウィンドウサイズをマイナス8に設定する2を底とする対数です（CINFO = 7は、ウィンドウサイズを32キロバイトに設定します）。
FLG（フラグ）。このバイトは、FCHECK、FDICT、FLEVELの各部分に分割されます。
FCHECK（CMFおよびFLGのチェックビット）。式sum =（CMF * 256 + FLG）の値を16ビットの符号なし整数と見なします。このフィールドはFLGを補完するため、合計は31の倍数になります。
FDICT（プリセット辞書）。このフラグが設定されている場合、DICT辞書記述子はFLGバイトの直後に続きます。アンパッカーはこのフィールドの値を使用して、圧縮中に使用される辞書を判別できます。
FLEVEL（圧縮レベル）。このフィールドは、特別な圧縮アルゴリズムによって使用されます。デフレート（CM = 8）：0-最速の圧縮、1-高速の圧縮、2-デフォルトの圧縮、3-最大の圧縮（最も遅い）。このフィールドの値は、解凍時に考慮されません。追加の圧縮が意味があるかどうかを示すために使用されます。

DICTの後に（FDICTがインストールされている場合）、圧縮データのストリームがあり、PNGの長さはIDAT構造体のCHUNK_LENGTHフィールドに依存します。 zlibバッチの最後には、Adler-32アルゴリズムを使用して非圧縮データから計算されたADLER-32チェックサムがあります。

この場合、zlibヘッダーは次のようになります。

78 DA	0111	1000	11	0	11010
	ウィンドウサイズ= 32K	圧縮方法=収縮	圧縮レベル=最速	辞書が使用されている= false	チェックビット

ヘッダーから、辞書が使用されていないことがわかります（FDICT = 0）。

画像の圧縮データ：

63 F8 3F 93 E1 3F 03 C3 CC FF 20 1A C8 00 22 24 0E 58 12 85 33 D3 F8 3F 03 32 07 44 03 00 AA 05 23 77

その後、ビットはバイト単位で連続して読み取られます。バイトでは、最後のビットから最初のビットに移動します（たとえば、データストリームで2バイトが連続して移動する場合：63 F8（0b01100011 0b11111000）。次のビットシーケンスを取得する必要があります：1100011000011111）。

読み取りシーケンスの最初のビットはBFINALフラグで、このデータが最後かどうかを示します。次の2つのBTYPEビットは、圧縮のタイプを示します。00-圧縮なし、01-固定ハフマンコードによる圧縮、10-動的ハフマンコードによる圧縮、11-値は予約済みです。

固定ハフマンコードの表：

アンパック値	ビット数	コード	拠点
0〜143	8	00110000から10111111	00110000
144〜255	9	110010000から111111111	110010000
256〜279	7	0000000から0010111	0000000
280〜287	8	11000000から11000111	11000000

オフセット表：

コード	追加します。ビット	距離	コード	追加します。ビット	距離	コード	追加します。ビット	距離
0	0	1	10	4	33〜48	20	9	1025〜1536
1	0	2	11	4	49〜64	21	9	1537 2048
2	0	3	12	5	65〜96	22	10	2049〜3072
3	0	4	13	5	97〜128	23	10	3073〜4096
4	1	5、6	14	6	129〜192	24	11	4097-6144
5	1	7、8	15	6	193〜256	25	11	6145-8192
6	2	9-12	16	7	257〜384	26	12	8193-12288
7	2	13〜16	17	7	385〜512	27	12	12289-16384
8	3	17-24	18	8	513-768	28	13	16385-24576
9	3	25〜32	19	8	769-1024	29日	13	24577-32768

長さ表：

コード	追加します。ビット	長さ	コード	追加します。ビット	長さ	コード	追加します。ビット	長さ
257	0	3	267	1	15、16	277	4	67〜82
258	0	4	268	1	17、18	278	4	83〜98
259	0	5	269	2	19〜22	279	4	99〜114
260	0	6	270	2	23〜26	280	4	115〜130
261	0	7	271	2	27〜30	281	5	131〜162
262	0	8	272	2	31〜34	282	5	163〜194
263	0	9	273	3	35〜42	283	5	195〜226
264	0	10	274	3	43〜50	284	5	227〜257
265	1	11、12	275	3	51〜58	285	0	258
266	1	13、14	276	3	59〜66

展開するとき、データは2つのタイプで表すことができます：固定値と逆バイアスの長さ。

読み取ったデータは、固定値に変換する必要があります。以下は変換式です。

lit value = data-base + left bound、ここで

点灯値-固定値、

base-表1の列

左境界-表1のアンパックされた値の列の左の数値。

データを読み取るとき、各間隔のプレフィックスが異なるという事実に対応するテーブル1の固定値の間隔を明確に決定できます。

たとえば、シーケンスから2バイトのF8と3Fを選択してみましょう。 000 111111111 1100であることが判明したビットシーケンス。現在の読み取り位置を4とし、7ビット（最小ビット数）を読み取ると、間隔2に対応するプレフィックス1111111が得られます。これから、読み取りコードの長さは9になります。

0b111111111 = 0d511

上記の式を使用すると、エンコードされた数値は255 = 511-400（0b110010000）+ 144であることがわかります。

データストリームに固定値ではなく、長さと逆バイアスに関する情報が含まれている場合、つまり読み取られた値は3番目の間隔になります。このバージョンでは、これはサブシーケンスになります。

20 1A C8（ 0000010 0 01011000 00010011）。

間隔3に入る最初の7ビット（0b0000010）を読み取ります。式により、数値に変換します。これは、257 = 1-0 + 256の数になります。次に、表3を使用します。コード257は、考慮する必要がある追加ビットの数が0であることを示します。3列目の長さは3です。。これらのビットは、長さに追加する数値を決定します。

次に、5ビット（0b00101 = 0d5）を読み取り、逆バイアスを決定します。私たちの場合、これは5です。表2から、追加の1ビットを読み取る必要があることは明らかです。逆順で読みます。 1（0d1）になりました。この数値を列3からの最小距離に追加します。そして、逆バイアスは7 + 1 = 8になります。

これはどういう意味ですか？たとえば、0 255 153 0 255 0 0 153 255の9つの値をカウントしました。戻り距離は、このストリームに戻す必要がある値の数を示します。つまり、 2番目の値-255になります。3に等しい長さは、データストリームから3つの値を取得する必要があることを示しています。 255 1530。長さがオフセットより大きい場合、開始位置に戻り、長さに等しい値の数をカウントするまで元の順序で再度読み取ります。長さが7で、逆バイアスが2であるとします。2つの値でシフトされます。最後から2番目の数字の位置は153です。判明したシーケンスは153 255 153 255 153 255 153です。最終的に、アンパッカーはゼロに等しい次の固定値を読み取ると、作業を終了します。

完全なダンプ分析：

01100 01 1ファイナルチャンク、固定ハフマン

11111 000 48-48 + 0 = 0-フィルター：なし

0011 1111 511-400 + 144 = 255

100 10011 409-400 + 144 = 153

111 00001 48-48 + 0 = 0

00 111111 511-400 + 144 = 255

00 000011 48-48 + 0 = 0

11 000011 48-48 + 0 = 0

1 1001100 409-400 + 144 = 153

11111111 511-400 + 144 = 255

0 0 100 000 2-0 + 256 = 258長さ= 4

000 1 1010 5距離= 7 + 1 = 8

1100 1000 1-0 + 256 = 257長さ= 3

00000 00 0 6距離= 9 + 0 = 9

0 01000 01 1-0 + 256 = 257長さ= 3、2距離= 3

0 0100100 9-0 + 256 = 265長さ= 11 + 0 = 11

00 00 1110 7距離= 13 + 0 = 13

010 11000 3-0 + 256 = 259長さ= 5

000100 10 9距離= 25 + 4 = 29

100 0 0101 10-0 + 256 = 266長さ= 13 + 0 = 13

0011 00 11 7距離= 13 + 0 = 13

110 10011 409-400 + 144 = 153

111 11000 99-48 + 0 = 51

00 111111 511-400 + 144 = 255

00 000011 48-48 + 0 = 0

00 1 10010 9-0 + 256 = 265長さ= 11 + 1 = 12

000 00 111 7距離= 13 + 0 = 13

0100 0100 2-0 + 256 = 258長さ= 4

000000 1 1 5 DISTANCE = 7 + 1 = 8

0000000 0 0-0 + 256 = 256 END

10101010 ADLER

00000101 ADLER

00100011 ADLER

01110111 ADLER

0

255153 0 255

0 0 153 255

255153 0 255

255 0 0 255

0

0 0 153 255

255153 0 255

255 0 0 255

255153 0 255

0

255153 0 255

255 0 0 255

255153 0 255

0 153 51 255

0

255 0 0 255

255153 0 255

0 153 51 255

255153 0 255

同様の材料の検索は、最終的に標準につながりました。この記事が、彼らの母国語で理解しやすいロシア語での努力を必要としている人々の助けになることを願っています。

ソース画像

PNG形式の例でアルゴリズムを圧縮する

More articles: