2番目のクラスは、紙の画像をスキャンした結果として得られるドキュメントです。 ABBYY FineReaderでそれらをスキップすると、最初のタイプに変わるか、単に写真としてPDFに保存できます。 また、ドキュメントの元の形式を保持したい場合は、これを使用するのが理にかなっています。 ABBYY FineReaderはドキュメントを非常によく認識しますが、認識エラーが発生し、ページ上のいくつかの重要な要素が見つかりません。一般に、元のドキュメントとは多少異なります。
そのため、元の画像の画像をPDFに保存し、認識されたテキストをその下に配置して、キーワードでドキュメントを見つけたり、コピーアンドペーストを使用したりするのが理にかなっています。 恥ずかしい点は1つだけです。このようなPDFファイルは、ページあたり0.5メガバイト以上のかなり大きなサイズです。 したがって、中分析で中規模の教科書をスキャンすると、200メガバイトのファイルが得られます。
このサイズは、PDF内で、スキャンされたビットマップイメージが従来の画像コーデック、JPEG、JPEG2000、LZW、またはZIPで圧縮されているという事実によって説明されます。 したがって、このようなページに通常のJPEGファイルが占めるほどうまく機能しません。 サイズを小さくするには、通常、さまざまなトリックを使用します。解像度を下げ、画像の圧縮を大幅に過小評価します。その結果、このようなPDFのテキストの品質が低下します。
または、PDFを放棄して、すべてをDjVuに保存する必要があります。 結果はかなり小さいサイズですが、実際には、結果ファイルのすべてのユーザーが簡単に読むことができるわけではありません。結局、Adobe AcrobatはDjVuビューアーよりもはるかに多くのコンピューターにインストールされます。
そして、PDF MRCテクノロジー(「混合ラスターコンテンツ」から)が助けになります-DjVu形式に対するAdobeの答えです。 これは同じPDFですが、DjVuから多くの要素を借用しており、すべての一般的なPDFリーダーで読むことができます。 MRCを使用すると、スキャンされた画像の品質を維持しながら、ページサイズが4倍に縮小されます。 これは、画像をレイヤーに分割し、各レイヤーを最適なコーデックで圧縮するという決定によるものです。 テキストはJBIG2コーデックで圧縮され、その他はすべて異なる品質のJPEG / JPEG2000 / ZIPを使用して圧縮されます。
PDF内のMRCはどのようになっていますか? 簡単な例を考えてから、徐々に複雑にします。
たとえば、書籍のページなど、黒いテキストを含む白いページをスキャンしてみましょう(すべての画像をクリックできます)。
スキャン、JPEG、1.2 Mb
有用な情報-文字のみ、その他はすべて無視できます。 ページ上のすべてのテキストを検索します。たとえば、FineReaderを起動してページを認識することは論理的です。 次に、別のレイヤーにあるすべてのテキストを選択し、JBIG2コーデックを使用して圧縮します。 ページあたり50キロバイトを取得しますが、JPEGの場合は400キロバイト、白黒のファックスコーデックCCITT4の場合は200キロバイトです。
JBIG2は、テキストを圧縮するために特別に設計されています。 仕事で、彼は文字の外部的に類似した画像をクラスターに結合します。 たとえば、このようなクラスターの例は、同じサイズの同じフォントで印刷されたすべての文字「a」です。 たとえば、スキャンの歪みや異なるフォントで印刷されたわずかに異なる文字「a」は、他のクラスターに分類されます。 結果は、共通の同一文字が組み合わされた辞書です。 その後、各文字について、その場所が記憶されます。 非常にコンパクトです。
JBIG2、50 Kb。 追加情報を含むPDFのサイズは80 Kbです
それでは、タスクを複雑にしましょう。 失いたくない不均一な背景を持ちましょう。
Tiff、500 Kb
このためには、すでに2つのレイヤーが必要です。 これらの最初のものは、JBIG2で圧縮されたテキストのままです。 そして、2番目のレイヤーでは、文字を切り取り、そこから穴を埋めた後に元の画像の残りすべてが落ちます。 通常は特に価値のある情報がないため、JPEGを使用して2番目のレイヤーを非常に強く圧縮できます。
結果のPDFのサイズは35 KBに対して35 KBです。これは、画像全体をJPEGで単純に圧縮することで得られます。
テキスト、JBIG2、18 Kb
バックグラウンド、11 Kb、JPEG
最終PDF MRC、35 Kb
次の合併症。 これまでのところ、白黒のテキストのみを出力しています。 色付きのテキストに会いましょう。
Tiff、700 Kb
前と同様に、黒と白のJBIG2コーデックでテキストを押しますが、カラー文字の下に、いわゆるカラーマスクを配置します。これは、文字によって作られた「スロット」に見える別のレイヤーです。 このレイヤーにはいくつかの色が含まれており、たとえばZIPを使用して完全にパッケージ化されています。
テキスト、JBIG2、11 Kb
カラーマスク、ZIP、3 Kb
テキスト+カラーマスクは次のようになります。
バックグラウンド、JPEG、40 Kb
バックグラウンド圧縮では、無理をしないようにすることが重要です。テキストがテキストに当てはまると認識されない可能性があります。 そして、圧縮しすぎると、そのようなテキストは読みにくくなります。
最終PDF MRC、60 Kb
したがって、テキスト、テキストをペイントするカラーマスク、および背景の3つのレイヤーが既にあります。 テキストでも背景でもない要素を扱うことは残っています。 たとえば、これらは写真または写真です。 特別なことは何もできません。JPEGまたはJPEG 2000を高品質で圧縮し、バックグラウンドに追加するだけです。
Tiff、600 Kb
テキスト、JBIG2、25 Kb
カラーマスク、ZIP、5 Kb
バックグラウンド、JPEG、40 Kb
PDF MRCの準備ができました。 これには複数のレイヤーが含まれており、各レイヤーにはさまざまな画像が含まれており、最適なコーデックで圧縮されています。
最終PDF MRC、72 Kb
もちろん、MRCを使用してもサイズにメリットのない画像があります。 たとえば、そのような風景写真を圧縮しようとしても意味がありません。JPEGよりも少ないです。 または、多くの小さな詳細を含む背景に印刷されたテキスト。
そのような画像からPDF MRCは動作しません
ただし、日常生活で出会うドキュメントの多くについて、MRCは優れた結果をもたらします。
最後に、ABBYY FineReader、ABBYY FineReader Engine、またはABBYY Recognition Serverを使用して取得できるPDF MRCの例をいくつか示します。
PDF、JPEG | PDF、MRC |
524 Kb | 218 Kb |
618 Kb | 175 kb |
412 Kb | 113 Kb |
合計で、同じ品質で2〜6回圧縮されますが、これは制限ではありません。 PDF MRCはまだ非常に若いテクノロジーであり、進化を続けています。 品質を改善する方向とサイズを縮小する方向に改善があります。
この記事のすべてのPDFの例は、デフォルト設定のABBYY FineReader Engine 10を使用して取得されています。
ヴァシリー・パンフェロフ、
開発者製品部