🥋 ⤴️ 🧑🏻 Template Matchingメソッドに基づいて、ビジネスドキュメントの認識されたページを分類するためのシンプルなテクノロジー 🙏 🍶 🚣

分類の問題はよく知られています。特定の選択からの任意のオブジェクトを、所定のクラスのセットからの1つまたは複数のクラスに関連付ける必要があります。

1.問題の声明

分類アルゴリズムは、どのクラスに属するかがわかっているオブジェクトのトレーニングセットを使用して、機械学習に基づいて構築できます。

また、よく知られているのは、可能なすべてのクラスのテンプレートを事前に準備するテンプレートマッチングメソッドです。テストオブジェクトが特定のクラスに属するかどうかの決定は、オブジェクトとそのテンプレートを照合する関数の最小（最大）の基準に従って実行されます（[1]では、オブジェクトはシンボルイメージと見なされます）。このメソッドは、最も簡単に理解できる方法の1つであり、本質的には、何らかのテンプレートでオブジェクトを表現し、一致する関数を選択するという問題を解決する必要があります。

ビジネスドキュメントの認識されたページを分類するタスクを検討します。組織間でのドキュメントの交換を含むドキュメント管理で使用されるビジネスドキュメントには、特定の標準化があり、非構造化または構造化のいずれかです。多くの場合、銀行または保険会社は、委任状、契約書、見本の署名とシールが記載されたカード、チャーター、契約書、請求書（英語の請求書）、登録証明書などの文書を必要とします。電子アーカイブを作成および維持する場合、紙の文書はデジタル化され、デジタルページイメージ（ページスキャン）を認識および分析できます。分析のタスクの1つは、ページ画像の分類です。これは、ページ画像が特定のクラスに属しているかどうかを確認することで構成されています。このようなニーズは、ユーザーが電子コピーとして添付したドキュメントの画像を管理するときに発生します。

ドキュメントの画像（特に分類）に含まれる情報を分析するには、任意のテキスト認識プログラム（OCR）を使用できます。現在、最も人気のあるソリューションの1つはTesseract OCRです。たとえば、論文[2]では、このOCRは次の理由でアーカイブドキュメントの認識に選択されました。認識された単語の座標に関する情報。

OCR Tesseractは、テキストのノイズの程度とそれ自体の能力に応じて、ページ画像を正常または異常に認識できます。体系的な失敗は、特定のクラスのドキュメント、たとえばロシア連邦市民のパスポートを認識する際の客観的な困難に関連している可能性があります。その認識プログラムについては別の記事[3]で説明しました。典型的なOCR Tesseractエラーは、いくつかのタイプに分類できます。

E ₁ ：単一の単語が認識されないという事実までの、ページ認識の完全な拒否。
E ₂ ：エラーの数が非常に多いため、HOCR形式のテキスト表現では文書を理解できません（たとえば、上の図を参照-OCRを使用した「IMNSでの登録証明書」の実際の失敗例Tesseractバージョン3.04.00）;
E ₃ ：たとえば、結果として隣接するテキストの断片がかなりの距離を置いていることが判明した場合など、ページ構造が誤って認識されます。
E ₄ ：少数のエラーの存在。ほとんどの誤って認識された単語に1〜2個のエラーがある場合。

この記事では、E ₃やE ₄などのエラーが発生する可能性があるという仮定の下で、OCR Tesseractによって大規模に認識されるドキュメントのみのページの分類を検討します。

ドキュメントのページの画像の別のタスク分類を検討してください。それぞれが1つ以上のドキュメントのページを含む既存のマルチページ画像ファイルのセットでは、利用可能な各ドキュメントの境界を決定し、見つかったドキュメントを事前に知られているクラスの1つに関連付ける必要があります。結果として生じるページの部分は、個別のドキュメントとして電子アーカイブに保存されます。

次に、事前に準備されたクラステンプレートと一致しないことに基づいて、ドキュメントページを分類する簡単な方法について説明します。このメソッドを使用すると、単一ページおよび複数ページのドキュメントを処理でき、OCR認識エラーを考慮に入れることができます。

2.パターンとパターンマッチングの説明

キーワードと複数のキーワードを組み合わせる方法に基づいてクラステンプレートを作成することをお勧めします。

多くのキーワードに対する構造の形での非構造化文書のモデルはよく知られています。たとえば、ドキュメントモデルの説明を参照してください

ベクトルモデルまたは「言葉の袋」、つまりドキュメントに含まれる単語のマルチセット[4]、
単語の順序を考慮した言語モデル（一連の単語の確率を考慮に入れた）[5]、
単語のセットで構成されるトピックを使用した主題モデル[6、7]。

上記のメカニズムを使用して、エラーと認識機能を考慮に入れてテンプレートを作成する方法を説明します。

単語記号の形式で認識された単語とそのプロパティは、基本機能として機能します。

W =（ T （ W ）、 m ₁ （ W ）、 m ₂ （ W ）、 m ₃ （ W ）、 m ₄ （ W ）、 m ₅ （ W ）、 m ₆ （ W ））、

ここで、 T （ W ）は単語の中心、つまり文字と記号のシーケンス「？」です。後者は単語のセットを指定するために使用されます。たとえば、「∗ ab？c」は、「？」の代わりに最後の文字ab？cを含む任意の文字数の単語のセットを定義します。任意の文字が存在する場合があります。

m ₁ （ W ）は、2つの単語T （ W ）とW _rを 比較するときの距離のしきい値です。 2つの単語を比較するには、メトリック（距離関数）を選択する必要があります。レベンシュタイン距離[8]を使用するか、1つの文字を別の文字に置き換える操作の数のみを考慮した簡易関数を使用します。後者の場合、距離d （ T （ W ）、 W _r ）は、同じ長さの単語、つまり記号「？」を持つ単語についてのみ計算されます。対応する文字は比較に関与せず、記号「∗」が付いた単語については、必要な部分文字列が比較されます。 d （ T （ W ）、 W _r ）< m ₂ （ W ）の場合、単語は同一であり、そうでない場合は異なります。最も単純な場合、 m ₂ （ W ）は、 T （ W ）からW _rへの変換中の置換操作の最大数です。

m ₂ （ W ） -T （ W ）とW _rを比較するときのワード長W _rの制限は、「*」を含むワードに対して意味があります。

m ₃ （ W ）-文字を比較するときに大文字と小文字を区別します（大文字と小文字を区別する/区別しない）。

m ₄ （ W ）-単語が指定された長方形に入るかどうかをチェックするために使用される範囲[0,1]の座標で構成される、単語の長方形。

m ₅ （ W ）-単語がテキストに含まれてはならないことを示す、単語の拒否のサイン。 m ₅ （ W ）を使用すると、テキストに単語Wが存在するかどうかをチェックできます。

m ₆ （ W ）-以下に説明します。

認識されたドキュメントTのテキストで単語T （ W ）を検索するとき、条件の有効性をチェックします

∃W r∈T： d （ T （ W ）、 W _r ）< m ₂ （ W ）∧（ F （ W _r ）∩m ₄ （ W ）= F （ W _r ））

ここで、 F （ W _r ）は単語W _rの長方形です。つまり、HOCR形式の認識結果から抽出された単語の座標、横座標と縦座標は元の画像の幅と高さに正規化されます。比較する場合、パラメーターm ₃ （ W ）が使用されます。一般的に、キーワードT （ W ）と同一のいくつかの単語{ W _r }が見つかります。

m ₅ （ W ）= 0の場合、認識された文書Tのテキストに単語Wと同一の単語が少なくとも1つ見つかった場合は述部P（ W 、 T ）= 1を定義し、そうでない場合はP（ W 、 T ）= 0を定義します単語Wと同一の単一の単語は見つかりません。単語の属性がm ₅ （ W ）= 1の場合、P（ W 、 T ）= 0、認識されたドキュメントTのテキストに単語Wと同一の単語が少なくとも1つ見つかった場合、P（ W 、 T ）= 1の場合テキストに単語Wと同一の単語は見つかりませんでした。

また、単語T （ W ）と同一のd （ T （ W ）、 W _r ）単語の推定値も必要です。

次に、単語の配置を単語 R = W ₁ 、 W ₂ 、...の順序付けられたセットとして定義します。これに対して、認識されたドキュメントT内の各単語の存在がチェックされます。

P（ W ₁ 、 T ）∧P（ W _r 、 T ）∧...（1）

さらに、 W _iとW _{i +1}の各ペアに対して、条件がチェックされます

r （ W _{i +1} ） -r （ W _i ）< m ₅ （ W ）、（2）

ここで、関数r （ W ）は、OCRメカニズムによって順序付けられたテキストT内の単語Wの数を示します。つまり、パラメーターm _r6 （ W ）は、配列内の隣接する単語間の距離を決定します_。mr （ W _{i +1} ）=∞で、条件（2）はチェックされず、単語の順序のみがチェックされます。

Rを配置するには、 m ₇ （ R ）を指定できます-単語の長方形に意味が似ている配置長方形、テキストTで完全に見つかった単語がm ₆ （ R ）長方形の単語W ₁ 、 W ₂ ...と同一であるかどうかがチェックされます

条件（1）、（2）および長方形のフレームm ₇ （ R ）への対応をチェックするための条件が満たされると、テキストTの位置Rの述語T ：P（ R 、 T ）= 1が決まります。最も単純な場合、配置は1つの単語のみで構成でき、一般的な場合、P（ R 、 T ）を計算するには、単語W ₁ 、 W ₂ ...と同じセットを検索する必要があります。

配置推定値d （ R 、 T ）を単語推定値の最小値として定義します：min（ d （ W ₁ 、 T ）、 d （ W ₂ 、 T ）、...）。

ここで、 組み合わせを割り当てのセットS = R ₁ 、 R ₂ 、...として定義します。認識されたドキュメントT内の各割り当ての存在がチェックされます。

P（ R ₁ 、 T ）∧P（ R ₂ 、 T ）∧...（3）

配置順序は重要ではありません。条件（3）に加えて、組み合わせのすべての単語の長方形と、組み合わせm ₈ （ S ）の長方形との比較を追加できます。示された条件は、組み合わせSがテキストTに属する述部を決定します：P（ S 、 T ）= 1。

組み合わせd （ S 、 T ）推定値は、組み合わせに含まれる配置推定値の最小値として定義されます：min（ d （ R ₁ 、 T ）、 d （ R ₂ 、 T ）、...）。

そして最後に、認識されたテキストに属するテンプレートの組み合わせS ₁ 、 S ₂ 、...としてパターンMを定義します。

P（ M 、 T ）= P（ S ₁ 、 T ）∨P（ S ₂ 、 T ）∨...（4）

条件（4）に加えて、テンプレートのすべての単語の長方形と、 m ₈ （ M ）の組み合わせの長方形との比較を追加できます。

テンプレートの推定値d （ M 、 T ）は、テンプレートに含まれる組み合わせの推定値の最大値として定義されます：max（ d （ S ₁ 、 T ）、 d （ S ₂ 、 T ）、...）。

テンプレートと認識されたテキストとの既存の比較に、いくつかのテキストプロパティ（ページm ₉ （ T ）の文字数、テキストの列数m ₁₀ （ T ））とテンプレートm ₉ （ M ）、 m ₁₀ （ M ）の同様のプロパティとの対応のチェックを追加します。

テンプレートM ₁ 、...、 M _nのセットがnクラスに対応している場合、ドキュメントTの認識されたページのクラスM _iへの準拠を検証するタスクは、上記のスキームに従って距離d （ M _i 、 T ）を計算し、この距離を既知のしきい値d ₁と比較することになります。 max（ M _i ）< d _1が真の場合、ドキュメントTはクラスiに対応します。

提案されたテンプレートの要素を使用する必要性について説明しましょう。

単語に頻繁に現れる形式E _4の単純な単一エラーは、記号「？」を使用して無視できます。単語のマスクの「∗」。記号「∗」を含む単語の長さを制御するには、パラメータm ₂を使用できます。たとえば、キーワード「AGREEMENT」、「Contracts」は、コア「AGREEMENT ∗」でm ₂ = 8の制限で記述できます。「交渉可能性。」コアの「？CONTRACT」は、「AGREEMENT」と「AGREEMENT」という単語を区別しないようにします。

しきい値m ₁は、キーワードとテキストからの単語の完全な一致を要求するために使用できます。たとえば、 m ₁ = 0の場合、CONTRACTコアはテキスト内の単語「AGREEMENT」または「DOGO8OR」の選択を許可しません。

m ₃パラメータを使用すると、大文字と小文字の認識エラーを無視することもできます。

単語の長方形（配置、組み合わせ、テンプレート） m ₄は、文書画像の指定された領域からキーワードを抽出することにより、テンプレート内の文書の構造の部分的な説明を提供します。もちろん、ドキュメントの一部が変動するため、長方形の境界を正確に指定することはできません。

フォームE _3のエラー、つまり誤って認識されたページ構造は、配置設定によって無視される場合があります。配置は、自然にフレーズまたはいくつかの隣接する単語を表します。テキスト列が認識エラーのために2つの列に分割されている場合、単語間の距離m _6が示されていない場合、説明されている配置が見つかります。

パラメータm ₅で設定された単語の有無をチェックする機能により、類似のドキュメントのテンプレートを作成し、ドキュメントのあるクラスに存在し、別のクラスに存在するキーワードを使用してテンプレートを分離できます。

上記の説明は、エラーが認識されたテキストの分類に対する記述されたテンプレートスキームの有用性を示しています。説明されているスキームは、いくつかの場合にテンプレートを作成することは簡単なことであり、テンプレート自体は直感的であるという意味で単純です。たとえば、ドキュメント「非居住施設賃貸借契約」は次のように説明できます。

キーワード：

配置： R ₁ = W ₁ 、 R ₂ = W ₂ ＆ W ₃ ＆ W ₄ 、 R ₃ = W ₂ ＆ W ₅ ＆ W ₆ 、 R ₄ = W ₇ ＆ W ₈ ＆ W ₉ ＆ W ₁₀ 、すべてフレームありプレースメントなし
組み合わせ： S ₁ = R 1∧R ₂ 、 S ₂ = R ₁ ＆ R ₃ 、 S ₃ = R ₃ 、すべての組み合わせにフレームはありません。
パターン： M = S ₁ ＆ S ₂ ＆ S ₃ 、パターンにはフレームm ₈ （ M ）= {（0.0,0.0）、（0.3,0.9）}があります。

最適なクラスを選択するタスクは、距離d （ M ₁ 、 T ）、...、 d （ M _n 、 T ）を計算し、そのようなクラスM _jを削除して真のd （ M _j 、 T ）> d ₁ 、結果セットを昇順で並べることによって解決されます（実際、テンプレートをテキストと一致させないためのペナルティが最小の1つまたは複数のクラスを選択し、1つまたは複数の選択肢d （ M _{i 1} 、 T ）、 d （ M _{i 2} 、 T ）、...を保持します。つまり、最良の方法では、テキストTはクラスi 1に対応し、他のクラスi 2、...は距離順に並べられます。競合解決d （ M _{i 1} 、 T ）= d （ M _{i 2} 、 T ）、実行するために、分類を放棄し、場合によっては、追加の符号m ₉ 、 m ₁₀を使用して競合を解消します。

3.テンプレートの形成（トレーニング）

説明したテンプレートとの比較方法は簡単ですが、テンプレートの作成プロセス、つまりトレーニングには一定の複雑さがあります。

45クラスのドキュメントフローの実際の例を使用して、テンプレートを形成するプロセスを検討します。複数ページのドキュメントの最初のページのキーワードに焦点を合わせて、いくつかの段階でテンプレートを準備しました。

ステージ1.初めに、多くの参照文書を検討しました。クラスごとに、理想的なドキュメントのサンプルをいくつか用意しましたが、認識結果に誤りはありませんでした。これらのドキュメントのテキスト表現は、ワードバッグに変換されました。 ストップワードが削除された複数の単語セット（短い単語、フルネーム、数値データ、日付など）。次に、これらのマルチセットからの単純な検索アルゴリズムが、クラスの1つに固有のいくつかの単語から単一の単語とフレーズを選択しました。主な注意は、ドキュメントのセクションの見出しとタイトルからの特徴的な単語に向けられました。したがって、いくつかの配置がコンパイルされ、一部のクラスが他のクラスから十分に分離されました。したがって、コアカーネルを検索し、デフォルトで残りのパラメーターを設定しました。いくつかの問題クラスがすぐに特定されました。たとえば、「Charter」クラスのドキュメントの最初のページは、1つのキーワード「Charter」で表すことができます。この問題を解消するために、2つのトリックを使用しました。

クラス「Charter」のドキュメントの最初のページに表示されるべきではない単語の使用、
属性m ₉ （ T ）の使用-ページの文字数-クラス「Charter」のドキュメントのページを明確に区別します。

ステージ2。さらに、結果のテンプレートを使用した分類のいくつかの不完全性にもかかわらず、 実際のドキュメント （シングルページおよびマルチページ）の50〜100サンプルで構成されるドキュメントのサンプルに進みました。エラー分析により、テンプレートの変更が必要な特定のページ数と、当社の技術では分類できないページ（主に認識エラーが多いため）を特定することができました。テンプレートの変更は、新しい配置と組み合わせの検索、ドキュメントに表示されない単語の検索、キーワードパラメータの選択、主に長方形m ₄および単語間の距離m _6に限定されました。分類結果の分析は、次の基準に従って実行されました。

正しく分類されたページは、（ n ₁ + m ₂ ）/（ n ₁ + n ₂ + n ₃ + m ₁ + m ₂ ）、誤分類エラー-（ n ₂ + m ₂ ）/（ n ₁ + n ₂ + n ₃ + m ₁ + m ₂ ）、および（ n ₃ ）/（ n ₁ + n ₂ + n ₃ + m ₁ + m ₂ ）としての分類の拒否。

最も不快な分類エラーは、複数ページのドキュメントの最初ではない（中間および最後の）ページの誤った分類です。これは、複数ページのドキュメントを複数のパーツの形で後で保存することと、ドキュメントの欠落部分の検索を必要とする修正の必要性によって説明されます。最初以外のページを分類するために、中間ページと最終ページのテンプレートを使用して、説明した方法が使用されました。残りの分類エラー（複数ページのドキュメントの最初のページまたは1ページのドキュメントの単一ページの誤った分類）は、ディレクトリを使用してクラスを置き換えるだけで修正されます。

ステージ3。最初の2つのステージは、特定のクラスに帰属するためのルール （適切なテンプレート）の使用に基づいています。大きなサンプル（各クラスの3000-30000サンプル）の場合、たとえば、バイナリ決定ツリーCART（分類および回帰ツリー[9]）を構築する既知の方法を使用して、 機械学習が可能です。トレーニングの初期データは、前の段階でカーネルと機能の形で知られているキーワードの説明です。戦略に従って、すべてのクラスに対して1つのクラスごとに、これらの標識上にいくつかの木が構築されました。分類プロセスのドキュメントが複数のツリーで認識されなかった場合、分類エラーが生成されます。 CARTメソッドの既知の機能のうち、安定した学習には十分な量のトレーニングサンプルが必要であることに注意してください。このため、通常はステップ1および2のトレーニングを使用して取得した分類結果よりも優れていますが、CARTメソッドを使用して取得した分類結果は表示しません。

4.実験

実験では、2つのテストセットが使用されました。

トレーニングフェーズ（884ページ）で選択された中品質および低品質のデジタル化のドキュメントの画像を含む
トレーニングの段階に関係なく取得された、デジタル化の平均品質のドキュメントの画像を含む（3014ページ）。

分類結果を以下の2つの表に示します。

与えられた表から、私たちが説明した分類技術は0.86-0.95の精度を与え、誤った分類は0.01を超えないが、残りのエラーは分類の拒否に関連することが明らかです。つまり、提案されたメソッドは常に機能するとは限りませんが、間違ったクラスを提供することはめったにありません。

実装された分類（Microsoft Visual Studio 2013を使用したリリースビルド）の速度は非常に高速です：インテル®Core（TM）i7-4790コンピューターで認識された3,000ページが約1分で処理されます3.60 GHz、16.0 GB、Windows 7 prof 64ビット。ただし、ソースHOCRファイルに必要な実際のOCR Tesseract認識には数秒かかります。

未分類のままのページの割合を減らすには、次の可能な手順が必要です。

汚れた文書や複雑な背景を持つ文書の背景を削除する2値化方法の使用、
他のOCRの使用、
キーワード検索に基づいたより効果的な分類方法、たとえば、上記で流に説明したCART方法の使用。

おわりに

説明された分類技術は、スキャンされたドキュメントのフローの入力と分析のために、スマートエンジンプロジェクトで使用されました。

説明された技術は理解しやすく、同様の問題を解決するために独立して実装されます。

有用なソースのリスト

Gonzalez R.、Woods R.デジタル画像処理。 M：Technosphere、2005.1070秒。
Smirnov S.V.技術およびアーカイブ文書の認識中の結果の自動修正システム。技術科学の候補者の学位論文、サンクトペテルブルク：、2015。-130 p。
「携帯電話でのロシア連邦のパスポートの認識」（ https://habrahabr.ru/company/smartengines/blog/252703/ ）
Martin D.、Jurafsky D.音声および言語処理。自然言語処理、計算言語学、および音声認識の紹介。ピアソンプレンティスホール、2009年-988 p。
ポンテJM、クロフトWB情報検索への言語モデリングアプローチ// Proc。情報検索の研究開発に関する会議。 ACM 1998.-S. 275–281。
潜在的意味解析による索引付け/ S. Deerwester [et al。] // Journal of the American Society for Information Science。 1990.-T. 41、No。6-S. 391。
Chernyak EL。注釈付きサフィックスツリーを使用したテキスト分析のための計算方法の開発。技術科学の候補者のための論文、M：、2016。-124 p。
レーベンシュタインV.I. シンボルのドロップアウト、挿入、および置換を修正したバイナリコード-M .: Doklady AN SSSR、t。
ブライマンL.、フリードマンJH、オルシェンRA、およびストーンCJ分類および回帰木。 Monterey // CA：Wadsworth＆Brooks / Cole Advanced Books＆Software、1984 .-- 368 p。

Template Matchingメソッドに基づいて、ビジネスドキュメントの認識されたページを分類するためのシンプルなテクノロジー

有用なソースのリスト

More articles: