外観と内容による文書の分類

画像 今日は、分類器を使用して、種類ごとに異なるドキュメントを分離およびソートする方法と理由を説明します。



プログラマー、言語学者、アナリスト、およびその他のさまざまな有用な人々に加えて、ABBYYには多くの分類子があります。 もちろん、分類子は人間ではなくアルゴリズムですが、高品質のテキスト認識が不可能な作業を行います。 文書を処理する最もさまざまな段階-写真にテキストを含む領域を見つけることから、テキストのある行にある特定の文字を認識することまで、それらなしではできません。



しかし、分類子の作業はこれで終わりではありません。 また、ドキュメントのパッケージを処理し、ドキュメントの種類に応じて「ヒープ内」に整理することもできます。



自動車保険会社のエージェントの仕事を想像してください。 保険事故が発生するたびに、エージェントはその場所に向けて出発する必要があり、そのタスクはクライアントと保険イベントに関するデータを明確にすることです。 原則として、エージェントはカメラで武装し、自動車、保険証書、領収書、交通警察からの証明書、およびその他の必要な書類を撮影します。



次に、すでにオフィスにいるカメラからのデータが保険会社のシステムにダンプされ、処理に転送されます。 エージェントはカメラをシステムに接続し、分類器を使用してすべての写真を自動的に検出してマークします-これは機械の写真、これは領収書の写真、これは証明書などです。 また、文書の写真は、処理の責任者にすぐに送信されます。



この場合の分類子の使用により、システムが少しスマートになります。あるタイプのドキュメントを撮影するとき、ドキュメントを撮影していることを再度通知する必要はなく、表示されている内容を言う必要もありません。



または別のケース。



あなたはイビサ島へのチケットを買いました、そして、ああ、ビザを取得しに行かなければなりません。 彼らはセンチメートルの厚さの書類の束を必要とします。それはあなたが白くふわふわしていて、突然不法移民になることを計画していないことを示しています。 その後、ウィンドウ内の少女は長い間書類をシフトし、正しい順序に並べ、領事館に正しい順序で転送し、そこでビザを発行します。

そして、分類子を適用する場合、このバンドル全体を取得してストリームスキャナーに入れ、すばやくスキャンすると、ドキュメントの種類(アプリケーション、銀行証明書、雇用証明書、パスポートのコピーなど)でソートされたパッケージを取得できます盛り合わせ、見ていて処理する喜び。 その結果、顧客の待ち時間が短縮され、一般的に処理が安くなり、あらゆる面でプラスになります。



そして最後の例。 スマートフォンのカメラアプリが少し賢くなると想像してください。 何かの写真を撮った後、電話は画像を分析し、フレームに入ったものに基づいてアクションを提供します。 ペットの画像がある場合は、ライブラリに入れたり、写真を友人と共有するように求められます。 名刺の場合、連絡先の詳細を電話帳に記載するよう提案されます。 そして、小切手の写真を撮ることを決め、それがレストランからの小切手であることが判明した場合、電話は残りのヒントの数を教えて、あなたの費用を導くプログラムの金額を覚えています。



これは将来のフレームではなく、当社のテクノロジーの次のバージョンで現在利用可能なテクノロジーです。



したがって、さまざまなドキュメントから適切なドキュメントを見つける必要がある場合、または逆に自分の目の前にあるドキュメントの種類を理解する必要がある場合は、ドキュメントをタイプ別に分類する分類子を使用できます。



次に、分類子の配置方法について少し説明します。



このようなマシンが機能するためには、分類器を最初にトレーニングする必要があります。 定義する各タイプを表すドキュメントの小さなデータベースを取得します。 定義したい2つのドキュメントが非常に類似している場合、たとえば、異なるタイプの人が記入した同じタイプのアンケートの場合、トレーニングには通常このタイプのドキュメントが1つ必要です。



このベースの助けを借りて、分類器を訓練します。 次に、別のベースを取り、その上の分類器の動作を確認し、結果があなたに合っていれば、分類器を「戦闘に」開始することができます。



分類器は、作業およびトレーニングの際に、あるタイプのドキュメントを別のタイプのドキュメントから分離するのに役立つ一連の機能を使用します。 すべての標識は、グラフィックとテキストに分けることができます。



グラフィック機能は、互いに非常に外側が異なるドキュメントのグループをうまく分割します。 比較的言えば、テキストを読むことができないような方法でドキュメントを遠くから見るが、それがどのようなタイプであるかを理解できる場合、グラフィックサインはここでうまく機能します。



そのため、グラフィックサインは、手紙や支払い領収書など、連続テキストと非連続テキストをうまく区別できます。 彼らは、画像のサイズ、その異なる部分の色の密度、垂直線や水平線のような他のさまざまな特徴的な要素を見ます。

また、ドキュメントの外観が似ている場合、またはテキストを読み取らずに1つのグループを別のグループから分離できない場合は、テキスト属性が役立ちます。 これらはスパムフィルターで使用されるものと非常に似ており、特徴的な単語を使用して、ドキュメントが1つのタイプに属しているか別のタイプに属しているかを判別できます。 テキスト属性を使用して、契約書と名刺の小切手​​を正確に区別すると便利です。



また、テキスト属性は、類似したタイプのドキュメントを分離するのに役立ちますが、1つ以上のフィールドの値が異なります。 たとえば、McDonald'sとTeremkのチェックの外観は非常に似ていますが、テキストと見なすと、違いは非常に顕著になります。

その結果、各トレーニングサンプルの分類子は、タイプごとにこのサンプルからドキュメントを分離する最良の方法を可能にするテキスト機能またはグラフィック機能により大きな重みを与えます。



テストおよびクライアントのテストでは、タイプ別のドキュメント分類子は非常によく表れています。 タイプごとに1つの画像でも学習できるため、1プロセッサコアあたり1分あたり最大120ページの速度でドキュメントを分類でき、同時に1%未満のエラーが発生します。 本当に気に入っています。 実際の戦闘状態で彼の作品を見てほしい。



この記事で説明するすべてのシナリオは、 ABBYY FineReader Engine 11で利用可能な分類子を使用して実装できます。 分類子の使用が問題の解決に役立つ可能性のある他のシナリオがある場合は、 当社までご連絡ください 。 お手伝いさせていただきます。



ヴァシリー・パンフェロフ

開発者製品部



All Articles