ABBYY FlexiLayout Studio:トレーニングの柔軟性

ABBYY FlexiCapureデータ入力システムで柔軟な説明を作成するためのプログラムであるABBYY FlexiLayout Studioについて引き続き説明します。 前回 、柔軟な説明を手動で作成する方法を説明しましたが、今日はそれらを自動的に作成する方法について説明します。これは、ABBYY FlexiLayout Studioの最後の10番目のバージョンに登場した新機能です。



cな話をしないでください。大まかに構造化されたドキュメントの説明を作成するのはそれほど簡単ではありませんでした。 フィールドの相互配置、フィールド間の関係などのパラメータを手動で決定し、それらを画像上で明確にではなく、数字の形で明示する必要がありました。 これで、複数の画像をアップロードし、静的要素とデータフィールドが配置されているプログラムを「表示」すると、説明が自動的に作成されます。



ABBYY FlexiCaptureユーザーの場合、これは単純なプロジェクト(異なる要素のデータを含む静的要素とフィールドの相対的な位置があまり変わらない)が、会計士Lenaなどの準備のできていない人によって処理できることを意味します。 同意します、これは便利です。



それでは、その仕組みを見てみましょう。



前の記事と同じ2つの銀行のATMチェックの例を見てみましょう。 その後、各チェックのサンプルが1つあれば十分でした(もちろん、より良い)。 次に、プログラムをトレーニングするための各銀行のチェックの3つのサンプルと、その後の検証のためのサンプルを取ります。



学習プロセスは次のとおりです。1つの画像の例で静的要素(ヘッダー)とデータフィールドが配置されている場所をプログラムに示します。 次に、2番目、3番目などの画像で必要なフィールドを見つけようとして、プログラムがどの程度正しく「理解」しているかを確認します。 一部の画像でエラーが発生した場合は、エラーを修正して次のことを試してください。 トレーニング後、柔軟な説明を自動的に生成し、2つの管理チェックで確認します。



そのため、アプリケーションを起動し、プロジェクトを作成し、選択した6つの領収書の画像をアップロードします(最も明確ではないが、最も使い古された領収書ではありません)。 画像の向きを自動的に修正し、事前認識を実行します。 図は結果を示しています。 自動検出された単語が強調表示されます。





トレーニングセットに画像を追加し、トレーニングモードに入ります。 次に魔法の杖の助けを借りて-ツール -フィールドと静的要素を指定します(見つかった単語をダブルクリックするか、マウスの左ボタンを押したままいくつかの単語をトレースします)。







このインターフェイスは、前述の手動マークアップ作成モードとは多少異なることがわかります。FlexiLayout構造を持つパネルの代わりに、 トレーニングパネルが表示されます。 サポート要素(左)とデータフィールドのリストが含まれています。 前と同様に、右側に画像があります。 青いフレームは静的テキストを強調表示し、緑のボックスは情報を抽出するフィールドを示します。



静的要素は、左側の列のトレーニングパネル、右側のフィールドに表示されます。 静的要素の場合、プログラムは検索対象のテキストと、テキストが複数行にできるかどうかなどのその他のパラメーターを決定します。 認識されたテキストは、要素の名前として使用されます(たとえば、 Accessible Residue )。 データフィールドの場合、プログラムはヘッダー(静的要素)を見つけようとし、それに応じてフィールドに名前を付けます。 日付および時刻フィールドの場合、プログラムはヘッダーを誤って検出しました(存在しないため)。手動で呼び出す必要がありました。



これまでのところ、外見上、すべては以前とほとんど同じです。 ただし、マークアップを作成して要素のプロパティを確認すると、9番目のバージョンとは異なり、他の要素に対する要素の位置が示されます。 つまり、各静的要素またはデータフィールドを計算して手動で指定するのに長く面倒だったすべてのもの(ドキュメント内の位置、他のオブジェクトとの相対的な位置、および場合によってはそれらからの距離)が計算され、自動的に入力されるようになりました。 前の例で調べた単純な場合でも、それほど時間はかかりませんでした。 そして実際には、要素とフィールドの数が数百ではないとしても数十個である場合、記述の作成には数日だけでなく数週間かかる場合があります。 しかし、文書は一般的に非常に類似しており、単純な構造を持つことができます。つまり、ほとんどの場合、インデントとその調整に必要な値の選択で占められていました。



そして、楽しみが始まります。別の銀行から小切手を受け取り、作成したマークアップを適用しようとします。





トレーニングパネルでは、検出されたオブジェクトが図の太字で表示されます。以前と同様に、青と緑のフレームが表示されます。



おっと...結果は、一見、落胆しています。 2つの静的な要素(銀行名と口座残高を含むフィールド見出し)が見つかりませんでした。4つのフィールドのうち3つが認識され、さらに1つが間違っています。金額ではなく残高が選択されます。 一方、驚くべきことではありません。別の銀行のチェック、静的要素は異なる方法で呼び出され、フィールドはそれらに関連して検索されます。 マウスを使用してフレームを移動およびサイズ変更し、見つからない要素については、マウスの左ボタンを押しながらカーソルで目的の単語グループをトレースすることにより、必要な要素の位置を手動で示します。 同時に、プログラムはオブジェクトの相対的な位置を調整するだけでなく、静的要素RaiffeisenbankAvailable Balance それぞれ他のテキストを含めることができることを「理解」します。Sberbankof Russia OJSCBALANCE







その後、すべてが簡単です。残りの4つのチェックに対して操作を繰り返します。マークアップをテストし、必要に応じて調整を行います。 すべてのテストイメージでマークアップがチェックされた後(もちろん、より多くのテストイメージがあり、より多様である方が良い)、柔軟な説明を作成し、残りの2つのチェックの処理を試みます。 図の結果:





ご覧のとおり、かなり良い結果が得られました。 Sberbankチェックの品質がそれほど高くないにもかかわらず、すべての要素が正しく検出されました。 必要に応じて、プロパティまたはオブジェクトを修正または追加して、作成したマークアップを後で編集できます。 しかし、一般的に、プログラムはその作業に対処しました。チェックは正しく認識されます。



もちろん、最も多様な方法でフィールドが配置されている複雑なマルチページプロジェクトの場合、この方法で説明を作成することはまだできません。 一方、複雑なプロジェクトの場合は、説明を作成するための時間とエネルギーを見つけることができます(または、プロフェッショナルサービスにお問い合わせください)。 ただし、アカウント、支払い、請求書などの比較的簡単で柔軟な説明を作成する必要がある多数の人々にとって、この新しい機能は非常に便利です。長い間勉強してから説明を調整する必要がありましたが、今では数十(数十)例-それだけです。



パベル・ソコロフ

データ入力製品部門



All Articles