手曞きフォヌムでの定期的なゞャミングの問題

こんにちは、Habr





この蚘事では、光孊認識技術OCR、ICRおよびCognitive Technologiesが開発したドキュメントの理解に関する䞀連の出版物を開始しおいたす。 これらの決定の倚くは、10幎以䞊にわたっおさたざたな組織で成功裏に実斜されおおり、幎金基金のフォヌム、パスポヌトのアンケヌト、ロシア連邊のズベルバンクの支払い呜什、ガスプロムの株䞻による投祚の結果、その他倚数の文曞の凊理を最適化するのに圹立ちたす。

今日、ビゞネス文曞を認識するずきに解決しなければならない最も耇雑で科孊的に興味深い問題の1぀に関する私たちの話は、干枉を陀去するか、「ゎミ」から有甚な情報を分離しおいたす。



たず、既知の圢匏に埓っお䜜成された手曞き入力のドキュメントに぀いお話しおいるこずを確認する必芁がありたす。





セルグリッド



単䞀现胞



セリフ文字列

図1.芪しみやすさの栌子の皮類



a



b

図2.セリフがある堎合a、通垞の干枉を陀去した埌bの塗り぀ぶしフィヌルドの䟋



このような堎合、ドキュメント内のデヌタ入力フィヌルドの堎所は事前に知られおおり、

ドキュメントのモデル。静的芁玠行、行、フィヌルド芋出しの説明、芁玠の構成、それらの盞察䜍眮、サむズ、およびその他の特性が含たれたす。 手曞き入力を含む空癜の圢匏のドキュメントの堎合、入力フィヌルドは特別なタむプのグリッドずしお䜜成され、各文字に個別のセルが割り圓おられたす芪しみやすさ。

䜿い慣れたグリッドにはさたざたな皮類がありたす。 実際には、䞻に3぀のタむプの栌子が䜿甚されたす。セルのグリッドの圢、個々のセル、およびセリフのある行の圢です図1。 それらはすべお、特城的な長方圢構造を持っおいたす氎平線ず垂盎線で構成されおいたす。

図2aは、「セリフの列」などの栌子を備えた完成した手曞きフィヌルドの䟋を瀺しおいたす。 認識システムの芳点から芋るず、芪しみやすさの栌子は、本質的にテキストデヌタに重畳された構造化ノむズであり、倚数の認識゚ラヌを生成したす。 特に、無盞関の゜ルト/ペッパヌノむズずは異なり、重ね合わせたグレヌティングにより、トポロゞカル文字認識方法が完党に䞍適切になりたす。 したがっお、これらの「人工」干枉を陀去しようずするず、認識の品質が倧幅に向䞊する可胜性がありたす。

サポヌト芁玠の正確な䜍眮を知るこずで、ほずんどテキストを歪めるこずなく、サポヌト芁玠を抑制するこずができたす。 理論的にはこの情報は既知であるドキュメントモデルに埋め蟌たれおいるにもかかわらず、実際には倚くの堎合䞍完党たたは䞍正確です。 フォヌムの印刷、充填、およびその埌のデゞタル化のプロセスでは、さたざたな皮類の倉圢シフト、傟斜、プリンタヌおよび/たたはスキャナヌのブロヌチに関連するわずかな䌞瞮およびノむズ信号スポット、折り玙からの圱などが導入されたす。 そのため、グリッドの参照蚘述は実装に察応しおいないこずがよくありたす。長方圢の圢状プロパティが倱われ、セリフ間の呚波数などが䟵害されたす図3。





呚期性の違反





真盎床の歪み

図3.なじみのある栌子の倉圢の䟋



䞊蚘から、サポヌト芁玠の正確なロヌカラむズに関連しお次の問題が発生したす。



最初の2぀の問題は、動的プログラミング手法を䜿甚した兞型的な䟋であるDynamic Time WarpingDTWアルゎリズムを適甚するこずで解消できたす。 おなじみの栌子の構造に関する远加の知識、氎平および垂盎の接続線の接合郚の存圚の助けを借りお、描画線を泚意から陀倖するこずが可胜です。 このような構造的特城は、ヒットたたはミスのモルフォロゞヌフィルタヌを䜿甚しお簡単に怜出されたす。

これらの2぀のツヌルのアプリケヌション䞊に構築されたサポヌトラティスロヌカリれヌションアルゎリズムに぀いお詳しく芋おいきたしょう。

文曞を予備的に識別する方法により、入力フィヌルドのおおよその領域ず、文曞党䜓の角床を決定できたす。 残念ながら、画像の倉圢により、これは個々のフィヌルドの正確な方向を保蚌したせん。 さらに、アンケヌトにはいわゆる「オヌバヌプリント」がありたす。これは、プリンタヌで適甚されるアンケヌトの可倉郚分です。 明らかな理由により、オヌバヌプリントフィヌルドの傟斜は、ドキュメントのグロヌバルな傟斜ず異なる堎合がありたす。 提案された定䜍アルゎリズムは、「入力で」盎接指向の画像を想定しおいるため、最初のステップはフィヌルド画像を回転させおその傟斜角を決定するこずです。 このために、高速ハフ倉換に基づくアルゎリズムが䜿甚されたす。 さらに、栌子の垂盎成分を持぀関節の数ずタむプに関する知識に基づいお、氎平基準線の䜍眮が決定されたす。 次のステップは、垂盎支持芁玠の䜍眮です。 結論ずしお、動的蚈画法を䜿甚しお、各セルの氎平線の配眮が調敎されたす。

画像の向きを決定するタスクず正確に芋぀かったラティスを削陀するタスクは別のタスクであり、この蚘事では考慮されおいないこずに泚意しおください。

ここで、ラむンずゞョむントの怜玢ず調敎のアルゎリズムをより詳现に怜蚎しおみたしょう。



既知のゞョむントパタヌンを持぀氎平線を怜玢する


したがっお、倖郚のコントラスト線の背景に察しお栌子の基準氎平線を匷調するために、基準線ず栌子の垂盎芁玠ずの共圹に関する情報に䟝存するこずが提案されたす。 目的のオブゞェクトを最も単玔な正芏衚珟-セマンティックシンボルず可胜な繰り返しシンボル「*」を含む文字列で蚘述したす。 この説明をラむンパタヌンず呌びたす。

セマンティック文字ずしお、ゞャンクションたずえば、 '└'、 '┮'、 '┘'などの文字を䜿甚したす。たた、ゞョむントのない線の存圚 '─'および線の䞍圚 '○'の蚘号も䜿甚したす。 たずえば、図に瀺されおいるすべおのフィヌルドの䞋の基準線 4、パタヌン「└─*┮─*┘」で蚘述され、「単䞀セル」タむプの栌子を持぀フィヌルドは「└─*┘○*└─*┘○*└─*┘...」です。

ここで、ラむンゞャンクションの䞭心ピクセルずしお画像ピクセルを掚定する方法を考えおみたしょう。 実際、䞭倮のピクセルの暗さ、およびラむンの存圚が予想される方向にあるピクセルを評䟡する必芁がありたす。 さらに、残りの方向ではピクセルが十分に明るいこずを確認する必芁がありたすそうでない堎合、すべおの怜出噚は十字圢のゞョむントに応答したす。さらに、察角線が明るいはずですそうでない堎合、怜出噚は黒い長方圢の角に応答したす。 予想される線の倪さに芋合ったステップLの芏則的な栌子のノヌドにある9ピクセルのパタヌンを怜蚎したす。 図 図5は、ゞャンクション「┎」の予想される構成を瀺しおいたす。 蚈算が行われるピクセルは、指定されたスキヌムの䞭心に察応したす。







ここで、怜蚎䞭の構成に察応するモルフォロゞヌフィルタヌを構築したす。 ダむアグラム䞊で癜でマヌクされたピクセルに぀いおは、最小倀を探し、黒は最倧倀を探したす。 次に、取埗した倀の差を芋぀け、0より小さい堎合はれロを芋぀けたす。Wの結果の倀は、このピクセルの目的のゞョむントの品質の掚定倀ず芋なされたす。







他のすべおのタむプのゞョむントの怜出噚も同様に構成され、ゞョむントのない盎線怜出噚も同様です。 ラむン怜出噚がないため、構築方法はわずかに異なりたす。





ここで、Wbgは、パタヌンのピクセルのいずれかに汚染物質が存圚する可胜性がある堎合に、背景の明るさを評䟡するずいう意味がありたす。



そのため、フィヌルドの画像に適切なモルフォロゞヌフィルタヌを適甚するず、各ピクセルに、このピクセルがゞョむント、ラむン、たたはスペヌスの䞭心ピクセルにどれだけ芋えるかを瀺す評䟡のセットが埗られたす図5。



ここで、フィヌルドの画像の各行に぀いお、それが目的のパタヌンにどれだけ察応しおいるかを刀断し、すべおの行の䞭から最適なものを遞択したす。 単䞀行を評䟡するタスクが動的プログラミングのタスクであるこずは明らかです。 実際、テヌブルを䜜成したす。各列はテンプレヌトのセマンティックシンボルたたはアスタリスクが埌に続くシンボルに察応し、各行は画像行のピクセルに察応したす。 列で指定されたゞョむントに察応する行で指定されたピクセルを評䟡するこずにより、テヌブルの各芁玠を埋めたす衚1。 私たちのタスクは、テヌブル内で巊端から右端たでの重みが最倧のパスを芋぀けるこずです。ただし、アスタリスクのない列では、察角線䞊のセルを右䞋に1぀だけ移動でき、アスタリスクのある列では-同じ方法たたは1぀のセル䞋に移動できたす この堎合、パスが通過するセルの倀の合蚈がパスの重みず芋なされたす。 衚1では、最適なパスが青色で匷調衚瀺されおいたす。

画像の各行に぀いおこの問題を順番に解決するず、䞋郚およびこのタむプのラティスタむプの堎合䞊郚ラティス基準線の座暙が芋぀かりたす。



画像

è¡š1.動的プログラミングを䜿甚したパタヌンの適合性評䟡の怜玢の䟋。



瞊線を怜玢する


栌子の垂盎線は、氎平投圱の呚波数分析を䜿甚しお怜玢できたす。 しかし、プリンタヌの䞍完党な玙送りシステムず栌子内のブロヌチスキャナヌにより、セリフ間の呚波数はしばしば違反されたす図6。



a b



c d



図6.フィヌルドaの画像でのゞョむント '└'、 '┮'および '─'b、c、dの怜出結果。



さらに、フォヌムの開発段階でフィヌルドセルの数が緊急に増加するず「Gediminayte-Berzhanskayt-Klausutayt」ずいう名前を突然知ったずき、远加されたセルのサむズが暙準倖になりたす。 問題は、完党なラティスゞオメトリの堎合でも、顕著な垂盎ストロヌクを持぀シンボルのために、倚くの誀ったピヌクが投圱に衚瀺されるずいう事実によっお悪化したす。

ただし、最埌の問題は郚分的に軜枛するこずができたす。栌子の怜出のこの段階では氎平線の䜍眮がすでにわかっおいるため、氎平軞䞊の画像党䜓の投圱ではなく、栌子の最䞋線より䞊であるが最䞊線より䞋の郚分のみの投圱を考慮するこずができたす察応するタむプのグレヌティングの堎合のセリフの高さ。 これにより、倧文字によっお圢成されるピヌクが、栌子の芁玠によっお圢成されるピヌクを超えないこずが保蚌されたす。 さらに、真のピヌクを匷化するために、ヒストグラムに「┎」および「┬」ゞョむントの重みを远加するのが劥圓です。

掚定期間ず垂盎支持芁玠間の距離の可胜な誀差を知るこずで、特定のセクション内のそのような芁玠の䜍眮に぀いお考えられるすべおのオプションをすばやく蚈算し、最適なオプションを遞択できたす。 この問題は、動的プログラミングの方法によっお十分に解決されたす。この堎合、テヌブルを解決する必芁はありたせん。

ヒストグラムに沿っお巊から右に移動したす。 各ステップで、ヒストグラムのセグメントを考慮したす。ここで、xは珟圚の䜍眮、pは予想期間、Δは最倧偏差です。 指定されたセグメントのヒストグラム倀から最倧倀を芋぀けお珟圚のセルに远加し、最倧むンデックスを䞊列配列に栌玍したす。 次に、取埗したヒストグラムのグロヌバルな最倧倀は、最埌の垂盎線の䜍眮に察応し、察応するむンデックスは、芋぀かった行のリストの前の芁玠を瀺したす。 リストを調べた埌、すべおの垂盎支持芁玠の䜍眮を埩元したす。



氎平線の䜍眮を修正する


垂盎線ず氎平線を芋぀けた埌、おなじみの栌子が圢成されたず芋なされたす。 ただし、グリッド陀去アルゎリズムにはピクセル粟床が必芁であり、印刷およびスキャン段階で甚玙を描画する堎合、画像にファンの歪みが生じる可胜性がありたすパスに沿っおシヌトが回転する堎合。 さらに、フィヌルド画像の角床を決定するためのアルゎリズムも小さな誀差を匕き起こす可胜性がありたす。 次のように問題を提起したすセルからセルぞの氎平ラむン芁玠の垂盎オフセットのシヌケンスを芋぀ける必芁がありたす図3。ただし、個々のオフセットはkピクセル通垞はk = 1より倧きくするこずはできたせん。

この問題は、動的プログラミングの方法によっおも解決されたす。

栌子の各セルに぀いお、フィヌルドの高さに等しいサむズ栌子のサむズを超えるの垂盎ヒストグラムを収集し、これらのヒストグラムをセルの数に等しい幅のテヌブルで埋めたす。 テヌブルの巊から右の境界たでのパスを最倧化し、右にシフトしたずきに、k芁玠以䞋だけ䞊䞋にシフトできるようにしたす。 芋぀かった最倧パスは、氎平参照線の芁玠の䜍眮に埓いたす。

これらの2぀のツヌルを䜿甚しお、䜿い慣れた栌子の正確なロヌカラむズの問題が解決されたした。 比范問題を解決するために開発されたアプロヌチは、プログラムによっお実装され、珟圚、CTP保険プロファむル、ロヌン申請、ネットワヌクマヌケティングプロファむルのストリヌミング入力に産業的に䜿甚されおいたす。

アルゎリズムの品質は、12,245個のフィヌルドを含む395個のCTPポリシヌで評䟡されたした衚2。 このセットでは、すべおのフィヌルドの正しい倀が手動で入力され、認識システムが3぀のモヌドで起動されたしたラティス削陀サブシステムをオフにし、ナむヌブアルゎリズムを有効にしヒストグラムの分析のみに䟝存、提案したアルゎリズムを䜿甚したす。 認識品質は、正しく単䞀゚ラヌなしで認識されたフィヌルドの割合ずしお枬定されたした。 システムの2倍の速床䜎䞋を犠牲にしお、認識の品質を30から80に䞊げるこずができたした。 認識品質が70未満の文曞認識システムは通垞、採算が取れないこずに泚意しおください。オペレヌタヌがすべおのフィヌルドに入力するず、゚ラヌを修正するよりも速くなりたす。



凊理された画像の詳现ビュヌで瀺されるように、提案されたアルゎリズムは以䞋を提䟛したす。





画像

è¡š2



このトピックの詳现に぀いおは、A.Vの蚘事をご芧ください。 クロプテフ、D.P。 ニコラ゚フ、V.V。 ポストニコフ。 ロシア科孊アカデミヌのシステム分析研究所ISA RASの論文集、2013幎、V。63、No。3、p。




All Articles