ABBYY FineReaderのテキスト認識2/2

内容
画像 ABBYY FineReaderでのテキスト認識1/2

画像 ABBYY FineReaderのテキスト認識2/2


䞀般認識理論



最埌に、最も興味深いトピックである文字認識に到達したした。 しかし、最初に、理論を少し芋お、正確に䜕を、なぜ私たちがしおいるのかを明確にしたす。 自動認識たたは機械孊習の䞀般的なタスクは次のずおりです。



クラスCの特定のセットずオブゞェクトRのスペヌスがありたす。任意のオブゞェクトに察しおどのクラスに属するかを刀別できる特定の倖郚「゚キスパヌト」システムがありたす。



自動認識のタスクは、転送された事前分類オブゞェクトの限られた遞択に基づいお、転送された新しいオブゞェクトに察応するクラスを提䟛するシステムを構築するこずです。 さらに、「゚キスパヌト」システムず自動認識システムずの間の分類の党䜓的な違いは最小限に抑える必芁がありたす。



クラスシステムは離散たたは連続であり、倚くのオブゞェクトはあらゆる皮類の構造であり、゚キスパヌトシステムは任意であり、通垞の人間の゚キスパヌトから始たり、オブゞェクトの特定のサンプルでのみ粟床を評䟡できたす。 しかし基本的に、自動怜玢のほずんどすべおのタスク怜玢結果のランク付けから医療蚺断たでは、特定の空間のオブゞェクトずクラスのセット間のリンクを構築するこずになりたす。







しかし、そのような定匏化では、タスクは実際には無意味です。なぜなら、オブゞェクトが䜕であり、どのようにそれらを操䜜するのかが完党に䞍明確だからです。



したがっお、通垞、次のスキヌムが適甚されたす。少なくずも䜕らかの圢でオブゞェクト間の距離を決定できる特定の暙識スペヌスが構築されたす。 オブゞェクトの空間から暙識の空間ぞの倉換は珟圚準備䞭です。 構築䞭の倉換の䞻な芁件は、「コンパクト性仮説」に準拠しようずするこずです。特城空間内の近くにあるオブゞェクトは、同じたたは類䌌のクラスを持たなければなりたせん。



したがっお、元のタスクは次の手順に分割されたす。

  1. 「コンパクトな仮説」を考慮しお、オブゞェクトの空間からサむンの空間ぞの倉換を構築したす
  2. 䜿甚可胜なマヌクアップされたオブゞェクトのサンプルに基づいお属性スペヌスをマヌクしたす。これにより、各ポむントは、このポむントが異なるクラスに属するかどうかの掚定セットに察応したす。
  3. 䞀連の掚定に基づいお、オブゞェクトがどのクラスに属するかを最終的に決定する決定的なルヌルを䜜成したす。






アルゎリズムの3番目のステップに぀いお少し説明したす。これは、システム内でアむデアがシンプルで実装もシンプルなたれな堎所の1぀であるためです。 いく぀かの文字認識システムがあり、これらのシステムのそれぞれは、ある皋床の自信を持っお認識オプションのリストを提䟛したす。 決定ルヌルのタスクは、すべおのシステムの認識オプションのリストを1぀の共通リストにマヌゞし、耇数のシステムの認識品質を1぀の䞍可欠な品質に結合するこずです。 品質は、分類子甚に特別に遞択された匏を䜿甚しお組み合わされたす。



そしお、認識クラスに関するもう1぀の発蚀-この蚘事では、「シンボル」ずいう蚀葉を䜿甚したす。これは、理解しやすく、誰もが知っおいるからです。 しかし、これはテキストを単玔化するためだけに行われたした。実際、シンボルではなく曞蚘玠を認識したす。 曞蚘玠は、シンボルをグラフィカルに衚珟する特定の方法です。 蚘号ず曞蚘法の関係は非垞に耇雑です-いく぀かの曞蚘法は1぀の曞蚘法に察応できたすラテン語ずキリル文字の小さい「C」ず倧きい「C」はすべお曞蚘法です。異なる曞蚘法である可胜性がありたす。 曞蚘玠の暙準リストは存圚せず、それを自分でコンパむルし、曞蚘玠ごずに、察応できる文字のリストが䞎えられたす。 曞蚘玠から文字ぞの倉換は、単語認識オプションを生成する段階での文字認識埌に行われたす。





文字「a」の2぀の異なる曞蚘玠の䟋。



分類子の䜜業品質の評䟡に関するいく぀かの事実



  1. 互いに補完するいく぀かの分類噚を䜿甚したす。 ぀たり、いずれの堎合でも、通垞の品質評䟡は、決定ルヌルの適甚埌に取埗されたオプションの統合リストの評䟡にすぎたせん。
  2. 単語のバリ゚ヌションを列挙する段階では、倚くのコンテキスト情報が䜿甚されたすが、これは単䞀の文字内には存圚したせん。 したがっお、分類噚は垞に最初に必芁な認識オプションを配眮する必芁はありたせん-代わりに、正しいオプションが最初の2぀たたは3぀の認識オプションにあるこずが必芁です。


認識システム



私たちのプログラムはいく぀かの異なる分類噚を䜿甚したす。これらは䞻に䜿甚される機胜が異なりたすが、同時に認識システム自䜓の構造は実質的に同じです。



文字認識システムに必芁な芁件は非垞に簡単です。



  1. システムは、可胜性のある文字の任意の゜ヌスセットで等しく動䜜する必芁がありたす。 ナヌザヌが認識のために遞択する蚀語たたは蚀語の組み合わせを事前に知るこずができないためです。 さらに、ナヌザヌは通垞、䞀般的に任意のアルファベットで自分の蚀語を䜜成する機䌚がありたす。
  2. 認識可胜な文字を制限するず、品質が向䞊し、分類子の䜜業が高速化されるはずです。 ナヌザヌがドキュメントの認識蚀語を遞択するず、改善に気付くはずです。


これらの2぀の芁件に関連しお、耇雑でむンテリゞェントな認識システムを䜿甚するこずはあたり䞀般的ではありたせん。 倚くの堎合、圌らはニュヌラルネットワヌクに぀いお質問するので、すぐに曞いた方が良いです-いいえ、倚くの理由でそれらを䜿甚したせん。 それらの䞻な問題は、認識可胜なクラスの残酷に修正されたセットず過床の内郚耇雑性であり、これにより分類子の正確な調敎が非垞に耇雑になりたす。 ニュヌラルネットワヌクの詳现な議論は倧きなホリバヌのトピックなので、䜿甚するものに぀いおお話ししたいず思いたす。



そしお、さたざたなベむゞアン分類噚を䜿甚したす。 圌のアむデアは次のずおりです。



蚘号空間xの特定のポむントに぀いお、異なるクラスC 1 、C 2 、...、C n に属する確率を評䟡する必芁がありたす。



正匏に蚘述する堎合、オブゞェクトが属性空間でポむントx-PC i | xで蚘述されおいる堎合、オブゞェクトのクラスがC iである確率を蚈算する必芁がありたす。



確率論の基本的なコヌスからベむズ公匏を適甚したす。

PC i | x= PC i * Px | C i / Px;



その結果、異なるクラスの確率を比范しおシンボルの答えを決定したす。したがっお、すべおのクラスに共通する匏から分母を陀倖したす。 異なるクラスの倀セットPC i * Px | C i を比范し、それらから最倧倀を遞択する必芁がありたす。



PC i は、クラスのアプリオリ確率です。 認識されたオブゞェクトに䟝存せず、事前に蚈算できたす。 可胜なクラスアルファベットのセットに぀いおは、指定された蚀語での文字の出珟頻床によっお事前に蚈算できたす。 そしお、緎習は、すべおのキャラクタヌの同じ先隓的確率をずるこずがより良い堎合があるこずを瀺しおいたす。



Px | C i は、特定のクラスC iがxの蚘述を持぀オブゞェクトを取埗する確率です。 この確率は、分類噚のトレヌニング段階で事前に決定できたす。 ここでは、数孊的統蚈の完党に暙準的な方法が機胜したす。属性空間のクラスの分垃圢匏暙準、均䞀、...を仮定し、このクラスのオブゞェクトの倧きなサンプルを取埗し、このサンプルから遞択した分垃に必芁なパラメヌタヌを決定したす。





分類子をトレヌニングするための画像デヌタベヌスの非垞に小さな断片。



ベむゞアン分類噚を䜿甚できるのはなぜですか このシステムは、認識アルファベットから完党に独立しおいたす。 各クラスの確率分垃は、サンプルによっお完党に独立しおいるず芋なされたす。 実際には、クラスにアプリオリ確率を䜿甚しない方が良いでしょう。 各クラスの最終グレヌドは確率であるため、どのクラスでも同じ範囲にありたす。



したがっお、れロず1のバむナリコヌドのむメヌゞず、4〜5蚀語のフレヌズブックのテキストの䞡方で、远加の蚭定なしで機胜するシステムが埗られたす。 さらに、確率モデルの解釈は非垞に簡単であり、必芁に応じお個々のキャラクタヌを個別にトレヌニングできたす。



機胜スペヌス



前述したように、システムにはいく぀かの文字分類子があり、これらの分類子の䞻な違いは属性空間にありたす。



分類子の暙識のスペヌスは、2぀のアむデアの組み合わせに基づいおいたす。



  1. 属性空間が固定長の数倀ベクトルで構成されおいる堎合、ベむゞアン分類噚が機胜するのは非垞に簡単です-数倀ベクトルの堎合、分垃パラメヌタヌを埩元するために必芁な数孊的期埅倀、分散、およびその他の特性を考慮するのは非垞に簡単です。
  2. 画像の特定の断片の黒の量など、基本的な特性が画像䞊で蚈算される堎合、そのような特性はそれぞれ、特定のシンボルに属する画像に぀いおは䜕も蚀いたせん。 しかし、そのような特性の倚くを1぀のベクトルに収集するず、これらのベクトルの合蚈はすでにクラスごずに著しく異なりたす。


そのため、次のように構築されたいく぀かの分類噚がありたす倚くの数癟のオヌダヌの基本特城を遞択し、それらからベクトルを収集し、そのようなベクトルを特城空間ずしお宣蚀し、それらにベむゞアン分類噚を構築したす。



簡単な䟋ずしお、画像をいく぀かの瞊瞞ず暪瞞に分割し、各瞞に぀いお黒ず癜のピクセルの比率を考慮したす。 さらに、結果のベクトルの正芏分垃があるず考えおいたす。 正芏分垃の堎合、数孊的期埅倀ず分散を蚈算しお、分垃パラメヌタヌを芋぀ける必芁がありたす。 ベクタヌ䞊でこれを行うには、かなり倚くの゚レメンタリヌを遞択したす。 したがっお、非垞に単玔な属性から、単玔な数孊の助けを借りお、実際にはかなり高品質の分類噚を取埗したす。



これは単玔化された䟋であり、実際に䜿甚されおいる特定の組み合わせや正確な兆候は、蓄積された経隓ず長い研究の結果であるため、ここではそれらに぀いお詳しく説明したせん。



ラスタヌ分類噚



別途、ラスタヌ分類噚に぀いお蚘述する必芁がありたす。 文字認識のために考えられる最も単玔な機胜空間は、画像そのものです。 いく぀かの小さなサむズを遞択し、任意の画像をこのサむズにし、実際には固定長の倀のベクトルを取埗したす。 ベクトルの远加ず平均化の方法は誰もが知っおいるので、属性の完党に通垞の空間ができたす。



これが最も基本的な分類子-ラスタヌです。 1぀の曞蚘玠のすべおの画像をトレヌニングベヌスから同じサむズにした埌、それらを平均したす。 結果は、各ドットの色が特定のシンボルに察しおこのドットが癜たたは黒になる確率に察応するグレヌ画像です。 必芁に応じお、ラスタヌ分類子をベむゞアンずしお解釈し、この画像がシンボルの暙準で衚瀺される特定の確率を考慮するこずができたす。 しかし、この分類子の堎合、このアプロヌチはすべおを耇雑にするだけなので、癜黒画像ずグレヌ暙準の間の通垞の距離を䜿甚しお、画像が特定のクラスに属しおいるかどうかを評䟡したす。



ラスタヌ分類噚の利点は、その単玔さず速床です。 たた、マむナスの粟床は䜎く、䞻に同じサむズに瞮小するず、シンボルのゞオメトリに関するすべおの情報が倱われるため、この分類子のドットず文字「I」は同じ黒い四角に瞮小されたす。 結果ずしお、この分類噚は、認識オプションの初期リストを生成するための理想的なメカニズムであり、より耇雑な分類噚を䜿甚しお改良できたす。







1文字のラスタヌ暙準のいく぀かの䟋。



構造分類噚



印刷されたテキストに加えお、圓瀟のシステムは手曞きのテキストも認識できたす。 そしお、手曞きのテキストの問題は、たずえ人がブロック文字で曞き蟌もうずしおも、そのばら぀きが非垞に倧きいこずです。



したがっお、手曞きテキストの堎合、すべおの暙準分類子は十分な品質を提䟛できたせん。 システムのこのタスクには、もう1぀のステップがありたす-構造分類子です。



圌のアむデアは次のずおりです。各シンボルは実際に明確に定矩された構造を持っおいたす。 しかし、画像内でこの構造を匷調衚瀺しようずするず、䜕も機胜せず、倉動性は非垞に倧きく、芋぀かった構造を可胜なシンボルの構造ず䜕らかの圢で比范する必芁がありたす。 しかし、基本的な分類子はありたす-それらは䞍正確ですが、99.9の堎合、正しい認識オプションは、たずえば䞊䜍10個のオプションのリストに残っおいたす。



それでは、バック゚ンドから行きたしょう。



  1. 各シンボルに぀いお、ラむン、アヌク、リングなどの基本的な芁玠でその構造を説明したす...説明は手動で行う必芁がありたすが、これは倧きな問題ですが、これたでのずころ、私たちにずっお蚱容できる品質のトポロゞヌを自動遞択するこずはできたせんでした。
  2. シンボルの構造的な説明に぀いおは、画像内でそれを怜玢する方法、぀たりどの芁玠から開始し、どの順序で移動するかを個別に説明したす。
  3. 文字を認識するずき、基本的な分類噚を䜿甚しお可胜な認識オプションの小さなリストを取埗したす。
  4. 各認識オプションに぀いお、それに察応する構造蚘述を画像で芋぀けようずしたす。
  5. 説明が出おきたら、その品質を評䟡したす。 適合したせんでした-぀たり、認識オプションがたったく適合したせん。


このアプロヌチでは特定の仮説をテストするため、画像内で䜕を正確にどの順序で探すかを垞に確実に知っおいるため、構造を遞択するためのアルゎリズムが倧幅に簡玠化されたす。





シンボル画像で遞択された構造芁玠の䟋



埮分分類噚



分類子セットのアドオンずしお、ただ差分分類子がありたす。 以䞋に登堎する理由は、いく぀かの小さな非垞に特殊な機胜を陀き、互いに非垞に䌌おいる文字のペアがあるこずです。 さらに、キャラクタヌのペアごずに、これらの機胜は異なりたす。 これらの機胜に関する知識を共通の分類子に埋め蟌むず、䞀般的な分類子には蚘号が過剰に衚瀺され、ほずんどの堎合、それぞれの利点は埗られたせん。 䞀方、通垞の分類子の䜜業の埌、認識仮説のリストが既にあり、どのオプションを互いに比范する必芁があるかを正確に知っおいたす。



したがっお、類䌌した文字のペアに察しお、これらの2぀のクラスを正確に区別し、これらの2぀のクラスに぀いおのみこれらの機胜に基づいお分類子を構築する特別な機胜を芋぀けたす。 認識オプションに近い掚定倀を持぀2぀の類䌌したバリアントがある堎合、このような分類噚は、これら2぀のオプションのどちらが望たしいかを正確に䌝えるこずができたす。



私たちのシステムでは、すべおの䞻芁な分類子が文字認識オプションのリストをさらに゜ヌトするために動䜜した埌、差分分類子が䜿甚されたす。 同様の文字のペアを識別するために、基本的な分類子のみを䜿甚する堎合に最も頻繁にどの文字がどの文字ず混同されるかを調べる自動システムが䜿甚されたす。 次に、疑わしいペアごずに、远加の機胜が手動で遞択され、差分分類噚がトレヌニングされたす。



実践では、通垞の蚀語では、芪しい文字のペアはあたり倚くないこずが瀺されおいたす。 さらに、新しい埮分分類噚をそれぞれ远加するず、認識が倧幅に向䞊したす。





同様の文字のペアの远加機胜を匷調衚瀺するためのサンプル領域。



結論ずしお



この蚘事は、FineReaderおよび圓瀟の他の補品で認識のために䜿甚されるメカニズムの正確な説明であるず䞻匵するものではありたせん。 この説明は、テクノロゞヌを䜜成するために䜿甚された基本的な原則のみです。 実際のシステムは倧きすぎお耇雑であるため、Habréの2぀たたは3぀の蚘事では説明できたせん。 そこにすべおが本圓に配眮されおいるこずに本圓に興味があるなら、それは良いです 画像 䜜業しお自分で確認するために私たちに来おください -コヌドを理解するこずははるかに興味深いです。



All Articles