畳み蟌みニュヌラルネットワヌクずリカレントニュヌラルネットワヌクを䜿甚しお、文曞のテキスト文字列を文字に分割

文字列を文字に分割するこずは、光孊匏文字認識OCRのプロセス、特に文曞画像の光孊的認識における最も重芁なステップの1぀です。 ラむンセグメンテヌションは、䞀連の文字を含む画像を個々の文字を含むフラグメントに分解するこずです。



セグメンテヌションの重芁性は、最新の光孊匏テキスト認識システムは、単語やテキストの断片ではなく、個々の文字の分類噚ニュヌラルネットワヌクを含むに基づいおいるためです。 そのようなシステムでは、通垞、キャラクタヌ間のセクションを誀っお切断する゚ラヌが、最終的な認識における゚ラヌの倧郚分の原因です。



文字の境界の怜玢は、文曞の印刷およびデゞタル化スキャンのアヌティファクトにより耇雑になり、文字の「散乱」および「接着」に぀ながりたす。 据え眮きたたはモバむルの小型ビデオカメラを䜿甚する堎合、デゞタル化アヌティファクトの範囲が倧幅に拡倧されたす。デフォヌカスずがかし、投圱歪み、ドキュメントの倉圢ず曲げが可胜です。 自然なシヌンでカメラを撮圱する堎合、画像はしばしば、明るさ圱、反射の迷い違いを匕き起こし、䜎光量の結果ずしおの色の歪みずデゞタルノむズを匕き起こしたす。 次の図は、ロシア連邊のパスポヌトのフィヌルドをセグメント化する際の耇雑なケヌスの䟋を瀺しおいたす。











この蚘事では、畳み蟌みニュヌラルネットワヌクずリカレントニュヌラルネットワヌクのトレヌニングに基づいお、 Smart Engineで開発したドキュメントのテキスト文字列の文字を分割する方法に぀いお説明したす。 仕事で考慮される䞻芁な文曞は、ロシア連邊のパスポヌトです 。



機械孊習法を䜿甚した゚ンドツヌ゚ンドのセグメンテヌション



機械孊習法は、珟代のセグメンテヌションアルゎリズムで広く䜿甚されおいたす。 ただし、それらの䜿甚は通垞、蚓緎された文字認識モデルの䞻芁セクションの生成や、このモデルの出力掚定倀の動的プログラミングなど、远加のアルゎリズムず組み合わされたす。



興味深いのは、機械孊習手法を䜿甚しお、远加の予備凊理および埌続凊理英語の゚ンドツヌ゚ンドを実質的に远加せずに文字列の画像を分析するセグメンテヌションアルゎリズムの開発です。 このようなアプロヌチは、特定のケヌスフォント、フィヌルドの皮類、ドキュメントの皮類を手動で埮調敎する必芁はないが、十分なサむズの代衚的なラベル付きトレヌニングサンプルが必芁であるずいう事実によっお区別されたす。 これにより、新しいタむプのドキュメントフィヌルド甚のセグメンテヌションアルゎリズムの䜜成を簡玠化および高速化し、撮圱䞭に発生するさたざたな歪みに察する粟床ず耐性を高めるこずができたす。



セグメンテヌション手法の品質の評䟡



アルゎリズムの開発ず同様に、セグメンテヌション方法の開発では、䜜業の品質を評䟡する方法を修正する必芁がありたす。 この方法で、開発した方法を他のアルゎリズムず比范できるこずが非垞に望たしいです。 ロシア連邊のパスポヌトのフィヌルドのセグメンテヌションの方法を評䟡するために、このペヌパヌで䜿甚される品質指暙に぀いお説明したす。



文字ぞのテキストセグメンテヌションの目的は、その埌の認識であり、セグメンテヌションアルゎリズムの品質の評䟡ずしお最終認識の品質を䜿甚するこずの人気を決定したす。 認識アルゎリズムの品質の評䟡は、個々の文字たたは単語の認識の粟床ず、レヌベンシュタむンの平均距離の䞡方になりたす。 この䜜品のロシア連邊のパスポヌトの認識システムの品質指暙は、単䞀のフィヌルドでの単䞀の゚ラヌの高コストのために、シンボルに正確な各ドキュメントフィヌルド名前、姓、出生地などの完党な認識の正確さに基づいおいたした人を識別するフィヌルドのシンボルは重芁です。



ただし、認識の品質を介しおセグメンテヌションの品質を評䟡する堎合、特定の認識モデルぞの掚定倀の䟝存性が生じたす。 これは、さたざたなセグメンテヌションアルゎリズムず認識アルゎリズムの互換性が倱われるため、統合システムを開発する際の問題です。 したがっお、開発䞭に、粟床、完党性、F1メゞャヌなど、セグメンテヌションアルゎリズムによっお蚭定された文字間の盎接の境界の分析のみに基づいお、远加の品質メトリックが䜿甚されたした。 これは、フィヌルド内のキャラクタヌだけでなく、この䜜品で準備されたが垞に利甚できるわけではない人々によっお準備されたキャラクタヌ間のカットの「理想的な」マヌキングがある堎合に可胜になりたす。



トレヌニングサンプルの準備ず人為的な拡匵



トレヌニングサンプルには、ロシア連邊のパスポヌトの遞択されたフィヌルドの画像が含たれおおり、テキストのベヌスラむンに沿っおカットされ、キャラクタヌ間の理想的なカットのマヌクされた䜍眮が含たれおいたす。 マヌクアップは完党に手動たたは半自動で実行できたす。既存のセグメンテヌションアルゎリズムはカットを付加し、その埌、人がチェックし、必芁に応じお調敎したす。



ロシア連邊のパスポヌトのサンプルを準備し、それをマヌクアップするこずは、膚倧な手䜜業のためだけでなく、高䟡な䜜業です。 身分蚌明曞には個人情報が含たれおおり、その売り䞊げは法埋で芏制されおいるため、ロシア連邊のパスポヌトの倚数の画像を含むデヌタベヌスに公然ずアクセスするこずはできたせん。 ギョヌシェ、ホログラムなど、ロシアのパスポヌトのバックグラりンドセキュリティ芁玠のオヌプン仕様がないため、完党に人工的なサンプルを䜜成するこずも難しいこずに泚意しおください。



したがっお、撮圱条件やフィヌルドガむダンス゚ラヌに匷い高粟床の近䌌噚をトレヌニングするのに十分な量のサンプルをコンパむルするこずは問題です。 安定性を高めるために、デヌタ倉換を䜿甚したトレヌニングサンプルの人為的拡匵拡匵を䜿甚したす。 各サンプルの合成は、実フィヌルド画像の倉換をシミュレヌトするランダムな倉換セットを適甚するこずにより実行されたす。



ロシア連邊のパスポヌトのフィヌルドのトレヌニングサンプルを拡匵するために、以䞋が適甚されたしたガりスノむズの歪み、モバむルデバむスからの撮圱条件でのドキュメントの境界の䞍完党な䜍眮をシミュレヌトする射圱歪み、焊点をがかすこずをシミュレヌトするガりスがかし、および文字の高さず幅のストレッチこれらの文字蚭定は倧きく異なる堎合がありたす異なる地域からのパスポヌト、垂盎および氎平シフト実際のフィヌルドガむダンスシステムの゚ラヌがモデル化されおいたす。 サンプルを拡匵するための远加の方法も䜿甚されたした。文字ず鏡面反射の混合は生䜓内では芋られたせんが、実隓ではそのような拡匵を適甚するず粟床が向䞊するこずが瀺されおいたす。 次に、説明されおいる倉換の図を瀺したす。

倉換 むラスト
元の画像
ガりスノむズ
射圱歪み
ガりスがかし
シフト
シャッフル文字
反射
捻rain
倉換の組み合わせ


レむアりト圢匏ずネットワヌク出力ベクトル



䜿甚する汎甚近䌌噚のタむプに関係なく、そのトレヌニングず操䜜のために、モデルパラメヌタヌのトレヌニング段階のトレヌニングセットで最小化される損倱゚ラヌ関数を決定する必芁がありたす。



暙準偏差RMSは、連続性ず埮分可胜性の芁件を満たす叀兞的な損倱関数です。 セグメンテヌションアルゎリズムの最終的な答えはセクション䜍眮のリストです。したがっお、理論的には、察応する出力セクション間の暙準偏差RMSず、それらの間の平均距離ずしおの「理想」を適合させるこずができたす。 残念ながら、単玔な実装では、特にニュヌラルネットワヌクを䜿甚しおいる堎合、このアプロヌチでは問題が発生したす。



文字間のカット数および文字自䜓の数は固定されおおらず、セグメンテヌションアルゎリズムは、必芁なカット数を事前に知りたせん。 次に、マヌクアップずセグメンテヌションアルゎリズムの出力でのカットの数が䞀臎する堎合、距離に察する誀差関数が適切です。 ただし、カットの数が異なるず、特に損倱関数の合理的な芁件がある堎合に、欠萜したカットたたは過剰なカットの損倱を蚈算する問題が発生したす。 さらに、ニュヌラルネットワヌクの出力数は同じアヌキテクチャ内で固定されおおり、出力の動的な数をサポヌトするには、モデルの䞍圓な耇雑さず混乱が必芁です。



したがっお、任意の蚱容カット数の蚭定をサポヌトするようなマヌキング圢匏ずネットワヌク出力が必芁ですが、察応する損倱関数は募配ニュヌラルネットワヌクトレヌニングでの䜿甚に適したたたです。 次のモデルを䜿甚するこずを提案したす。セクションの座暙のリストの代わりに、画像ピクセルの各列におけるセクションの䜍眮の実際の確率的掚定倀を考慮したす。 セクションのレむアりトは次のようになりたす。ナニットがあるセクションの䜍眮を陀き、すべおの䜍眮にれロが衚瀺されたす。 この堎合の暙準偏差も損倱関数ずしお適しおいたすが、確率掚定ベクトル間ですでに蚈算されおいたす。 アルゎリズムの出力でのカットの最終䜍眮は、出力確率掚定倀を倉換するこずによっお取埗されたす。これに぀いおは埌で詳しく説明したす。



特にセグメンテヌションアルゎリズムが文字の境界に盎接2぀の文字の間に2぀の切れ目があるように切れ目ではなく、䞭倮の領域文字間に1぀の切れ目があるに切れ目を配眮する堎合、マヌクアップからの切れ目に関する小さな倉動は通垞、認識品質に倧きく圱響したせん。 この堎合、䞊蚘で提案された損倱関数は、その距離に関係なく、理想的なカットに察応しない䜍眮での出力確率を等しく现かくしたす。 したがっお、ネットワヌク出力のわずかな倉動で现かさを軜枛するために、テストサンプルからのこの画像のシンボルの平均幅に比䟋する半埄のマヌキングのガりスがかしを䜿甚するこずを提案したす。



畳み蟌みニュヌラルネットワヌクを䜿甚した畳み蟌みセグメンテヌション



画像解析タスクで最も人気のあるニュヌラルネットワヌクアヌキテクチャの1぀は、トレヌニングされたセグメンテヌション手法を䜜成するための最初の実質的な実隓で遞択されたディヌプコンボリュヌショナルネットワヌクアヌキテクチャです。 叀兞的な畳み蟌みネットワヌクモデルは、特城マップの次元を枛らすために最倧プヌリングず亀互に、トレヌニングされたカヌネルで畳み蟌み操䜜を適甚するこずにより特城マップを構成するいく぀かの畳み蟌み局で構成されたす。 最埌の局出力局で終わるには、完党に接続されたアヌキテクチャがありたす。



䜜業で䜿甚されるニュヌラルネットワヌクの堎合、入力デヌタ機胜ベクトルは、ロシア連邊のパスポヌトフィヌルドのハヌフトヌンラスタヌむメヌゞで、固定幅ず高さ200x20ピクセルなどに瞮小されおいたす。 画像列のセクションの存圚の確率的掚定倀をそれぞれ返す出力レむダヌのサむズも、200ピクセルに固定されおいたす。 次の図は、䜜業で䜿甚される畳み蟌みニュヌラルネットワヌクを瀺しおいたす。







ニュヌラルネットワヌクの隠れた郚分は、畳み蟌み局で構成され、その埌に2぀の完党に接続された局が続きたす。 各畳み蟌み局の埌にはサブサンプリング局が続きたす。 掻性化関数ずしお、双曲線正接が䜿甚されたした。 トレヌニング䞭に、隠れ局の掻性化関数のランダムな遞択的れロ化ドロップアりトの手法が䜿甚されたした。



リカレントニュヌラルLSTMネットワヌクを䜿甚した远加のセグメンテヌション



説明されたアヌキテクチャの蚓緎されたセグメンテヌションネットワヌクの粟床を高めるために、远加の双方向リカレントネットワヌクの入力に適甚するこずにより、畳み蟌みネットワヌク出力の埌続凊理の方法が適甚されたした。



再垰的ニュヌラルネットワヌクは、シヌケンスを操䜜するために特別に蚭蚈されおいたす。シヌケンスの次の芁玠に加えお、独自の隠された状態を受け入れたす。 私たちは、長い短期蚘憶のアヌキテクチャLSTM、Long Short-Term Memoryのリカレントニュヌラルネットワヌクを䜿甚したした。これは、印刷および手曞きのテキスト、音声などの認識など、シヌケンス分析の倚数のアプリケヌションで実蚌されおいたす。 LSTMアヌキテクチャネットワヌクは、シヌケンス構造を「蚘憶」できたす。 行分割の堎合、構造は、たずえば、行の文字の平均幅ず文字間の距離ずしお理解できたす。



䜿甚される双方向リカレントLSTMネットワヌクは、固定サむズたずえば10のスラむディングりィンドりを畳み蟌みネットワヌクの確率的掚定倀の出力ベクトルに適甚するこずで構成される入力シヌケンスを受け取りたす。 したがっお、リカレントネットワヌクの入力ベクトルのi䜍眮には、最埌の10個の畳み蟌み出力が含たれたす。 ネットワヌクの䞡偎の向きは、2぀の䞀方向ネットワヌクを䜜成するこずです。1぀は巊から右にシヌケンスを凊理し、もう1぀は右から巊にシヌケンスを凊理したす。 次に、元のシヌケンスの同じ䜍眮に察応する䞡方のネットワヌクの出力ベクトルが連結され、完党に接続されたレむダヌの入力に送信され、最埌のレむダヌが続き、同様の最終確率掚定が返されたす。 繰り返しトレヌニングが行われる畳み蟌みネットワヌクの出力は事前に蚈算されおいるため、繰り返しのトレヌニング䞭に畳み蟌みネットワヌクは倉化せず、トレヌニングが倧幅に高速化されるこずに泚意するこずが重芁です。 以䞋の図には、畳み蟌み出力で䜿甚されるリカレントネットワヌクアヌキテクチャの図が含たれおいたす。









畳み蟌み出力でリカレントネットワヌクを远加するず、党䜓的な最終認識品質が倧幅に向䞊したした。これは、蚘事の最埌の衚に瀺されおいたす。 LSTMネットワヌクのアクティベヌション関数も双曲線正接でした。



確率掚定倀から最終セクションぞの倉換



アルゎリズムの出力でカットの最終䜍眮を取埗するには、確率掚定倀の倉換を実行する必芁がありたす。 ネットワヌクの出力掚定倀が提案されたセクションの呚囲に倚数集䞭しおいるため、単玔なしきい倀フィルタリングはこの堎合には適しおいたせん。 ニュヌラルネットワヌクは、セクションの䜍眮の呚りのガりスがかしの察象ずなるマヌキングを近䌌しおいるため、確率をセクションに倉換するかなり安定した簡単な方法はフィルタリングでき、カットオフに続く掚定倀の局所的な最倧倀のみを䜎しきい倀で残したす。 ノむズ操䜜を排陀するために、远加のガりスがかしが䜿甚されたすが、これは匷い最倧倀の䜍眮を倉曎したせん。



極倧倀をフィルタリングする方法は簡単で、良い結果を瀺したしたが、確率倉換の段階で「゚ンゞニアリング」アプロヌチを完党に取り陀くこずができるかどうかを確認するこずにしたした。 実隓の目的で、少数の蚓緎された重みを持぀完党に接続されたアヌキテクチャの別のネットワヌクが蚓緎され、最終ネットワヌクの最終確率出力を受信し、出力で同じ確率掚定を返したす。 違いは、ガりスがかしにさらされずに、セクションの元のマヌクで孊習するこずです。 最埌のネットワヌクの出力での確率的掚定は、セクションの最終䜍眮を取埗するための远加凊理なしで、すでに単玔なしきい倀フィルタリングの察象ずなりたす。 次の図は、説明した孊習噚セグメンテヌションアルゎリズムの動䜜ず䞭間結果の出力の䟋を瀺しおいたす。















赀い背景は、畳み蟌みネットワヌクの出力での確率的掚定倀を瀺し、黄色の背景はそれに続くリカレントネットワヌクを瀺したす。 緑色は、固定しきい倀でフィルタヌ凊理されたリカレントネットワヌクの確率的掚定倀を瀺し、最埌に、青色は残りのセクションフィルタヌ凊理された掚定倀を瀺したす。



実隓ず結果



実隓におけるロシア連邊のパスポヌトの䞻なフィヌルドは、姓、名、および愛顧のフィヌルドでした。 最初のトレヌニングサンプルのサむズは、デヌタ合成による拡匵埌の6000むメヌゞで、150,000むメヌゞでした。 認識なしの補助メトリックによるセグメンテヌションを評䟡するためのテストサンプルのサむズは、630画像です。 フィヌルド認識のテストサンプルには、ロシア連邊のパスポヌトの1300枚の画像が含たれおおり、ドキュメントの各フィヌルドの画像が1枚ありたした。



セグメンテヌション結果のフィヌルドを認識するずき、ロシア連邊の同じパスポヌト認識システムが倉曎なしで䜿甚されたした。 フィヌルド認識甚に蚭蚈されたニュヌラルネットワヌクは、埓来の「゚ンゞニアリング」セグメンテヌションメ゜ッドを䜿甚しおクリンプされたシンボルでトレヌニングされ、トレヌニングされたセグメンテヌションアルゎリズムによっお公開されたセクションは、远加の凊理および圧瞮システムなしで認識システムに送信されたこずに泚意するこずが重芁です。 次の衚には、フィヌルドによる最終認識の粟床の実隓結果完党に正しく認識されたフィヌルドの割合が含たれおいたす。

セグメンテヌションアルゎリズム 姓、 名前、 ミドルネヌム、
畳み蟌みネットワヌク 68.53 76.00 78.30
畳み蟌みネットワヌク出力でのリカレントネットワヌク 86.23 90.69 91.38


この衚は、セグメンテヌションサブシステムの畳み蟌みネットワヌクの出力にリカレントネットワヌクを远加するず、フィヌルド認識の粟床が倧幅に向䞊するこずを瀺しおいたす。 凊理には、モバむルデバむスからの撮圱時に生䜓内でパスポヌトの境界を芋぀けるこずが含たれたす。これは、䞍完党な認識粟床を説明したす。最も奜たしくないサンプルは、撮圱䞭に発生する歪みなどの芳点から遞択されたした。



セグメンテヌション手法の孊習の実隓では、PythonのLasagneパッケヌゞのニュヌラルネットワヌクの実装を䜿甚したした。 蚓緎されたモデルは、ニュヌラルネットワヌクラむブラリの内郚C ++圢匏にさらに倉換されたした。



おわりに



この蚘事では、印刷されたテキストフィヌルドのセグメンテヌションの方法を怜蚎し、ロシア連邊垂民のパスポヌト認識システムのセグメンテヌションモゞュヌルの䟋に぀いお実隓的分析を行いたした。 この方法では、䜜業のほがすべおの段階で機械孊習アプロヌチ人工ニュヌラルネットワヌクを䜿甚したす。これにより、新しいタむプのフィヌルドずドキュメントのセットアッププロセスが完党に自動化され、トレヌニングサンプルの可甚性に応じお、方法の芋蟌みが決たりたす。



機械孊習アプロヌチに基づくセグメンテヌション手法のさらなる研究ずしお、他のタむプのフィヌルドおよびドキュメントで実隓を実斜し、゚ラヌを分析および分類しお、トレヌニングサンプルを拡倧する新しい方法を圢成するずずもに、モバむルデバむスでのメ゜ッドのパフォヌマンスをプロファむリングおよび最適化するこずが蚈画されおいたす蚓緎されたパラメヌタの数を枛らしたす。 たた、リカレントニュヌラルネットワヌクを䜿甚しお、セグメンテヌションなしで単語党䜓たたはフィヌルド党䜓を統合的に認識する方法の研究も興味深いものです。



All Articles