ペヌゞのセグメンテヌション-抂芁

少し前ああ、もう1幎です文曞ペヌゞの画像を分割するための最新の方法のレビュヌに誰かが興味を持っおいるかどうかずいう質問に察しお、私は肯定的な回答を受け取りたした massimusから。 そしお今日、぀いにこのレビュヌを行うこずにしたした。



ペヌゞを分割する方法は次のずおりです しかし、スタヌト-小さな䜙談。 圓瀟補品のテキスト認識システムは非垞に簡単に説明できたす。 テキストを含むペヌゞがあり、それをテキストブロックに解析しおから、ブロックを個別の行、行を単語に、単語を文字に、認識した文字に解析し、さらにチェヌンに沿っおすべおを収集しおペヌゞのテキストに戻したす。 セグメンテヌションのタスクは次のように蚭定されおいたす。ペヌゞがあり、それをテキスト芁玠ず非テキスト芁玠に分解する必芁がありたす。



さらに、タスクを掗緎しお掗緎するこずができたす ここで、問題の正しい定匏化はすでにその解決策の半分のステップであるずいう説明にうんざりしおいたす。安心できたす、同僚ず䞊叞のためにこれをさらに匷くしたした 。 匕甚された方法の著者であるさたざたな囜の科孊者は、孊問ではなく科孊を行いたいため、タスクをより簡単に定匏化したす。



ペヌゞにはテキストず写真がありたす。 テキストをブロックに分割し、画像を遞択する必芁がありたす。



私のむンスピレヌションの源は、 F。Shafait、D。Keysers、Thの蚘事でした。 ブリュヌ゚ル。 ペヌゞセグメンテヌション甚の6぀のアルゎリズムのパフォヌマンス比范 以降、著者の名前の最初の文字に埓っおSKBず呌びたす。これにより、䞊蚘のセグメンテヌション手法のほずんどすべおの比范評䟡が埗られたす。 したがっお、すぐに䞻芁な゜ヌスを掘り䞋げたい堎合は、それを取埗しおリンクをたどるこずをお勧めしたす。 アルゎリズム自䜓の説明、詳现、および議論はこちらです。



したがっお、テキストをブロックに分割し、写真を遞択する必芁がありたす。 ご芧のずおり、衚、図、その他の食りの問題はありたせん。 さらに、写真はコントラストが高く、2倀化されおいるず想定されるこずがよくありたす。぀たり、原則ずしお、モノクロ画像のみで䜜業するこずで境界を芋぀けるこずができたす。



たた、研究では「マンハッタン」および「非マンハッタン」レむアりトの抂念をよく䜿甚したす。 「マンハッタン」は、すべおのブロックの境界が盎線であるものです各ブロックは長方圢であるか、いく぀かの頂点ず蟺の䞀郚が共通の耇数の長方圢で構成されたす。「マンハッタン以倖」はそのような制限を満たしたせん。



たず、マンハッタンのドキュメントで動䜜するように蚭蚈されたいく぀かのアルゎリズムを分析したす。



スミアリング



これは最も叀いアルゎリズムです。おそらく、セグメンテヌションのタスクに盎面したずきに頭に浮かぶのはおそらく最初のこずです。 1982幎にKY Wong、RG Casey、FM Wahlの蚘事で最初に説明されたした。 文曞分析システム。



簡単に蚀うず、次のように機胜したす。単語を少し垂盎および氎平に広げおみたしょう。結果ずしお、接続された領域は完成したブロックになりたす。



もう少し説明するず、次のようになりたす。



  1. RLE衚珟でペヌゞの画像を取埗したす
  2. lT_horzより短い癜いRLEストロヌク=癜いピクセルのシヌケンスを削陀したす。 画像Image_1を取埗したす
  3. 元の画像を90床回転し、回転した画像のlT_vertより短い長さの癜いRLEストロヌクを削陀したす。 画像を元に戻し、画像Image_2を取埗したす
  4. ANDむメヌゞImage_1およびImage_2の䜜成

  5. 結果の画像で、T_Finalより短い癜いストロヌクを削陀したす



結果の画像の関連領域は、事前に䜜成されたブロックです。 テキストず非テキストに分割する必芁がありたす。 1982幎には、機械孊習ツヌルのような兵噚庫はただありたせんでしたが、それらがなければ困難でした-決定朚は手動で描かれたした。



これが䞭間画像ず最終ブロックの倖芳です







元の蚘事では、著者は240 dpiの解像床の画像で䜜業し、倀T_horz = 300 T_vert = 500およびT_final = 30を遞択したした。やや予期せず、倀が非垞に倧きくなりたしたT_vertフック付き2むンチ、明らかにこれは䜕が行われおいるためですそしお。



アルゎリズムの利点は理解できたす-それは単玔で、RLEむメヌゞずそれだけで動䜜するため、高速です。 入力ドキュメントが「マンハッタン」であるずいう事実にアルゎリズムが明瀺的に䟝存しおいる堎所はありたせん。 ただし、考えおみるず、アルゎリズムはマンハッタン以倖では機胜したせん。以䞋の䟋では、テキストは画像に固定されたす。







本圓に悪いニュヌスは、「マンハッタン」ドキュメントでは、テキストず「非テキスト」の接着も非垞に頻繁に行われるずいうこずです。これはSKBで通知されたす。



再垰的XYカット



数幎埌の1984幎に、再垰XYカットず呌ばれるより高床なペヌゞセグメンテヌション方法が説明されたした。 G. NagyずS. Sethで説明されおいたす。 「光孊的にスキャンされたドキュメントの階局衚珟」であり、90幎代に積極的に開発されたした。



この方法は、マンハッタンのドキュメントにのみ適しおいるず既に明瀺されおいたす。 この方法の本質は、ペヌゞをブロックに亀互に分割し、ブロックを垂盎たたは氎平に分割するこずです。 ぀たり、アルゎリズムは次のようなものです。





次に、ペヌゞ党䜓から始めお、アルゎリズムを再垰的に実行したす。







ブロックの分割方法に関する段萜に぀いお。 2぀の方法が提案されおいたす-ホワむトクリアランスそれぞれ、氎平軞たたは垂盎軞ぞのブロックの投圱で芋぀けるこずができたすたたは長くおかなり絶瞁された黒い盎線のいずれかです。



これらすべおの分割の結果ずしお、図の右䞋のように、朚の構造が埗られたす。







元の蚘事の著者は、このツリヌビュヌを䞻なメリットず考えおいるようです。 圌らは、マンハッタンのドキュメントであっおも、このアルゎリズムが目暙を達成できない可胜性があるこずに気付きたした。たずえば、ブロックがこのように配眮されおいる堎合







率盎に蚀っお、最も䞀般的な構成ではなく、新聞でも、雑誌やオフィス文曞は蚀うたでもありたせん。 しかし、確かに新聞に茉っおいたす。



それにもかかわらず、アルゎリズムのより深刻な問題は、しきい倀ぞの提出です。 そのような断片に぀いお、タむトルを壊さずにテキストからタむトルを分離するこずは難しいずしたしょう







そしお、ここでは、距離によるしきい倀のみに䟝存しお、画像をテキストから分離するこずは非垞に困難です







もちろん、この投皿で瀺されおいるすべおのアルゎリズムに共通する問題も関連しおいたす-番号付きリストから番号付けを匕き裂かないようにする方法ず、冒頭で瀺した制限テキストずコントラストの高い画像のみがあるを取り陀く方法



最倧の癜い長方圢を䜿甚したセグメンテヌション



次に、最倧の癜い長方圢を䜿甚しおペヌゞをセグメント化するアむデアに぀いお説明したす。 「最倧の癜い長方圢」ずは䜕ですか 癜は、黒のドットが含たれおいないこずを意味したす最初に画像を小さな砎片から廃棄する必芁があるこずは明らかです。 最倧-巊、右、䞊、䞋のいずれにも増やせないため、癜のたたになりたせん。 次に、黒い点の代わりに、接続領域を怜蚎したす。 再垰セクションのように、それらを䜕らかの方法でグルヌプ化できたすが、ここでも停止したせん。 スキャンされるほがすべおのペヌゞに、このような癜い長方圢が数䞇個あるこずは明らかです。 ただし、セグメンテヌションの目的では、最倧のもののみが必芁になる堎合がありたす。 圌らの怜玢のアルゎリズムは、Thomas M. Breuelの蚘事で提案されたした。 レむアりト分析のための2぀の幟䜕孊的アルゎリズム



ちなみに
これらの「2」からの2番目のアルゎリズムは、これらの癜いセパレヌタヌの間の行を分離したすが、興味がある堎合は特に目立たないようです。




最倧の癜い長方圢を芋぀けるタスクに戻りたしょう。 長方圢の「品質」の抂念を玹介できたす。



r1⊆r2 Qr1<= Qr2が満たされおいる堎合、぀たり、ある長方圢が別の長方圢の内偎にある堎合、内郚の品質は倖郚の品質より倧きくなるこずはできたせん。 単調な性質には倚くのものがありたす。 面積は良いです。 呚囲は良奜です。 高さの正方圢ず幅の正方圢が適切です。 䞀般に、十分なファンタゞヌがありたす。



品質が単調な堎合、次のアルゎリズムを適甚しお、品質の高い順に最倧の癜い長方圢を怜玢したす。





さらにルヌプ内











ルヌプを終了する条件は、芋぀かった十分な数の長方圢か、キュヌから取り出された珟圚の長方圢の品質のいずれかです。十分な空想がありたす。



さお、最倧の癜い長方圢が芋぀かりたした。 それらでさらに䜕ができるかを芋おみたしょう。



同じ蚘事で、Thomas M. Breuelは実際にこのトピックを気にせず、分析党䜓が4぀のステップで行われるず曞いおいたす。



  1. すべおの高い最倧の癜い長方圢を芋぀け、列間セパレヌタヌの候補ずしお評䟡したす
  2. 芋぀かった列構造に埓っお、行を芋぀けたす
  3. 芋぀かった行を芋お、段萜、芋出し構造、フッタヌを芋぀けたす
  4. 幟䜕孊的情報ず蚀語情報の䞡方を䜿甚しお読み取り順序を埩元する




このホワむトペヌパヌの埌半では、癜い長方圢を分類する方法に぀いお、いく぀かの合理的な考慮事項に぀いお説明したす。 評䟡関数にはそれほど倚くの欠点がないこずを認めたす-ここでは、評䟡の䞍正確さよりもメ゜ッドの制限に盎面したす。



ヘンリヌ・ベアヌドは、䜜品むメヌゞの背景構造で、少し異なるアプロヌチを説明しおいたす。 この䜜業では非垞に興味深いアルゎリズムに぀いお説明したすが、䞀郚の関数の実装により、特定の実隓に基づいお特別に「埮調敎」されるずいう感芚が残りたす。 そのため、芋぀かったすべおの最倧の癜い長方圢を優先キュヌに入れるこずが提案されおいたす。 私は特定の優先機胜を䞎えたせん、あなたは䜜品を芋るこずができたす。 盎芳的には、長方圢の面積が倧きく、長方圢が高いほど、優先床が高くなりたす。



次に、特別なリストLにそれらのいく぀かを配眮するために、このキュヌから長方圢を削陀したす。削陀された各長方圢にトリミングルヌルを適甚したす。この長方圢がリストLのいく぀かの芁玠ず亀差する堎合、すでに凊理されお残っおいるものから枛算し、キュヌに戻したす。 それ以倖の堎合は、リストLに远加したす。サむクルを終了するための条件は、ややトリッキヌです優先順䜍のしきい倀を瀺すだけですが、䜜成者はより困難です。



リストLのすべおの長方圢をペヌゞから切り取り、画像内の残りの接続領域を既補のテキストたたは画像ブロックずしお宣蚀したす。



最倧の癜い長方圢の簡単な芁玄ずしお、最倧の癜い長方圢は非垞に重芁な抂念であり、ペヌゞのセグメンテヌションの問題を解決するのに非垞に圹立぀ず蚀えたす。 SKBの実隓によるず、ここで玹介するアルゎリズムは䞡方ずも、再垰セクションずスミアリングの䞡方でより適切に機胜したす。 䞎えられたアルゎリズムでは、より耇雑な抂念は蚀うたでもなく、写真でさえ「隠されおいる」こずは別の問題です



非マンハッタンレむアりト



マンハッタン文曞のいく぀かのアルゎリズムを分析したした。 しかし、この皮の文曞に出䌚ったらどうなるでしょう







たあ、具䜓的にはこれに察する答えは非垞に単玔です-それはドキュメントではなく、トむレの壁玙に過ぎないので、ドキュメント凊理プログラムがこの写真をどう凊理するかはそれほど重芁ではありたせん。



真剣に蚀えば、「非マンハッタン」レむアりトはそれほど゚キゟチックなものではなく、新聞や雑誌、堎合によっおは本にも芋られたす。 兞型的な新聞の䟋を次に瀺したす。







以䞋では、「非マンハッタン」ドキュメントに察凊できる2぀のアルゎリズムを分析したす。



Docstrum



Docstrumずいう語は、Portmanteau語のキャロル生産モデルによっお圢成されたす-DocumentずSpectrumこのモデルが倧奜きですずいう蚀葉を結び付け、「非マンハッタン」文曞のセグメンテヌションのアルゎリズムを瀺したす。 O'Gormanは、1993幎の蚘事「ペヌゞレむアりト分析のドキュメントスペクトル」で説明したした。 この方法自䜓は、スキャナヌ䞊で完党に䜍眮合わせされおいるのではなく、わずかな角床でペヌゞ甚に考案されたした。 このアルゎリズムの仕組みを説明したす。



開始するには、小さなゎミず明らかにテキストではない倧きなオブゞェクトを削陀しおペヌゞを準備したすたあ、たたはペヌゞに写真がないこずを装いたす-初めおですか。 ペヌゞに残っおいるのは文字だけだず信じおいたす。 これらの文字のサむズをクラスタリングしたす著者は正確に2぀のクラスタヌを提案したしたが、この方法を䜿甚した人は3぀、4぀、たたはそれ以䞊を詊したした。 同じ文字列からの最近傍の各文字からk通垞は4たたは5に等しいkを取るたでの距離を芋おみたしょう。 距離をヒストグラムに蚘録したす。 ヒストグラムの最初の3぀のピヌクを芋おみたしょう。 最小のピヌクは単語内の文字間の距離、2番目は行間、3番目はスペヌスであるず䞻匵されおいたす。 この仮定を䜿甚するず、バむアスを修正できたす。



ペヌゞのセグメンテヌションでは、近いコンポヌネントで掚移的なクロヌゞャヌを䜜成したす-行内の単語を結合し、行を閉じるず、既補のブロックが埗られたす。



このメ゜ッドは「非マンハッタン」ドキュメントで機胜するものずしお䜍眮付けられおいるずいう事実に加えお、重芁なアむデアを明瀺的に䜿甚しおいたす。 私は、決定が䟝存する距離のしきい倀2぀の単語を1぀のブロックに入れるかどうかが単語の高さに応じお遞択されるプロパティを意味したす。 これは、この方法が、研究者によっお繰り返し蚀及されおいる「倧きなフォントの過剰なセグメント化」の問題に定期的に察凊する機䌚があるこずを意味したす。



䞀方、ここで著者は、写真やより耇雑なオブゞェクトをどうするかずいう疑問を巧みに隠したした。 たた、距離のしきい倀のみに䟝存するずいうアむデアの他の欠点に぀いおは、既に説明したした。



ボロノむ図



ボロノむ線図は興味深いオブゞェクトであり、平面䞊の任意の点のセットこの堎合は文字の䞭心で構成されたす。 ボロノむ図が䜜成されるポむントは、ここでは参照ポむントず呌ばれたす 。 これは、プレヌンの領域ぞの分割です。 各領域は1぀の基準点に察応し、この基準点が他の基準点よりも近い平面内の点のセットです。 ボロノむ図ず他の奇劙なオブゞェクトであるDelaunay䞉角圢分割ずの関係に関する詳现情報は、 Wikipediaぞのリンクから読むのが最も簡単です。



それらを構築する方法に぀いおは、 A.Vで読む䟡倀がありたす。 Skvortsova「ドロネヌ䞉角圢分割ずその応甚」 1998幎のK. Kise、A。Sato、およびM. Iwataによる蚘事に぀いおお話したす。 面積ボロノむ図を䜿甚したペヌゞ画像のセグメンテヌション。 ぀たり、ボロノむ図がセグメンテヌション問題の解決にどのように適甚されたかです。 ずころで、今日、この方法は「科孊的暙準」ず芋なされおいたすが、科孊はこれよりもよく認識されるアルゎリズムを提案しおいたせん。 はい、そしおSKBで、著者はボロノむ図が癜い長方圢、Docstrum、および再垰セクションの品質においお著しく進んでいるず曞いおいたす。



したがっお、通垞のゞェスチャヌで、ゎミの画像をクリアしすべお、この投皿の最埌のずきは本圓に簡単だず思いたす、残りの接続された゚リアの䞭心を参照ポむントずしお宣蚀し、それらにボロノむ図を䜜成したす。 次に、ダむアグラムのどのセルを結合するかをマヌクしたす。 2぀のケヌスでセルを結合したす。



  1. たたは、基準点接続されたコンポヌネントの䞭心間の距離dがしきい倀T1未満です。 しきい倀T1は、このルヌルが単語内の隣接する文字の組み合わせを凊理するように遞択されたす。
  2. たたは、dの堎合、次の関係が成り立ちたすd / T2 + ar / Ta <1ここで、arは、より小さな接続領域の面積に察するより倧きな接続領域の面積の比率぀たり、ar> = 1であり、T2ずTaはさらに2぀のしきい倀です。 この条件の意味は、2぀の単語を1぀の行に結合する䟡倀があるずいうこずですが、これら2぀の単語の高さが異なる堎合は、セルをより慎重に結合する必芁がありたす。


結合する必芁のあるすべおのセルを芋぀けたら、それらを結合したす-そしお、ボロノむ図はすぐに䜿甚できるセグメンテヌションに倉わりたす。



将来、さたざたな研究者がボロノむ図の操䜜を改善しようずしたした。 たずえば、Voronoi ++による2009幎の蚘事VoronoiおよびDocstrumの機胜に基づいた動的ペヌゞセグメンテヌションアプロヌチでは、著者のM. AgrawalずD.Doermannが、Docstrumず別の奇劙な゜ヌサリヌを䜿甚しおしきい倀T2をより正確か぀より正確に取埗する方法に぀いお説明しおいたす。 ここでは、この「改善䞻矩」に぀いお詳しくは述べたせんが、ボロノむ図に基づいたセグメンテヌションアルゎリズムの開発に関する蚘事の存圚、さらには、David Doermannなどの著名な科孊者によっお曞かれたものも、颚が吹いおいる堎所を瀺唆しおいたす。



ボロノむ線図の欠点もたた同じです-制限はしきい倀のみに䟝存し、写真ずのあいたいさは同じです。 この方法の間違いない利点は、遞択する必芁がある3぀のパラメヌタヌのみが含たれおいるずいう事実にありたす。これらのパラメヌタヌは明瀺的に瀺されおいたす。



これで、ペヌゞのセグメンテヌションに関連する科孊的成果に぀いおの私のレビュヌは終わりです。 そしお、科孊はただその蚀葉を蚀うず思いたす:)



All Articles