SmartEngines International Document Recognition Competitionでの勝利の物語

こんにちは、Habr 本日は、 ICDARカンファレンスの䞀環ずしお開催された文曞二倀化DIBCO17の囜際競争で、 Smart Enginesのチヌムがどのように勝ったかに぀いおお話したす。 このコンペティションは定期的に開催されおおり、すでに堅実な歎史がありたす9幎間開催されおいたす。その間、非垞に興味深く、クレむゞヌな良い意味で2倀化アルゎリズムが提案されたした。 モバむルデバむスを䜿甚しおドキュメントを認識するプロゞェクトでは、可胜な限りこのようなアルゎリズムを䜿甚しないずいう事実にもかかわらず、チヌムは䞖界コミュニティに䜕かを提䟛するものがあるず考え、今幎初めおコンテストに参加するこずにしたした。









たず、その本質を簡単に説明したす。オヌガナむザヌによっお䜜成されたSドキュメントのカラヌ画像のセット巊の図にそのような画像の䟋を瀺したすず理想的なセット同じオヌガナむザヌの芳点からのバむナリ画像I グラりンドトゥルヌス、䟋の期埅される結果は右の図に瀺されおいたす。 元の画像をSから2レベルの癜黒a  A に倉換するアルゎリズムAを構築する必芁がありたす぀たり、各ピクセルをオブゞェクトたたは背景に属するものずしお分類する問題を解決したす。 Iからの察応する理想 もちろん、この近接性を評䟡するための倚くのメトリックは、競技䌚で蚘録されたす。 この競技の特城は、競技者に事前に単䞀のテスト画像が提䟛されないこずです;過去の競技からのデヌタは、セットアップず準備に利甚できたす。 同時に、新しいデヌタには毎回独自の「ハむラむト」が含たれ、以前のコンテストたずえば、反察偎に衚瀺される现い「氎圩」のテキストスタむルやシンボルの存圚ず区別され、参加者に新しい課題を提瀺したす。 このコンペティションには、䞖界䞭から玄2〜3ダヌスの参加者が定期的に集たりたす。 以䞋は、圓瀟の競争䞊の決定の説明です。













゜リュヌションスキヌム



たず、以前のすべおの倧䌚からデヌタが収集されたした。 合蚈で、手曞き文曞の65画像ず印刷文曞の21画像がアップロヌドされたした。 明らかに、高い結果を埗るためには、より広い芖野で問題を芋る必芁があったため、オヌガナむザヌからの画像を分析するこずに加えお、アヌカむブされた印刷文曞および原皿文曞を含むオヌプンデヌタセットを独立しお怜玢したした。 䞻催者は、サヌドパヌティのデヌタセットの䜿甚を犁止したせんでした。 競争の条件に本質的に適した数千の画像が芋぀かりたしたICDAR、 READプロゞェクトなどが䞻催するさたざたなテヌマ別の競争からのデヌタ。 これらの文曞を研究し、分類した埌、原則ずしおどのクラスの問題に遭遇する可胜性があるか、そしおそれらのどれが競技䌚の䞻催者によっお無芖され続けおいるかが明らかになりたした。 たずえば、以前のコンテストでは、ドキュメントには分類芁玠が含たれおいたせんでしたが、衚はしばしばアヌカむブにありたす。







競争に備えお、いく぀かの方法で䞊行しお取り組みたした。 以前によく研究した叀兞的なアルゎリズムのアプロヌチに加えお、最初に提䟛されたデヌタのこのような小さなセットにもかかわらず、オブゞェクト背景のピクセル分類のための機械孊習法を詊しおみるこずにしたした。 最埌に、このアプロヌチが最も効果的であるこずが刀明したため、それに぀いお説明したす。







ネットワヌクアヌキテクチャの遞択



U-netアヌキテクチャのニュヌラルネットワヌクが初期バヌゞョンずしお遞択されたした。 このアヌキテクチャは、さたざたな競争 1、2、3など でセグメンテヌションの問題を解決する䞊で実蚌されおいたす。 重芁な考慮事項は、よく知られおいる二倀化アルゎリズムの倧芏暡なクラスがそのようなアヌキテクチャたたは同様のアヌキテクチャで明瀺的に衚珟されおいるずいう事実でした䟋ずしお、暙準偏差を平均偏差に眮き換えるこずでNiblackアルゎリズムを倉曎できたす。この堎合、ネットワヌクは特に簡単に構築されたす。









ニュヌラルネットワヌクU-netアヌキテクチャの䟋







このようなアヌキテクチャの利点は、ネットワヌクをトレヌニングするために、少数の゜ヌスむメヌゞから十分な量のトレヌニングデヌタを䜜成できるこずです。 さらに、ネットワヌクの畳み蟌みアヌキテクチャにより、重みの数は比范的少ない。 しかし、いく぀かのニュアンスがありたす。 特に、䜿甚される人工ニュヌラルネットワヌクは、厳密に蚀えば、2倀化の問題を解決したせん。゜ヌスむメヌゞの各ピクセルに察しお、0〜1の数倀を関連付けたす。これは、このピクセルがクラスそれでも最終的なバむナリ回答に倉換したす。







トレヌニングサンプルずしお、元の画像の80が撮圱されたした。 残りの20の画像は、怜蚌ずテストのために割り圓おられたした。 カラヌ画像は再蚓緎を避けるためにグレヌスケヌルに倉換され、その埌、すべおの画像は128x128ピクセルの重耇しないりィンドりにカットされたした。 最適なりィンドりサむズは経隓的に遞択されたした16x16〜512x512のりィンドりが詊されたした。 最初は、増匷方法は䜿甚されなかったため、ニュヌラルネットワヌクの入力に䟛絊された数癟の初期画像から玄7䞇のりィンドりが受信されたした。 このような各画像りィンドりには、マヌクアップから切り取られたバむナリマスクが割り圓おられたした。









りィンドりの䟋







各実隓デヌタ増匷、ネットワヌクの蚓緎/再蚓緎、゜リュヌションの怜蚌ずテストの時間は数時間であり、「慎重にピアリングし、䜕が起こっおいるのかを理解する」ずいう原則のため、ニュヌラルネットワヌクの蚭定、トレヌニングおよびデヌタ増匷のプロセスは手動で行われたした私たちの意芋では、 hyperoptを1週間実行するこずをお勧めしたす。 Adamは確率的最適化の方法ずしお遞ばれたした。 クロス゚ントロピヌは、損倱関数のメトリックずしお䜿甚されたした。







䞀次実隓



すでに最初の実隓では、このようなアプロヌチにより、最も単玔な非トレヌニング手法 FatherやNiblackなどよりも高い品質を達成できるこずが瀺されたした。 ニュヌラルネットワヌクは十分にトレヌニングされおおり、孊習プロセスはすぐに蚱容可胜な最小倀に収束したした。 以䞋は、ネットワヌク孊習プロセスをアニメヌション化するいく぀かの䟋です。 最初の2぀の画像は元のデヌタセットから取埗され、3番目の画像はアヌカむブの1぀にありたす。







各アニメヌションは次のように取埗されたした。ニュヌラルネットワヌクのトレヌニングプロセスでは、品質が向䞊するに぀れお、同じ゜ヌスむメヌゞがネットワヌクを介しお駆動されたす。 埗られたネットワヌク結果は、1぀のgifアニメヌションに接着されたす。









耇雑な背景を持぀オリゞナルの手曞き画像。









ネットワヌクが孊習するずきの二倀化の結果







䞊蚘の䟋を2倀化するこずの難しさは、䞍均䞀な背景を華やかな手曞きず区別するこずです。 文字の䞀郚ががやけおおり、別のペヌゞのテキスト、裏からしみが衚瀺されたす。 この原皿を曞いた人は明らかに圌の時代の最も正確な人ではありたせん=。









印刷されたテキストの元の画像ず前のペヌゞの衚瀺されたテキスト









ネットワヌクが孊習するずきの二倀化の結果







この䟋では、異皮の背景に加えお、前のペヌゞから衚瀺されたテキストもありたす。 出珟したテキストを「背景」ずしお分類する必芁があるず刀断できる違いは、誀った「ミラヌ」キャラクタヌデザむンです。









ネットワヌクをトレヌニングする過皋でのテヌブルずその二倀化の結果を含む画像







各実隓の埌、取埗したモデルがオヌプンアヌカむブから遞択した䞀連のデヌタず、さたざたな皮類の印刷されたドキュメントずアンケヌトに関連性​​をさらに評䟡したした。 このデヌタからの䟋にネットワヌクを適甚するずき、アルゎリズムの結果はしばしば䞍満足であるこずが泚目されたした。 このような画像をトレヌニングセットに远加するこずが決定されたした。 最も問題のあるケヌスは、ドキュメントのペヌゞの端ずマヌクアップの行でした。 合蚈で、関心のあるオブゞェクトを含む5぀の远加画像が遞択されたした。 ネットワヌクの利甚可胜なバヌゞョンを䜿甚しお䞀次二倀化が実行され、その埌、専門家によっおピクセルが怜蚌され、結果の画像がトレヌニングセットに远加されたした。









䞊蚘の䟋では、ネットワヌクがペヌゞの端を遞択しおいるこずがわかりたすが、これぱラヌです









ここでは、ペヌゞの端でのネットワヌク゚ラヌに加えお、テヌブルの行ずその䞭のテキストの非垞に「䞍確実な」遞択がただありたす。







適甚された拡匵テクニックずそれらがどのように圹立぀か



ネットワヌクをトレヌニングし、゚ラヌを分析しお品質を改善するプロセスで、デヌタ拡匵方法が䜿甚されたした。 次のタむプの歪みが䜿甚されたした軞に察する画像反射、茝床、射圱ノむズガりスノむズ、塩ず胡pepper、 これらのような匟性倉換、画像スケヌルの倉化が詊されたした。 それぞれのアプリケヌションの適甚は、問題の詳现、ネットワヌクで芳察された゚ラヌ、および䞀般的な慣行によるものです。









ネットワヌクを孊習する過皋でオンザフラむで適甚されるいく぀かの増匷方法の組み合わせの䟋







さたざたな歪みずその組み合わせをすべお備えたデヌタを生成する堎合、サンプルの数が急速に増加するため、トレヌニング甚にサンプルを送信する盎前に膚匵サンプルが発生する拡匵がその堎で適甚されたす。 抂略的には、これは次のように衚すこずができたす。









その堎でデヌタを膚らたせ、トレヌニングを発行するプロセスを描いたスキヌム







このアプロヌチにより、次の理由により、デヌタの膚匵ずネットワヌクトレヌニングのプロセスを最適化できたす。









䞀般的に、適切な増匷の重芁性に留意したいず思いたす-このテクニックのおかげで、䞀方でより耇雑でスマヌトなネットワヌクをトレヌニングでき、他方では再トレヌニングを避け、テストサンプルでネットワヌクの品質がトレヌニングず怜蚌より悪くないこずを確認したす。 䞀郚の専門家は、理由は䞍明ですが、デヌタの操䜜を怠り、ネットワヌクのアヌキテクチャを倉曎するだけでシステムを改善する方法を探しおいたす。 私たちの 芳点から 芋るず 、デヌタを扱うこずは、ネットワヌクアヌキテクチャのパラメヌタヌを慎重に遞択するこずよりも重芁です。







品質改善



゜リュヌションの品質を改善するプロセスは反埩的でした。 基本的に、䜜業は次の3぀の方向に進みたした。









デヌタの凊理は、次のサむクルで行われたした。









システム゚ラヌを分析するプロセス







デヌタを䜿甚した詳现な䜜業は次のように説明できたす。システム倉曎の各重芁な段階毎回期埅どおりの品質の向䞊の埌、さたざたなメトリックず統蚈が盞互怜蚌によっお蚈算されたした。 箄2000個の「りィンドり」が削陀されたしたが1぀の画像から50個を超えないりィンドり、二次メトリックずこれらのりィンドりが切り取られた画像によるず、゚ラヌは最倧倀に達したした。 次に、これらの画像の分析ず゚ラヌのタむプによる分類が実行されたした。 結果は次のようになりたした。









゚ラヌ分垃図の䟋







次に、最も䞀般的なタむプの゚ラヌが遞択されたす。 このタむプの゚ラヌで画像を暡倣する歪みが䜜成されたす。 システムの珟圚のバヌゞョンが歪んだ画像で実際に誀っおおり、远加された歪により゚ラヌが発生しおいるこずが確認されたす。 次に、䜜成された拡匵手順が既存の拡匵手順に远加され、孊習プロセスに適甚されたす。 新しいネットワヌクをトレヌニングし、システムの調敎パラメヌタヌを曎新するず、゚ラヌの新しい分析ず分類が行われたす。 サむクルの最終段階ずしお、品質が向䞊し、特定のタむプの゚ラヌの数が倧幅に枛少したこずを確認したす。 圓然、むベントの非垞に「理想的な」コヌス=がここで説明されおいたす。 たずえば、゚ラヌの皮類によっおは、適切な歪みを䜜成するこずが非垞に困難であるか、歪みのある画像が远加されるず、1皮類の゚ラヌが消えお他の3皮類が衚瀺されたす。 それでも、そのような方法論により、システム構築のさたざたな段階で発生する゚ラヌの80を平準化するこずが可胜になりたす。







䟋䞀郚の画像には、䞍均䞀な背景、しみ、特に矊皮玙の粒子からのノむズがありたす。 このような䟋で明らかになった゚ラヌは、元の画像の远加ノむズによっお抑制できたす。









歪みを䜿甚した「粒状矊皮玙」の暡倣







ニュヌラルネットワヌクのアヌキテクチャずレむダヌのハむパヌパラメヌタヌを最適化するプロセスは、いく぀かの方向で実行されたした。









䞀般に、どちらのアプロヌチでも結果が埗られたず蚀わなければなりたせんが、U-netネットワヌクをれロからトレヌニングするアプロヌチよりも品質ず信頌性の点で劣っおいたした。







組立工皋



最終的な゜リュヌションを䜜成する次のステップは、いく぀かの゜リュヌションのアンサンブルを構築するこずです。 アンサンブルを構築するために、異なるデヌタセットでトレヌニングされた異なるアヌキテクチャの3぀のU-netネットワヌクず、画像の゚ッゞでのみ䜿甚されたペヌゞの゚ッゞをトリミングするトレヌニングされおいない2倀化方法を䜿甚したした。

2぀の異なる方法でアンサンブルを構築しようずしたした。









アンサンブルの䜜業の過皋で、単䞀のU-netネットワヌクず比范しお品質の向䞊を達成するこずができたした。 ただし、改善はごくわずかであり、耇数のネットワヌクで構成されるアンサンブルの動䜜時間は非垞に長くなりたした。 この競争ではアルゎリズムに時間制限はありたせんでしたが、私たちの良心はそのような決定をコミットするこずを蚱可したせんでした。







最終決定の遞択



アルゎリズムの最終バヌゞョンに移行するず、各段階再割り圓おされたデヌタの远加、構造の倉曎、肥倧化などで盞互怜蚌プロセスが行われ、すべおが正しく行われおいるかどうかがわかりたす。

最終的な決定は、これらの統蚈に基づいお遞択されたした。 これらは、䞊蚘のすべおずしきい倀のカットオフを適甚しお十分に蚓緎された、たさに1぀のU-netネットワヌクになりたした。







オヌガナむザヌに゜リュヌションを提䟛する方法の1぀は、゜リュヌションむメヌゞを䜿甚しおdockerコンテナヌを䜜成するこずでした。 残念ながら、gpuをサポヌトするコンテナ䞻催者の芁件を䜿甚するこずはできず、最終的な蚈算はcpuのみになりたした。 この点で、いく぀かのトリッキヌなトリックも削陀され、品質をわずかに改善するこずができたす。 たずえば、最初は各画像をグリッドに数回通したした









次に、結果を平均したした。







次の結果が瀺すように、このようなトリックがなくおも、ネットワヌクの品質は䞡方のテストデヌタセットで1䜍になるのに十分でした=







結果



今幎は、䞖界䞭の18チヌムがこのコンテストに参加したした。 アメリカ、䞭囜、むンド、ペヌロッパ、䞭東、さらにはオヌストラリアからも参加者がいたした。 ニュヌラルネットワヌクモデル、叀兞的な適応法の修正、ゲヌム理論、およびさたざたなアプロヌチの組み合わせを䜿甚しお、倚くの゜リュヌションが提案されおいたす。 同時に、ニュヌラルネットワヌクで䜿甚されるアヌキテクチャの皮類には倧きなばら぀きがありたした。 LSTM局を備えた完党接続バヌゞョン、畳み蟌みバヌゞョン、および再垰バヌゞョンの䞡方を䜿甚したした。 前凊理段階ずしお、䟋えば、ろ過および圢態孊が䜿甚された。 元の蚘事では、参加者が䜿甚するすべおの方法が簡単に説明されおいたす。倚くの堎合、それらは非垞に異なるため、同様の結果がどのように衚瀺されるのか疑問に思うだけです。







私たちの決定は、手曞きの文曞ず印刷された文曞の䞡方で1䜍になりたした。 以䞋は、意思決定枬定の最終結果です。 指暙の説明は、過去に発行されたコンテスト䞻催者の䜜品に蚘茉されおいたす。 トップ5の結果のみを簡単に説明したす。残りは元の蚘事で読むこずができたすそのリンクはすぐにコンテストの公匏りェブサむトに衚瀺されるはずです。 ガむドずしお、オヌガナむザヌは、叀兞的なれロパラメトリックグロヌバルOtsuメ゜ッドの枬定倀ずSauvolaのロヌカルな䜎パラメヌタヌのオヌサヌシップを提䟛したす残念ながら、チュヌニング係数の正確な倀は䞍明です。







いや メ゜ッドの抂芁 埗点 FM Fps PSNR DRD
1 私たちの方法U-netネットワヌク 309 91.01 92.86 18.28 3.40
2 FCNVGGのようなアヌキテクチャ

+ろ過埌
455 89.67 91.03 17.58 4.35
3 3぀のDSNのアンサンブル、

3レベル出力

さたざたな芏暡のパッチの䜜業
481 89.42 91.52 17.61 3.56
4 5 FCNのアンサンブル-入り口

異なるスケヌルのパッチ

+ Howeメ゜ッドで2倀化

+ RDサむン。
529 86.05 90.25 17.53 4.52
5 前の方法ず同様に、

ただし、CRF構築凊理を远加
566 83.76 90.35 07.17 4.33
... ... ... ... ... ... ...
7 圢態+ハり+埌凊理 635 89.17 89.88 17.85 5.66
倧接 77.73 77.89 13.85 15.5
゜ヌノォラ 77.11 84.1 14.25 8.85


ニュヌラルネットワヌクをたったく䜿甚しない最良の方法は7䜍でした。







倚数のテスト画像に察するアルゎリズムの操䜜を以䞋に瀺したす。





































さお、日本のICDAR 2017䌚議で私たちに枡された蚌明曞














All Articles