⛹️ ↔️ 🖤 SmartEngines International Document Recognition Competitionでの勝利の物語 ⏬ 🗽 🏠

こんにちは、Habr！本日は、 ICDARカンファレンスの一環として開催された文書二値化DIBCO17の国際競争で、 Smart Enginesのチームがどのように勝ったかについてお話します。このコンペティションは定期的に開催されており、すでに堅実な歴史があります（9年間開催されています）。その間、非常に興味深く、クレイジーな（良い意味で）2値化アルゴリズムが提案されました。モバイルデバイスを使用してドキュメントを認識するプロジェクトでは、可能な限りこのようなアルゴリズムを使用しないという事実にもかかわらず、チームは世界コミュニティに何かを提供するものがあると考え、今年初めてコンテストに参加することにしました。

まず、その本質を簡単に説明します。オーガナイザーによって作成されたSドキュメントのカラー画像のセット（左の図にそのような画像の例を示します）と理想的なセット（同じオーガナイザーの観点から）のバイナリ画像I （グラウンドトゥルース、例の期待される結果は右の図に示されています）。元の画像をSから2レベルの白黒a （ A ）に変換するアルゴリズムAを構築する必要があります（つまり、各ピクセルをオブジェクトまたは背景に属するものとして分類する問題を解決します）。 Iからの対応する理想もちろん、この近接性を評価するための多くのメトリックは、競技会で記録されます。この競技の特徴は、競技者に事前に単一のテスト画像が提供されないことです;過去の競技からのデータは、セットアップと準備に利用できます。同時に、新しいデータには毎回独自の「ハイライト」が含まれ、以前のコンテスト（たとえば、反対側に表示される細い「水彩」のテキストスタイルやシンボルの存在）と区別され、参加者に新しい課題を提示します。このコンペティションには、世界中から約2〜3ダースの参加者が定期的に集まります。以下は、当社の競争上の決定の説明です。

ソリューションスキーム

まず、以前のすべての大会からデータが収集されました。合計で、手書き文書の65画像と印刷文書の21画像がアップロードされました。明らかに、高い結果を得るためには、より広い視野で問題を見る必要があったため、オーガナイザーからの画像を分析することに加えて、アーカイブされた印刷文書および原稿文書を含むオープンデータセットを独立して検索しました。主催者は、サードパーティのデータセットの使用を禁止しませんでした。競争の条件に本質的に適した数千の画像が見つかりました（ICDAR、 READプロジェクトなどが主催するさまざまなテーマ別の競争からのデータ）。これらの文書を研究し、分類した後、原則としてどのクラスの問題に遭遇する可能性があるか、そしてそれらのどれが競技会の主催者によって無視され続けているかが明らかになりました。たとえば、以前のコンテストでは、ドキュメントには分類要素が含まれていませんでしたが、表はしばしばアーカイブにあります。

競争に備えて、いくつかの方法で並行して取り組みました。以前によく研究した古典的なアルゴリズムのアプローチに加えて、最初に提供されたデータのこのような小さなセットにもかかわらず、オブジェクト背景のピクセル分類のための機械学習法を試してみることにしました。最後に、このアプローチが最も効果的であることが判明したため、それについて説明します。

ネットワークアーキテクチャの選択

U-netアーキテクチャのニューラルネットワークが初期バージョンとして選択されました。このアーキテクチャは、さまざまな競争（ 1、2、3など）でセグメンテーションの問題を解決する上で実証されています。重要な考慮事項は、よく知られている二値化アルゴリズムの大規模なクラスがそのようなアーキテクチャまたは同様のアーキテクチャで明示的に表現されているという事実でした（例として、標準偏差を平均偏差に置き換えることでNiblackアルゴリズムを変更できます。この場合、ネットワークは特に簡単に構築されます）。

ニューラルネットワークU-netアーキテクチャの例

このようなアーキテクチャの利点は、ネットワークをトレーニングするために、少数のソースイメージから十分な量のトレーニングデータを作成できることです。さらに、ネットワークの畳み込みアーキテクチャにより、重みの数は比較的少ない。しかし、いくつかのニュアンスがあります。特に、使用される人工ニューラルネットワークは、厳密に言えば、2値化の問題を解決しません。ソースイメージの各ピクセルに対して、0〜1の数値を関連付けます。これは、このピクセルがクラスそれでも最終的なバイナリ回答に変換します。

トレーニングサンプルとして、元の画像の80％が撮影されました。残りの20％の画像は、検証とテストのために割り当てられました。カラー画像は再訓練を避けるためにグレースケールに変換され、その後、すべての画像は128x128ピクセルの重複しないウィンドウにカットされました。最適なウィンドウサイズは経験的に選択されました（16x16〜512x512のウィンドウが試されました）。最初は、増強方法は使用されなかったため、ニューラルネットワークの入力に供給された数百の初期画像から約7万のウィンドウが受信されました。このような各画像ウィンドウには、マークアップから切り取られたバイナリマスクが割り当てられました。

ウィンドウの例

各実験（データ増強、ネットワークの訓練/再訓練、ソリューションの検証とテスト）の時間は数時間であり、「慎重にピアリングし、何が起こっているのかを理解する」という原則のため、ニューラルネットワークの設定、トレーニングおよびデータ増強のプロセスは手動で行われました私たちの意見では、 hyperoptを1週間実行することをお勧めします。 Adamは確率的最適化の方法として選ばれました。クロスエントロピーは、損失関数のメトリックとして使用されました。

一次実験

すでに最初の実験では、このようなアプローチにより、最も単純な非トレーニング手法（ FatherやNiblackなど）よりも高い品質を達成できることが示されました。ニューラルネットワークは十分にトレーニングされており、学習プロセスはすぐに許容可能な最小値に収束しました。以下は、ネットワーク学習プロセスをアニメーション化するいくつかの例です。最初の2つの画像は元のデータセットから取得され、3番目の画像はアーカイブの1つにあります。

各アニメーションは次のように取得されました。ニューラルネットワークのトレーニングプロセスでは、品質が向上するにつれて、同じソースイメージがネットワークを介して駆動されます。得られたネットワーク結果は、1つのgifアニメーションに接着されます。

複雑な背景を持つオリジナルの手書き画像。

ネットワークが学習するときの二値化の結果

上記の例を2値化することの難しさは、不均一な背景を華やかな手書きと区別することです。文字の一部がぼやけており、別のページのテキスト、裏からしみが表示されます。この原稿を書いた人は明らかに彼の時代の最も正確な人ではありません=）。

印刷されたテキストの元の画像と前のページの表示されたテキスト

ネットワークが学習するときの二値化の結果

この例では、異種の背景に加えて、前のページから表示されたテキストもあります。出現したテキストを「背景」として分類する必要があると判断できる違いは、誤った「ミラー」キャラクターデザインです。

ネットワークをトレーニングする過程でのテーブルとその二値化の結果を含む画像

各実験の後、取得したモデルがオープンアーカイブから選択した一連のデータと、さまざまな種類の印刷されたドキュメントとアンケートに関連性をさらに評価しました。このデータからの例にネットワークを適用するとき、アルゴリズムの結果はしばしば不満足であることが注目されました。このような画像をトレーニングセットに追加することが決定されました。最も問題のあるケースは、ドキュメントのページの端とマークアップの行でした。合計で、関心のあるオブジェクトを含む5つの追加画像が選択されました。ネットワークの利用可能なバージョンを使用して一次二値化が実行され、その後、専門家によってピクセルが検証され、結果の画像がトレーニングセットに追加されました。

上記の例では、ネットワークがページの端を選択していることがわかりますが、これはエラーです

ここでは、ページの端でのネットワークエラーに加えて、テーブルの行とその中のテキストの非常に「不確実な」選択がまだあります。

適用された拡張テクニックとそれらがどのように役立つか

ネットワークをトレーニングし、エラーを分析して品質を改善するプロセスで、データ拡張方法が使用されました。次のタイプの歪みが使用されました：軸に対する画像反射、輝度、射影ノイズ（ガウスノイズ、塩と胡pepper）、これらのような弾性変換、画像スケールの変化が試されました。それぞれのアプリケーションの適用は、問題の詳細、ネットワークで観察されたエラー、および一般的な慣行によるものです。

ネットワークを学習する過程でオンザフライで適用されるいくつかの増強方法の組み合わせの例

さまざまな歪みとその組み合わせをすべて備えたデータを生成する場合、サンプルの数が急速に増加するため、トレーニング用にサンプルを送信する直前に膨張サンプルが発生する拡張がその場で適用されます。概略的には、これは次のように表すことができます。

その場でデータを膨らませ、トレーニングを発行するプロセスを描いたスキーム

このアプローチにより、次の理由により、データの膨張とネットワークトレーニングのプロセスを最適化できます。

ディスクアレイへのアクセス数が減少し、連続して発生するため、データのロードを何度も高速化できます。
ミニバッチの並列データ増加は、マシンのすべてのコアを独立して効率的に使用します。最もリソースを集中的に使用する操作の一部は、theano / tensorflowを使用して書き直し、2番目のGPUで計算できます。
定期的に個々のミニバッチがディスクに保存されるため、学習プロセスとデータの膨張を確認できます。
メモリの大部分は使用されないままです。これは、同時にすべてのデータ（検証セットと現在のバッチ）の約20％がメモリに格納されるためです。それが可能 ~~一度に5つの実験を恥ずかしがる~~ サーバーのコンピューティングリソースを効率的に使用します。

一般的に、適切な増強の重要性に留意したいと思います-このテクニックのおかげで、一方でより複雑でスマートなネットワークをトレーニングでき、他方では再トレーニングを避け、テストサンプルでネットワークの品質がトレーニングと検証より悪くないことを確認します。一部の専門家は、理由は不明ですが、データの操作を怠り、ネットワークのアーキテクチャを変更するだけでシステムを改善する方法を探しています。私たちの観点から見ると、データを扱うことは、ネットワークアーキテクチャのパラメーターを慎重に選択することよりも重要です。

品質改善

ソリューションの品質を改善するプロセスは反復的でした。基本的に、作業は次の3つの方向に進みました。

ネットワークエラー分析とデータ操作。
ネットワークアーキテクチャの改良、レイヤーのハイパーパラメーターの調整、および正則化メカニズム。
ニューラルネットワークと従来の方法に基づいたアンサンブルの構築。

データの処理は、次のサイクルで行われました。

システムエラーを分析するプロセス

データを使用した詳細な作業は次のように説明できます。システム変更の各重要な段階（毎回期待どおりの品質の向上）の後、さまざまなメトリックと統計が相互検証によって計算されました。約2000個の「ウィンドウ」が削除されましたが（1つの画像から50個を超えないウィンドウ）、二次メトリックとこれらのウィンドウが切り取られた画像によると、エラーは最大値に達しました。次に、これらの画像の分析とエラーのタイプによる分類が実行されました。結果は次のようになりました。

エラー分布図の例

次に、最も一般的なタイプのエラーが選択されます。このタイプのエラーで画像を模倣する歪みが作成されます。システムの現在のバージョンが歪んだ画像で実際に誤っており、追加された歪によりエラーが発生していることが確認されます。次に、作成された拡張手順が既存の拡張手順に追加され、学習プロセスに適用されます。新しいネットワークをトレーニングし、システムの調整パラメーターを更新すると、エラーの新しい分析と分類が行われます。サイクルの最終段階として、品質が向上し、特定のタイプのエラーの数が大幅に減少したことを確認します。当然、イベントの非常に「理想的な」コース=）がここで説明されています。たとえば、エラーの種類によっては、適切な歪みを作成することが非常に困難であるか、歪みのある画像が追加されると、1種類のエラーが消えて他の3種類が表示されます。それでも、そのような方法論により、システム構築のさまざまな段階で発生するエラーの80％を平準化することが可能になります。

例：一部の画像には、不均一な背景、しみ、特に羊皮紙の粒子からのノイズがあります。このような例で明らかになったエラーは、元の画像の追加ノイズによって抑制できます。

歪みを使用した「粒状羊皮紙」の模倣

ニューラルネットワークのアーキテクチャとレイヤーのハイパーパラメーターを最適化するプロセスは、いくつかの方向で実行されました。

深さ/レイヤー数/フィルター数などによる現在のネットワークアーキテクチャの変化
他のアーキテクチャをチェックして問題を解決します（VGG、Resnetなど）。すでに訓練されたニューラルネットワークを使用する可能性をテストするために、VGGおよびResnetアーキテクチャのネットワークが調査されました。 2つのアプローチが使用されました。
1. 各ネットワークのさまざまな層の出力から、ベクトル記号が書き出され、分類問題を解決するために訓練された完全に接続されたニューラルネットワークの入力として使用されました。この場合、「最終的な」完全に接続されたニューラルネットワークのみがトレーニングされ、サインを提供するネットワークは変更されませんでした。完全に接続されたネットワークの入力空間の次元を減らすために、特異分解が使用されました。
2. 2番目のアプローチは、ネットワークの1つ（たとえば、VGG）の最後のN層を完全に接続されたものに置き換え、ネットワーク全体を再訓練することでした。すなわち初期初期化として完成した重量を使用しました。

一般に、どちらのアプローチでも結果が得られたと言わなければなりませんが、U-netネットワークをゼロからトレーニングするアプローチよりも品質と信頼性の点で劣っていました。

組立工程

最終的なソリューションを作成する次のステップは、いくつかのソリューションのアンサンブルを構築することです。アンサンブルを構築するために、異なるデータセットでトレーニングされた異なるアーキテクチャの3つのU-netネットワークと、画像のエッジでのみ使用された（ページのエッジをトリミングする）トレーニングされていない2値化方法を使用しました。

2つの異なる方法でアンサンブルを構築しようとしました。

応答の平均化。
応答の加重合計。最終回答への貢献は、検証サンプルの作業の質によって決定されました。

アンサンブルの作業の過程で、単一のU-netネットワークと比較して品質の向上を達成することができました。ただし、改善はごくわずかであり、複数のネットワークで構成されるアンサンブルの動作時間は非常に長くなりました。この競争ではアルゴリズムに時間制限はありませんでしたが、私たちの良心はそのような決定をコミットすることを許可しませんでした。

最終決定の選択

アルゴリズムの最終バージョンに移行すると、各段階（再割り当てされたデータの追加、構造の変更、肥大化など）で相互検証プロセスが行われ、すべてが正しく行われているかどうかがわかります。

最終的な決定は、これらの統計に基づいて選択されました。これらは、上記のすべてとしきい値のカットオフを適用して十分に訓練された、まさに1つのU-netネットワークになりました。

オーガナイザーにソリューションを提供する方法の1つは、ソリューションイメージを使用してdockerコンテナーを作成することでした。残念ながら、gpuをサポートするコンテナ（主催者の要件）を使用することはできず、最終的な計算はcpuのみになりました。この点で、いくつかのトリッキーなトリックも削除され、品質をわずかに改善することができます。たとえば、最初は各画像をグリッドに数回通しました：

通常の画像
ひっくり返した
逆さ
わずかに減少
わずかに拡大

次に、結果を平均しました。

次の結果が示すように、このようなトリックがなくても、ネットワークの品質は両方のテストデータセットで1位になるのに十分でした=）

結果

今年は、世界中の18チームがこのコンテストに参加しました。アメリカ、中国、インド、ヨーロッパ、中東、さらにはオーストラリアからも参加者がいました。ニューラルネットワークモデル、古典的な適応法の修正、ゲーム理論、およびさまざまなアプローチの組み合わせを使用して、多くのソリューションが提案されています。同時に、ニューラルネットワークで使用されるアーキテクチャの種類には大きなばらつきがありました。 LSTM層を備えた完全接続バージョン、畳み込みバージョン、および再帰バージョンの両方を使用しました。前処理段階として、例えば、ろ過および形態学が使用された。元の記事では、参加者が使用するすべての方法が簡単に説明されています。多くの場合、それらは非常に異なるため、同様の結果がどのように表示されるのか疑問に思うだけです。

私たちの決定は、手書きの文書と印刷された文書の両方で1位になりました。以下は、意思決定測定の最終結果です。指標の説明は、過去に発行されたコンテスト主催者の作品に記載されています。トップ5の結果のみを簡単に説明します。残りは元の記事で読むことができます（そのリンクはすぐにコンテストの公式ウェブサイトに表示されるはずです）。ガイドとして、オーガナイザーは、古典的なゼロパラメトリックグローバルOtsuメソッドの測定値とSauvolaのローカルな低パラメーターのオーサーシップを提供します（残念ながら、チューニング係数の正確な値は不明です）。

いや	メソッドの概要	得点	FM	Fps	PSNR	DRD
1	私たちの方法（U-netネットワーク）	309	91.01	92.86	18.28	3.40
2	FCN（VGGのようなアーキテクチャ） +ろ過後	455	89.67	91.03	17.58	4.35
3	3つのDSNのアンサンブル、 3レベル出力さまざまな規模のパッチの作業	481	89.42	91.52	17.61	3.56
4	5 FCNのアンサンブル-入り口：異なるスケールのパッチ + Howeメソッドで2値化 + RDサイン。	529	86.05	90.25	17.53	4.52
5	前の方法と同様に、ただし、CRF構築処理を追加	566	83.76	90.35	07.17	4.33
...	...	...	...	...	...	...
7	形態+ハウ+後処理	635	89.17	89.88	17.85	5.66
	大津		77.73	77.89	13.85	15.5
	ソーヴォラ		77.11	84.1	14.25	8.85