🦗 🍲 🛎️ Imago OCRの例を使用した構造情報の光学認識システムの構築 🛎️ 👨🏾 🤧

このメモでは、画像処理で使用されるアルゴリズムとOpenCVライブラリのフレームワークでの実装に基づいて、構造情報の光学認識システムを構築する方法について説明します。システムの説明の背後には、化学構造の認識に直接役立つ可能性のある積極的に開発されているオープンソースプロジェクトImago OCRがありますが、この記事では化学については触れませんが、より一般的な問題に触れ、その解決策はさまざまな種類の構造化された情報、例えばテーブルの認識に役立ちますまたはグラフィックス。

認識エンジンの構造

光学認識システムのエンジンの構造を表示するための最も一般的なオプションの1つは次のとおりです。

従来、処理方法は3つのレベルに分類できます。

ラスターレベル（一連の画像ピクセルを使用）;
プリミティブのレベル（シンボル、線、円など、特定のプリミティブでピクセルのグループを識別します）;
構造レベル（プリミティブのグループを論理ユニットに集めます-「テーブル」、「テーブルセル」、「ラベル」など）

黒い矢印でデータ転送の主な方向を示しました。画像をロードし、処理に便利な形式に変換し、プリミティブを取得し、プリミティブを構造に整理し、結果を書き込みます。

青い矢印は「フィードバック」を表します -場合によっては、特定のレベルでオブジェクトを認識できなくなります（少なくとも論理的に許容される構造をプリミティブからアセンブルするか、ポイントのセットから少なくともいくつかのプリミティブを分離します）。これは、前のステップの「悪い」元の画像またはエラーのいずれかを示します。このようなエラーを回避するために、以前の構造レベルで、おそらく他のパラメーターを使用してオブジェクトを再度処理します。

この段階では、詳細は説明しませんが、これが構造情報の光学認識システムが「一般認識」と大きく異なる理由です。必要な出力構造を理解することにより、エラーを修正する機会があります。この状況は、特定の認識方法の構築へのアプローチをわずかに変更し、処理中に変更され、構造処理の段階で計算できる品質メトリックを持ついくつかの許容値に依存する適応アルゴリズムを作成することを可能にします。

ラスターレベル：画像のダウンロード

すばらしいOpenCVライブラリを使用したため、この手順は可能な限り簡単です。 OpenCVは、PNG、JPG、BMP、DIB、TIFF、PBM、RAS、EXRなど、多くの一般的なラスター形式をロードできます。実際、1行で：

cv::Mat mat = cv::imread(fname, CV_LOAD_IMAGE_GRAYSCALE);

選択したパラメータCV_LOAD_IMAGE_GRAYSCALEを使用すると、ピクセル強度のマトリックス形式で画像をアップロードできます（グレースケールへの変換は自動的に行われます）。一部のタスクでは色情報を使用する必要がありますが、私たちのタスクでは必要ありません。これにより、メモリ割り当てを大幅に節約できます。「透明な」PNGの読み込みを除くトリックのうち、透明な背景は黒と解釈されます。これは、CV_LOAD_IMAGE_UNCHANGEDパラメーターを使用してダウンロードし、BGRA色情報を手動で処理することで簡単に実行できます（はい、OpenCVはこの順序で色データを保存します）。

この段階で、次のようになります。

私は故意に「悪い」という画像を選んで、光学認識がさらに解決する多くの困難に関連していることを示しましたが、それは「実生活」からのものです。

ラスターレベル：事前フィルタリング

事前フィルタリングの主なタスクは、画像の「品質」を改善することです。詳細を失うことなくノイズを除去し、コントラストを復元します。

グラフィックエディターで武装すると、画質を向上させる方法について多くのトリッキーなスキームを理解できますが、ここでは、1つの画像にのみ適用できる自動フィクションとフィクションとの境界を理解することが重要です。以下に、多かれ少なかれ自動化されたアプローチの例を示します。スパースマスク、中央値フィルター、グーグルが好きな人向け。

方法を比較し、特定の方法を選択した理由を示したいと思いますが、実際にはそれは困難です。さまざまな画像では、特定の方法には長所と短所があり、平均してこれ以上の解決策はありません。したがって、Imago OCRでは、特定のケースで使用できるフィルターのスタックを設計しましたが、結果の選択は品質メトリックに依存します。

しかし、1つの興味深い解決策についてお話したいと思います： Retinex Poisson Equation

この方法の利点は次のとおりです。

かなり高速。
結果のパラメーター化可能な品質。
作業中の浸食の欠如、およびその結果、詳細に対する「感度」。
そして、主な興味深い機能は、照明のローカルレベルの正規化です。

最後の特性は記事の画像で完全に示されており、撮影時に物体の照明が不均一になる可能性があるため、認識にとって重要です（紙片が光源に向いて光が不均一に落ちる）：

アルゴリズムの表面記述：

しきい値Tによるローカルしきい値画像フィルタリング（ラプラシアンしきい値）;
受信した画像の離散コサイン変換。
高周波特性をフィルタリングし、低および中周波数用の特別な方程式（Retinex方程式）を解きます。
逆離散コサイン変換。

アルゴリズム自体はパラメーターTにかなり敏感ですが、その適応を使用しました。

T = 1,2,4,8のRetinex（T）を考慮します
Retinexの結果間のピクセルごとの中央値フィルタリング
コントラストを正規化する

OpenCVがどのように役立つか：離散コサイン変換を計算するための既製の関数があります。

 void dct(const Mat& src, Mat& dst, int flags=0); // flags = DCT_INVERSE for inverse DCT

また、一般的なケース（Core i5、Core Duoでテスト済み）でこれを言うことは想定していませんが、libfftwの同様のものよりも速度は悪くありません。

元の画像の場合、上記の方法ではかなり良い結果が得られます。

これで、事前フィルタリングが何をすべきかをおおまかに理解し、フィードバックメカニズムで変更できるパラメーターが1つあります。それは、使用するフィルターのインデックスです 。

以下：実際、もちろん、他にも多くのパラメーターがあります（たとえば、同じもの、「マジック」T = 1,2,4,8）が、「頭を揺さぶる」ことのないように、ここでは説明しません。それらの多くがあり、それらへの参照は機械学習のセクションに表示されますが、パラメーターの数でプレゼンテーションをオーバーロードしないように、詳細を省略します。

ラスターレベル：二値化

次のステップでは、黒と白の画像を取得します。黒は「ペイント」の存在に対応し、白はその不在に対応します。これは、たとえばオブジェクトの輪郭を取得するなど、多くのアルゴリズムがハーフトーンで建設的に機能しないために行われます。最も単純な2値化方法の1つはしきい値フィルタリングです（しきい値としてtを選択し、tより大きい強度を持つすべてのピクセルが背景であり、少ないものは「ペイント」です）が、適応性が低いため、 otsuしきい値または適応ガウスしきい値がより頻繁に使用されます。

より高度な方法の適応性にもかかわらず、出力情報の「量」を決定するしきい値が含まれています。より厳しいしきい値の場合-いくつかの要素が失われる可能性があります;「ソフト」しきい値の場合、「ノイズ」が出る可能性があります。

強力なしきい値処理	弱いしきい値処理

各画像のしきい値を正確に推測することができますが、別の方法で行った-受信した画像と異なる適応二値化しきい値との相関を使用しました。

（与えられたしきい値t1およびt2で）強いおよび弱い2値化を考慮します。
画像をピクセルごとの連結された領域のセットに分割します（セグメントのマーキング）。
対応する強力なセグメントと相関関係があり、指定された（cratio）よりも小さいすべての「弱い」セグメントを削除します。
低密度の「弱い」セグメントをすべて削除します（黒/白ピクセルの比率は指定された比率よりも小さい）。
残りの「弱い」セグメントは、2値化の結果です。

その結果、 ほとんどの場合 、ノイズがなく、詳細な損失のない画像が得られます。

説明したソリューションは、1つのパラメーターを「取り除き」、他のパラメーター全体を導入したいという事実に照らして奇妙に見えるかもしれませんが、主なアイデアは、「実際の」2値化しきい値が間隔に収まる場合、正しい2値化が保証されることです私たちが選択したt1とt2の間で結論付けられます（この間隔を「無限に」増やすことはできませんが、t1とt2の差にも制限があります）。

このアイデアは、さまざまなしきい値フィルタリング方法とOpenCVを適用すると非常に有効です。OpenCVは、組み込みの適応フィルタリング機能の存在によって「支援」されます。

 cv::adaptiveThreshold(image, strongBinarized, 255, cv::ADAPTIVE_THRESH_GAUSSIAN_C, CV_THRESH_BINARY, strongBinarizeKernelSize, strongBinarizeTreshold); cv::threshold(image, otsuBinarized, otsuThresholdValue, 255, cv::THRESH_OTSU);

最終イメージにセグメントがまったく含まれていない場合、フィルタリングエラーが発生している可能性があり、別の予備フィルターを検討する価値があります（「フィードバック」;エンジン構造のイメージの「同じ」青い矢印）。

プリミティブレベル：ベクトル化

認識プロセスの次のステップは、ピクセルのセット（セグメント）をプリミティブに変換することです。プリミティブは、円、セグメントのセット、長方形（特定のプリミティブのセットは解決する問題によって異なります）、またはシンボルです。

各オブジェクトがどのクラスに属しているかはわかりませんが、さまざまな方法でベクトル化しようとしています。同じピクセルのセットを、セグメントのセットとして、およびシンボル（たとえば、「N」、「I」）の両方として正常にベクトル化できます。または、円と記号は「O」です。この段階では、オブジェクトがどのクラスを持っているかを確実に知る必要はありませんが、特定のクラスでのベクトル化とオブジェクトの類似性の特定のメトリックが必要です。これは通常、一連の認識機能によって解決されます。

たとえば、ピクセルのセットの場合

次のオブジェクトのセットを取得します（メトリックの特定の数については考えないでください。これらは認識プロセスに必要なものを表すために与えられますが、それ自体はまだ意味をなしません）。

0.1のメトリック（距離）値を持つ「H」記号の形式のベクトル化（これは正確にHである可能性があります） 。
4.93のメトリック値を持つシンボル「R」の形式でのベクトル化（可能性は低いですが、これもRである可能性があります）。
3つのセグメント 「|」、「-」、「|」 の形式でのベクトル化メトリック値が0.12の場合（これらが3つのセグメントである可能性があります） 。
45.4のメトリック値を持つ辺x、yの寸法を持つ長方形としてのベクトル化（まったく長方形ではない） 。
メトリック値+ infの円としてのベクトル化（保証は円ではありません） ;
...

ベクトル化のリストを取得するには、特定のクラスごとに認識プリミティブを実装する必要があります。

セグメントセットの認識

通常、ラスタ領域は次のように一連のセグメントにベクトル化されます。

間引きフィルターの実行（ -> ）;
セグメンテーション（デコルナ）（）;
各セグメントのポイントの近似 ;
結果は、近似のセットと、元の近似からの偏差です。

OpenCVには既製の間引きフィルターはありませんが、実装することはまったく難しくありません。セグメンテーション（decorner）もありますが、これは完全に些細なことです。3つ以上の近傍がある領域からすべてのポイントを破棄します。しかし、OpenCVの一連のセグメントとしてのポイントの近似が存在するため、それを使用しました。

 cv::approxPolyDP(curve, approxCurve, approxEps, closed); // approximation of curve -> approxCurve

重要なパラメーターは近似許容誤差（近似Eps ）であり、増加すると結果としてより多くのセグメントが得られ、減少すると-粗い近似となり、結果としてメトリック値が大きくなります。 正しい選択方法は？

まず、平均線の太さに強く依存します（直感的に-線の太さが大きいほど、細部は少なくなります。シャープペンシルで描かれた図面は、マーカーで描かれた図面よりもはるかに詳細になります）。

 approxEps = averageLineThickness * magicLineVectorizationFactor;

第二に、オブジェクトの分類に対する上記のアプローチを考慮して、異なるapproiceEpsを持つセグメントを（特定のステップで）ベクトル化し、論理構造を分析する段階で「より適切な」を選択することができます。

サークル認識

とても簡単です：

円の中心を探しています（ポイントの座標の平均）-（x、y）;
半径（中心からのポイントの平均距離）-rを探しています。
エラーを考慮します：中心（x、y）と半径rおよび厚さaverageLineThicknessを持つ円へのポイントによる平均距離。
サークルブレークに追加のペナルティを検討します：magicCirclePenalty *（ブレークの％）。

magicCirclePenaltyを選択した後、このコード、およびそれに類似した長方形の認識にまったく問題はありませんでした。

文字認識

はるかに興味深い部分として、これは挑戦的な問題です-「最適な」認識指標であると主張する単一のアルゴリズムはありません。ヒューリスティックに基づく非常に単純な方法があります。たとえば、ニューラルネットワークを使用するなど、より複雑な方法もありますが、「良い」認識品質を保証するものはありません。

したがって、文字認識のいくつかのサブシステムを使用する決定と集計結果の選択は非常に自然に見えました：p1 =アルゴリズム1によって領域Aがシンボルsとして認識され、p2 =アルゴリズム2が領域Aをシンボルsとして認識するメトリック値の場合、最終値p = f（p1、p2）。便利で匹敵する値、高速、十分な安定性を備えた2つのアルゴリズムを選択しました。

フーリエ記述子に基づく認識;
ポイントの二次偏差のマスク。

フーリエ記述子に基づく文字認識

準備：

オブジェクトの外部輪郭の取得。
輪郭点（x; y）の座標の複素数x + iyへの変換。
これらの数値のセットの離散フーリエ変換。
スペクトルの高周波部分の除去。

逆フーリエ変換を実行すると、与えられた近似度（Nは残っている係数の数）で元の図を記述する点のセットを取得します。

「認識」操作は、認識された領域のフーリエ記述子を計算し、それらをサポートされる文字に対応する事前定義されたセットと比較することで構成されます。 2組の記述子からメトリック値を取得するには、畳み込みと呼ばれる操作を実行する必要があります。d= sum（（d1 [i] -d2 [i]）* w [i]、i = 1、N）、d1およびd2は記述子のセットですフーリエ。wは各係数の重みベクトルです（機械学習で取得しました）。コンボリューション値は、比較されるシンボルのスケールに関して不変です。さらに、この関数は高周波ノイズ（図の「ジオメトリ」を変更しないランダムピクセル）に耐性があります。

OpenCVは、このメソッドの実装に非常に役立ちます。オブジェクトの外部輪郭を取得するための既製の関数があります。

 cv::findContours(image, storage, CV_RETR_EXTERNAL);

そして、離散フーリエ変換を計算する関数があります：

 cv::dft(src, dst);

畳み込みおよび中間型変換を実装するためだけに残り、記述子のセットを保存します。

この方法は手書き文字には適していますが（おそらく他の一部は高品質な結果が得られないため）、画像全体に対して高周波ノイズ、つまり「余分な」ピクセルが大きくなるため、低解像度の文字にはあまり適していません。破棄しない要素に影響を与え始めます。比較する係数の数を減らすことはできますが、同じような小さな文字を選択することは難しくなります。そして、別の認識方法が導入されました。

二次偏差マスクに基づく文字認識

これは非常に直感的なソリューションであり、判明したように、あらゆる解像度の印刷文字に最適です。同じ解像度の2つの白黒画像がある場合、それらをピクセルごとに比較することを学ぶことができます。

画像1の各ポイントについて、ペナルティが考慮されます。同じ色の画像2のポイントまでの最小距離です。したがって、メトリックは単純に罰金と正規化係数の合計です。この方法は、ノイズのある小さな解像度の画像ではるかに安定します。辺の長さがnの画像の場合、最大ピクセルのkパーセントまでの個々のピクセルは、最悪の場合k * nを超えません。ほとんどの場合、画像の「正しい」ピクセルに隣接しているためです。

私が説明したように、この方法の欠点は低速です。各ピクセル（O（n ² ））について、別の画像（O（n ² ））の同じ色のピクセルまでの最小距離を考慮します。これにより、O（n ⁴ ）が得られます。

しかし、これは事前計算によって非常に簡単に処理できます。ペナルティ_ホワイト（x、y）とペナルティ_ブラック（x、y）の2つのマスクを作成します。計算された罰金は、それぞれ白または黒のピクセル（x、y）に対して保存されます。次に、「認識」のプロセス（つまり、メトリックの計算）はO（n ² ）に適合します。

 for (int y = 0; y < img.cols; y++) { for (int x = 0; x < img.rows; x++) { penalty += (image(y,x) == BLACK) ? penalty_black(y,x) : penalty_white(y,x); } }

各文字のスペルごとにマスク（penalty_white、penalty_black）を保存し、認識プロセスでそれらをソートするだけです。 OpenCVはこのアルゴリズムの実装にほとんど役立ちませんが、簡単です。しかし、私が言ったように、比較される画像は同じ解像度でなければならないので、一方をもう一方に持ってくるには、関数が必要かもしれません：

 cv::resize(temp, temp, cv::Size(size_x, size_y), 0.0, 0.0);

文字認識の一般的なプロセスに戻ると、両方のメソッドを実行した結果、メトリック値のテーブルが取得されます。

認識値は1つの要素ではなく、最も高い確率でシンボル「C」であることがわかっているテーブル全体ですが、「0」または「6」（または「O」または「c」である可能性があります。画面に収まりませんでした）。そして、これがブラケットの場合、閉じるより開く可能性が高くなります。しかし、今のところ、これがシンボルであるかどうかさえわかりません...

プリミティブレベル：分離

超生産的な（量子？）コンピューターの理想的な世界に住んでいたなら、おそらくこのステップは必要ないでしょう：いくつかのオブジェクトのセットがあり、それぞれに正確にそれが何であるかを決定する「確率」の表があります。各オブジェクトのテーブル内のすべての要素を並べ替え、論理構造を構築し、有効なオブジェクトから最も可能性の高いもの（個々のオブジェクトのメトリックの合計による）を選択します。おそらくアルゴリズムの指数関数的な複雑さを除いて、ビジネス。

ただし、実際には、通常、デフォルトでオブジェクトのタイプを判別する必要があります。つまり、画像内のオブジェクトの既製の解釈を選択するために、わずかに変更することが可能です。前のステップ（ベクトル化）でオブジェクトのタイプを選択できなかったのはなぜですか？すべてのオブジェクトに関する十分な統計情報がありませんでした。画像全体から特定のピクセルセットを分離して解釈すると、その意味を確実に判断することが問題になります。

これは、構造情報を認識する上で最も重要な問題の1つです。彼は単にピクセルを個別に見る方法を知らないので、これを持っている人にとっては車よりもはるかに優れています。そして、OCRシステムを構築する際の失望の初期段階の1つは、一見人間的なアプローチを「段階的に」アルゴリズム化し、不満足な結果を得る試みです。現時点では、プリミティブの認識アルゴリズムを少し改善して「誤解」しないようにする価値があり、より良い結果が得られるようですが、常に論理を「破る」写真がいくつかあります。

そして、私たちはそれが何であるかを人に尋ねます-

もちろん、これは単なる曲線です。しかし、シンボルまたは直線セグメントのセットとしてランク付けする必要がある場合、それは何ですか？次に、これはほとんどの場合、文字「l」または斜めの2本の直線のいずれかです（角だけが丸く描かれます）。しかし、正しい解釈を選択する方法は？前のステップのマシンは、おおよその問題を解決し、1/2の確率で正しく解決することもできます。しかし、1/2は構造情報の認識システムの完全な崩壊であり、構造を台無しにしてしまいます。検証に合格しません。「エラー」を修正する必要があります。 .

, :

, - (, ). , , , « » — .

:

, , «» , , . , , , — . , «Cl» () , , - «l».

. .

:

«» ( ), C, .

, .

:

;
, ;
;
, ;
, hu moments ( OpenCV ).

, — , , — " ".

, : ( __-1 __+2, 3*__ 0.5* ), . , .

. — . , , - ( ). «» ( — , «l» , «l». , ).

:

;
, ;
: , .

« » — .

, , .

. , .

, Imago OCR , , ( ), . , . , . , .

, . , — , «» «», :

, «» , :

— . , , , , .

:

— (, ). , , , — ( , — ).

, . , «» ( ), «». , , — «» .

, «» . , — .

« » :

( baseline_y), , — . baseline_y :

( );
y , .

, ( )? ; , , , « ». baseline_y , — .

, . :

% , ;
.

: 30% — . 29? duck test. - , — . , - .

? , . . ( , ?). . , :

k% , f(k) ;
n% , , a..z g(n) .

, — , . «» .

— . — : — , , — . .

: {c1, c2}

c1 — «Y» 0.1 «X» 0.4;

c2 — «c» 0.3 «e» 0.8

, — Yc . Yc . . — .

4 , " Xe ", 1.2.

, . , «Yc» , . , (1.2) (0.4), (0.8). , , . ?

, , ? , , ?

— , . , , .

, — , . , . .

, , , , , , ; ( ) . , , — .

結論の代わりに

« » OCR , . , , , , . .

, , open-source Imago OCR , google .

Imago OCRの例を使用した構造情報の光学認識システムの構築