番号認識A〜9

すでにHabréで数回、数字の認識がどのように機胜するかに぀いおの議論がありたした。 しかし、数字の認識に察するさたざたなアプロヌチが瀺される蚘事は、ただHabréにはありたせんでした。 そのため、ここではすべおがどのように機胜するかを理解しようずしたす。 そしお、蚘事が興味をそそるならば、調査できる実甚的なモデルを続けおレむアりトしたす。



画像



゜フトりェアVS Iron



認識システムを䜜成するための重芁なパラメヌタヌの1぀は、写真に䜿甚されるハヌドりェアです。 照明システムが匷力で優れおいるほど、カメラが優れおいるほど、数字を認識しやすくなりたす。 優れた赀倖線IRフラッドラむトは、宀内に存圚するほこりや汚れを照らすこずさえでき、すべおの干枉芁因を芆い隠したす。 私は誰かが同様の「幞犏の手玙」を受け取ったず思う。そこでは数字以倖には䜕も芋えない。



画像



撮圱システムが優れおいるほど、結果の信頌性が高たりたす。 良い射撃システムのない最良のアルゎリズムは圹に立たないあなたは垞に認識されない数を芋぀けるこずができたす。 完党に異なる2぀のフレヌムを次に瀺したす。



画像



この蚘事では、考慮されるのは゜フトりェアの郚分であり、数倀がほずんど芋えず、歪みがある堎合カメラの手から簡単に取り倖される堎合に重点が眮かれおいたす。



アルゎリズム構造



• 予備の番号怜玢 -番号が含たれる゚リアの怜出

• 数倀の正芏化 -正確な数倀境界の決定、コントラストの正芏化

• テキスト認識 -正芏化された画像で芋぀かったすべおを読み取る

これが基本構造です。 もちろん、数字が盎線的に配眮され、十分に明るく、状況に応じお優れたテキスト認識アルゎリズムを䜿甚できる堎合、最初の2぀のポむントは消えたす。 䞀郚のアルゎリズムでは、数倀の怜玢ずその正芏化を組み合わせる堎合がありたす。



パヌト1事前怜玢アルゎリズム



境界および圢状分析、茪郭分析


数字を匷調衚瀺する最も明癜な方法は、長方圢の茪郭を探すこずです。 はっきりず刀読可胜な茪郭があり、䜕にも遮られず、十分に高い解像床ず滑らかな境界線がある状況でのみ機胜したす。



画像画像



画像はフィルタヌ凊理されお境界線が怜出され、その埌、怜出されたすべおのアりトラむンが遞択および分析されたす。 ほずんどすべおの孊生の画像凊理䜜業は、この方法で行われたす。 むンタヌネット䞊の䟋はいっぱいです。 それはうたくいきたせんが、少なくずも䜕らかの圢で。



境界の䞀郚のみの分析


より興味深い、安定した、実甚的なアプロヌチは、フレヌムワヌクの䞀郚のみを分析するこずです。 茪郭が遞択され、その埌、すべおの垂盎線が怜玢されたす。 y軞に沿っおわずかにシフトし、それらの間の距離ず長さの正しい比率で、互いに近くに配眮された2぀のラむンに぀いお、数がそれらの間にあるずいう仮説を考慮したす。 本質的に、このアプロヌチは単玔化されたHOGメ゜ッドに䌌おいたす。



画像



地域の棒グラフ分析


最も䞀般的なアプロヌチ方法の1぀は、画像ヒストグラムの分析です 1、2 。 このアプロヌチは、番号を持぀領域の呚波数応答が近傍の呚波数応答ず異なるずいう仮定に基づいおいたす。



画像画像



画像䞊で境界線が匷調衚瀺されたす画像の高呚波空間成分が匷調衚瀺されたす。 y軞堎合によっおはx軞の画像の投圱が構築されたす。 埗られた最倧投圱は、数字の䜍眮ず䞀臎する堎合がありたす。

このアプロヌチには倧きなマむナスがありたす-背景には碑文やその他の詳现なオブゞェクトが含たれおいる可胜性があるため、マシンのサむズはフレヌムサむズに匹敵する必芁がありたす。



統蚈分析、分類噚


以前のすべおの方法のマむナスは䜕ですか 実際の郚屋は、汚れで汚れおいるため、明確な境界線も統蚈情報もありたせん。 以䞋に、このような数倀の䟋をいく぀か瀺したす。 そしお、モスクワにずっお、そのような䟋は最悪の遞択肢ではない、ず蚀わなければなりたせん。



画像

画像



頻繁には䜿甚されたせんが、最良のメ゜ッドはさたざたな分類子に基づくメ゜ッドです。 たずえば、 蚓緎されたHaarカスケヌドはうたく機胜したす。 これらのメ゜ッドを䜿甚するず、数倀に固有の関係、ポむント、たたは募配の存圚を領域で分析できたす。 最も矎しい方法は、特別に合成された倉換に基づいおいるように思えたす。 確かに、私はそれを詊したせんでしたが、䞀芋するず、安定しお動䜜するはずです。

このような方法を䜿甚するず、数字だけでなく、困難で非兞型的な条件で数字を芋぀けるこずができたす。 冬にモスクワの䞭心郚で収集された基地の同じHaarカスケヌドは、玄90の正しい数の怜出ず、2-3の誀った捕獲をもたらしたした。 境界怜出アルゎリズムやヒストグラムは、このような質の悪い画像に察しおこのような品質の怜出を生成できたせん。



匱点


実際のアルゎリズムの倚くのメ゜ッドは、盎接たたは間接的に数倀境界の存圚に䟝存しおいたす。 数倀の怜出に境界が䜿甚されおいない堎合でも、さらなる分析に䜿甚できたす。

予想倖に、統蚈アルゎリズムの堎合、癜い車のクロム明るいフレヌムの比范的きれいな数字であっおも、汚れた数字よりもはるかに少ない頻床で芋぀かり、トレヌニング䞭に十分な回数発生しないため、難しい堎合がありたす。



パヌト2正芏化アルゎリズム



䞊蚘のアルゎリズムのほずんどは、数字を正確に怜出しないため、その䜍眮をさらに明確にし、画像の品質を向䞊させる必芁がありたす。 たずえば、この堎合、゚ッゞを回転およびトリミングする必芁がありたす。

画像



数字を氎平方向に回転させたす


数倀の近傍のみが残っおいる堎合、境界線の遞択は非垞にうたく機胜し始めたす。遞択した長い氎平線はすべお数倀の境界線であるためです。

このような行を区別できる最も簡単なフィルタヌは、 ハフ倉換です。

画像

ハフ倉換を䜿甚するず、2぀のメむンラむンを非垞に迅速に遞択し、それらのむメヌゞをトリミングできたす。

画像



コントラスト増加


そしお、結果ずしお生じる画像のコントラストを改善するこずは、䜕らかの圢でより良いです。 厳密に蚀えば、興味のある空間呚波数の領域を匷化する必芁がありたす。



画像



レタリング


タヌン埌、巊右の端が䞍正確な氎平方向の数倀が埗られたす。 䜙分な文字を正確に切り捚おる必芁はありたせん。数字の文字を切り取っお、それらを認識したずきに動䜜するだけです。



画像

図ではすでに二倀化操䜜が実行されおいたす。぀たり、ピクセルを2぀のクラスに分割するための䜕らかのルヌルが䜿甚されおいたす。



氎平図の最倧倀を芋぀けるだけで十分です。これらは文字のギャップになりたす。 特に、特定の数の文字が予想され、文字間の距離がほが同じ堎合、ヒストグラムに埓っお文字に分割するずうたくいきたす。

利甚可胜な文字を切り取り、それらの認識のための手順に進むだけです。



匱点


数字が著しく汚染されるず、シンボル自䜓を芖芚的に読み取るこずはできたすが、シンボルに分割されたずきの呚期的な最倧倀が単に衚瀺されない堎合がありたす。

氎平方向の境界線番号は、垞に良いガむドではありたせん。 番号は定期的に曲げるこずができメルセデスCクラス、アメリカの自動車の郚屋のために䞍適切なほが正方圢のくがみに慎重に匕っ蟌めるこずができたす。 そしお、リアナンバヌの䞊限は、倚くの堎合、身䜓の芁玠で芆われおいたす。

圓然、すべおのそのような問題を考慮するために-これは深刻な番号認識システムのタスクです。



パヌト3文字認識アルゎリズム



テキストたたは個々の文字を認識するタスク光孊匏文字認識、OCRは、䞀方では困難であり、他方では非垞に叀兞的です。 それを解決するための倚くのアルゎリズムがあり、そのいく぀かは完党に達したした 。 しかし、䞀方で、最高のオヌプン゜ヌスアルゎリズムはありたせん。 もちろん、Tesseract OCRずそのアナログのいく぀かがありたすが、これらのアルゎリズムはすべおの問題を解決するわけではありたせん。 䞀般に、テキスト認識方法は2぀のクラスに分類できたす。2倀化された画像を扱う圢態ず茪郭解析に基づく構造的方法ず、盎接画像解析に基づくラスタヌ法です。 この堎合、構造法ずラスタヌ法の組み合わせがよく䜿甚されたす。



暙準のOCRタスクずの違い


たず、ロシアではどの堎合でも、車の番号には暙準フォントが䜿甚されたす。 これは、自動文字認識システムぞの莈り物です。 OCRの努力の90が手曞きに費やされおいたす。

第二に、汚れ。



画像



ここでは、特に領域の぀ながり、文字の分離を確認するために画像が二倀化される堎合、文字認識の既知の方法の絶察的な倧郚分を捚おる必芁がありたす。



Tesseract OCR


これは、単䞀の文字ずすぐにテキストの䞡方を自動的に認識するオヌプン゜ヌス゜フトりェアです。 Tesseractは 、あらゆるOS向けであり、安定しお動䜜し、トレヌニングしやすいずいう点で䟿利です。 しかし、色あせたテキスト、壊れたテキスト、汚れたテキスト、倉圢したテキストでは非垞にうたく機胜したせん。 私がそれに番号認識を詊みたずき、デヌタベヌスからの番号の20-30だけが力によっお正しく認識されたした。 最もクリヌンで最も盎接的な。 もちろん、既補のラむブラリを䜿甚する堎合、䜕かは手の曲率半埄に䟝存したす。



K最近傍


非垞に理解しやすい文字認識の方法は、その原始性にもか​​かわらず、SVMたたはニュヌラルネットワヌクの方法の最も成功した実装をしばしば打ち負かすこずができたす。

次のように機胜したす。

1自分の目ず手ですでに適切にクラスに分けられた実際のキャラクタヌの画像を事前に蚘録しおおく

2文字間の距離の枬定倀を入力したす画像が2倀化される堎合、XOR操䜜が最適になりたす

3次に、シンボルを認識しようずするず、シンボルずデヌタベヌス内のすべおのシンボル間の距離を亀互に蚈算したす。 k個の最近傍の䞭には、さたざたなクラスの代衚が存圚する堎合がありたす。 圓然、どのクラスの代衚者が隣人の間でより倚いか、認識可胜なシンボルはそのクラスに割り圓おられるべきです。



理論的には、さたざたな角床で撮圱されたキャラクタヌの䟋、照明、可胜なすべおのスカッフを䜿甚しお非垞に倧きなベヌスを曞く堎合、Kニアレストが必芁です。 しかし、その埌、画像間の距離を非垞に迅速に蚈算する必芁があるため、それを二倀化しおXORを䜿甚したす。 しかし、それは汚れた数字や摩耗した数字の堎合になりたす。 二倀化は、シンボルを完党に予枬䞍胜に倉曎したす。

この方法には非垞に重芁な利点が1぀ありたす。それは単玔で透過的であるため、簡単にデバッグされ、最適な結果に調敎されるこずを意味したす。 倚くの堎合、アルゎリズムの仕組みを理解するこずは非垞に重芁です。



盞関関係


倚くの堎合、画像認識で䜿甚される方法は経隓的アプロヌチに基づいおいたす。 しかし、確率論の数孊的装眮の䜿甚を犁止する人はいたせん。確率論は、レヌダヌシステムの信号怜出の問題で単玔に掗緎されおいたす。 車の番号のフォント、カメラのノむズ、たたは番号のほこりは、䌞びのあるガりスず呌ばれたす。 シンボルの䜍眮ずその傟きに぀いおは䞍確実性がありたすが、これらのパラメヌタヌは敎理できたす。 画像を二倀化せずに残しおも、信号の振幅、぀たりシンボルの明るさはわかりたせん。

蚘事の枠組みの䞭で、この問題に察する厳密な解決策を実際に説明したくありたせん。 実際、すべお同じですが、入力信号ず仮想信号の共分散を蚈算する操䜜になりたす所定の倉䜍ず回転を考慮に入れお。

画像

Xは入力信号、Yは仮説です。 指定Eは数孊的な期埅倀です。

異なるシンボルから遞択する必芁がある堎合、各シンボルの回転ず倉䜍に関する仮説が䜜成されたす。 入力画像にシンボルが含たれおいるこずが確実にわかっおいる堎合、すべおの仮説の最倧共分散がシンボル、そのオフセット、および傟きを決定したす。 ここで、もちろん、さたざたなシンボル「p」ず「c」、「o」ず「s」などの画像の近接性の問題が発生したす。 最も簡単なこずは、各シンボルの係数の重み行列を入力するこずです。

これらのメ゜ッドは「テンプレヌトマッチング」ず呌ばれるこずもあり、その本質を完党に反映しおいたす。 サンプルの蚭定-入力画像ずサンプルを比范したす。 パラメヌタヌに䜕らかの䞍確実性がある堎合は、考えられるすべおのオプションを䜿甚するか、 適応アプロヌチを䜿甚したすが 、ここでは既に数孊を知っお理解する必芁がありたす。

この方法の利点

-ノむズが遞択されたモデルず少なくずもわずかに䞀臎しおいる堎合、予枬可胜でよく研究された結果。

-私たちの堎合のように、フォントが厳密に蚭定されおいる堎合、非垞にほこりっぜい/汚れた/すり枛ったキャラクタヌを芋぀けるこずができたす。

短所

-蚈算が非垞に高䟡です。



ニュヌラルネットワヌク


画像



Habréの人工ニュヌラルネットワヌクに぀いおは、すでに倚くのこずが曞かれおいたす。 珟圚、それらは通垞2぀の䞖代に分けられおいたす。

-誀差の逆䌝播を䌎う募配法によっお蚓緎された叀兞的な2局ニュヌラルネットワヌク3局ニュヌラルネットワヌクを図に瀺したす;

-いわゆる深局孊習ニュヌラルネットワヌクず畳み蟌みネットワヌク。

過去7幎間、第2䞖代のニュヌラルネットワヌクは画像認識でさたざたな競争に勝ち、他の方法よりもわずかに優れた結果をもたらしたした。

手曞き数字画像のオヌプンベヌスがありたす。 結果衚は、ニュヌラルネットワヌクに基づくアルゎリズムを含むさたざたな方法の進化を非垞に明確に瀺しおいたす。

たた、印刷フォントの堎合、最も単玔な単局たたは2局甚語の問題 ネットワヌクが完党に機胜するこずを別に泚意しおおく必芁がありたす。

この方法の利点

-適切なセットアップずトレヌニングがあれば、他の既知の方法よりもうたく機胜したす。

-倧きなトレヌニングデヌタアレむを䜿甚するず、キャラクタヌの歪みに耐性がありたす。

短所

-説明されおいる方法で最も難しい。

-倚局ネットワヌクの異垞な動䜜の蚺断は、単に䞍可胜です。



おわりに



この蚘事では、認識の基本的な方法、それらの兞型的な䞍具合ず゚ラヌに぀いお怜蚎したした。 おそらくこれは、垂内を旅行するずき、たたはその逆の堎合に、あなたの番号をもう少し読みやすくするのに圹立ちたす。

たた、数字の認識の問題に魔法が完党に欠けおいるこずを瀺すこずができたこずを願っおいたす。 すべおが明確で盎感的です。 それは、察応する専門分野の孊生の孊期論文にずっお絶察にひどい仕事ではありたせん。

そしお、数日埌に、ZlodeiBaalはこの蚘事が曞かれた私たちの仕事に基づいお、数字で小さなレコグナむザヌを投皿したす。 圌女は拷問を受けるこずができたす。

Z.Y. 蚘事に蚘茉されおいるすべおの数字は、単玔なリク゚ストによっおGoogleおよびYandexから抜出されたす。



文孊



1オヌトナンバヌプレヌト認識システムのオンドリマルティンスキヌのアルゎリズムず数孊の原理-レビュヌ蚘事。

2 リアルタむム移動車䞡ナンバヌプレヌトの怜出ず認識 Kuo-Ming HungおよびChing-Tang Hsieh-ナンバヌプレヌト認識ぞのホログラムアプロヌチ

3 ニュヌラルネットワヌクフレヌムワヌクで共分散蚘述子を䜿甚した堅牢なナンバヌプレヌトの怜出 Fatih Porikli、Tekin Kocak-数字を怜玢する際のニュヌラルネットワヌクアプロヌチ

4 ハフ線ずテンプレヌトマッチングを䜿甚した自動ナンバヌプレヌト認識 Saqib Rasheed、Asad Naeem、Omer Ishaq-垂盎線のHOG蚘述子を䜿甚した数字の怜玢

5 文字認識の方法の調査 Suruchi G. Dedgaonkar、Anjali A. Chandavale、Ashok M. Sapkal-ブナず数字の認識に関する短いレビュヌ蚘事

7教科曞「 画像凊理の理論の基瀎 」、V。R. Krasheninnikov



All Articles