パタヌン認識に関するいく぀かの蚀葉

私は長い間、画像認識の基本、基本的な方法のガむド、䜿甚するタむミング、解決するタスク、倕方に膝の䞊でできるこず、チヌムなしで考えない方が良いこずを含む䞀般的な蚘事を曞きたいず思っおいたした20で。

画像






光孊認識に関する蚘事をかなり前に曞いおいるので、月に数回、このトピックに関する質問をするさたざたな人々を曞いおいたす。 異なる䞖界で圌らず䞀緒に䜏んでいるような気分になるこずがありたす。 䞀方では、人は関連するトピックの専門家である可胜性が高いこずを理解しおいたすが、光孊認識方法に぀いおはほずんど知識がありたせん。 そしお最も厄介なこずは、圌が近くの知識の分野からの方法を適甚しようずしおいるずいうこずです。これは論理的ですが、画像認識では完党に機胜したせんが、これを理解しおおらず、非垞に基本的なこずから䜕かを話し始めるず非垞に気分を害したす。 そしお、基本から蚀うず、倚くの時間はそこにしばしばありたすが、それはただ悲しいこずです。



この蚘事の目的は、画像認識方法を扱ったこずのない人が、被写䜓に察応する䞖界の特定の基本的な絵を頭の䞭に䜜成し、掘る方向を理解できるようにするこずです。 ここで説明する方法の倚くは、レヌダヌおよび音声凊理に適甚されたす。

私は、朜圚的な顧客、たたは光孊認識の䜜業を開始したい人に垞に䌝え始めるいく぀かの原則から始めたす。



ある皮の普遍的なアドバむスをしたり、任意のコンピュヌタヌビゞョンの問題の解決策を構築できるような構造を䜜成する方法を䌝えるこずは非垞に困難です。 この蚘事の目的は、䜿甚できるものを構造化するこずです。 既存のメ゜ッドを3぀のグルヌプに分けおみたす。 最初のグルヌプは、事前フィルタリングず画像準備です。 2番目のグルヌプは、フィルタリング結果の論理凊理です。 3番目のグルヌプは、論理凊理に基づく意思決定アルゎリズムです。 グルヌプ間の境界は非垞にarbitrary意的です。 問題を解決するために、すべおのグルヌプからメ゜ッドを適甚するこずは垞に必芁ずいうわけではありたせん; 2぀、時には1぀でも十分です。



ここに蚘茉されおいるメ゜ッドのリストは完党ではありたせん。 私が曞いおいないコメントに重芁なメ゜ッドを远加し、それぞれに2〜3個の付随する単語を割り圓おるこずをお勧めしたす。



パヌト1.フィルタリング



このグルヌプでは、画像を分析せずに画像䞊の関心のある領域を遞択できるメ゜ッドを配眮したす。 これらの方法のほずんどは、画像のすべおのポむントに䜕らかの均䞀な倉換を適甚したす。 フィルタリングレベルでは、画像分析は実行されたせんが、フィルタリングを通過するポむントは特別な特性を持぀領域ず芋なすこずができたす。



しきい倀の二倀化、ヒストグラム領域の遞択


最も単玔な倉換は、しきい倀による画像の2倀化です。 RGB画像ずグレヌスケヌル画像の堎合、しきい倀は色の倀です。 このような倉換で十分な理想的な問題がありたす。 癜い玙の䞊のオブゞェクトを自動的に遞択するずしたす。

画像

画像

2倀化が発生するしきい倀の遞択により、2倀化のプロセス自䜓が倧きく決たりたす。 この堎合、画像は䞭間色で2倀化されおいたす。 通垞、2倀化は、しきい倀を適応的に遞択するアルゎリズムを䜿甚しお実行されたす。 そのようなアルゎリズムは予想かモヌドの遞択であるかもしれたせん。 たた、ヒストグラムの最倧ピヌクを遞択できたす。

画像

RGBではなくHSVで画像を衚瀺しおいる状況を含め、ヒストグラムを操䜜する堎合、2倀化は非垞に興味深い結果をもたらしたす。 たずえば、興味深い色をセグメント化したす。 この原理に基づいお、 タグ怜出噚ず人間の皮膚怜出噚の䞡方を構築するこずができたす。

画像画像



クラシックフィルタリングフヌリ゚、ロヌパスフィルタヌ、ハむパスフィルタヌ


レヌダヌおよび信号凊理からの叀兞的なフィルタリング方法は、倚くのパタヌン認識タスクに正垞に適甚できたす。 レヌダヌでの埓来の方法は、玔粋な画像ではほずんど䜿甚されたせんが、 フヌリ゚倉換 より具䜓的にはFFT です。 1次元フヌリ゚倉換を䜿甚する数少ない䟋倖の1぀は、 画像圧瞮です。 画像を分析するには、通垞、1次元の倉換では十分ではありたせん。リ゜ヌスを集䞭的に䜿甚する2次元の倉換を䜿甚する必芁がありたす。

画像

実際に蚈算する人はほずんどいたせん。通垞、既補のフィルタヌを䜿甚しお関心領域の畳み蟌みを䜿甚するず、高呚波数高域たたは䜎呚波数䜎域に合わせおはるかに速く簡単に䜿甚できたす。 もちろん、そのような方法ではスペクトルの分析はできたせんが、特定のビデオ凊理の問題では、結果ではなく分析が通垞必芁です。

画像

画像

䜎呚波数 ガりスフィルタヌ ず高呚波数 ガボヌルフィルタヌ を匷調するフィルタヌの最も簡単な䟋。

各画像ポむントに察しお、りィンドりが遞択され、同じサむズのフィルタヌで乗算されたす。 この畳み蟌みの結果は、新しいポむント倀です。 ロヌパスフィルタヌずハむパスフィルタヌを実装するず、このタむプの画像が取埗されたす。

画像

画像

りェヌブレット


しかし、信号ずの畳み蟌みに任意の特性関数を䜿甚するずどうなりたすか その埌、 りェヌブレット倉換ず呌ばれたす。 りェヌブレットのこの定矩は正しくありたせんが、倚くのチヌムでは、りェヌブレット解析は、このパタヌンのモデルずの畳み蟌みを䜿甚しお、画像内の任意のパタヌンの怜玢を指すず䌝統的に開発されおきたした。 りェヌブレット分析で䜿甚される䞀連の叀兞的な関数がありたす。 これらには、 Haar りェヌブレット、Morlet りェヌブレット、Mexican hatりェヌブレットなどが含たれたす。 以前の蚘事 1、2 のいく぀かがあったHaarプリミティブは、このような2次元空間の関数に関連しおいたす。

画像画像

画像画像

䞊蚘は、叀兞的なりェヌブレットの4぀の䟋です。 3次元Haarりェヌブレット、2次元Meyerりェヌブレット、Mexican Hatりェヌブレット、Daubechiesりェヌブレット。 りェヌブレットの拡匵解釈を䜿甚する良い䟋は、目のグレアを芋぀ける問題です。グレア自䜓はりェヌブレットです。

画像

叀兞的なりェヌブレットは通垞、 画像を圧瞮したり、それらを分類するために䜿甚されたす以䞋で説明したす。



盞関関係


りェヌブレットのこのような自由な解釈の埌、私の偎では、それらの根底にある実際の盞関に蚀及する䟡倀がありたす。 画像をフィルタリングする堎合、これは䞍可欠なツヌルです。 叀兞的なアプリケヌションは、ビデオストリヌムを盞関させおシフトたたは光ストリヌムを芋぀けるこずです。 ある意味では、最も単玔なシフト怜出噚は差分盞関噚です。 画像が盞関しない堎合、動きがありたした。

画像画像

画像



関数フィルタリング


フィルタの興味深いクラスは、関数のフィルタリングです。 これらは、画像内の単玔な数孊関数線、攟物線、円を怜出できる玔粋に数孊的なフィルタヌです。 蓄積画像が構築され、元の画像の各点に察しお、それを生成する倚くの関数が生成されたす。 最も叀兞的な倉換は、盎線のハフ倉換です。 この倉換では、各点x; yに察しお、線y = ax + bの点のセットa; bが描かれたす。 矎しい写真になりたす

画像

最初のプラスは、写真ずその定矩でキャッチを最初に芋぀けお説明する人に、2番目のプラスは、ここに瀺されおいるこずを最初に蚀う人にありたす

ハフ倉換を䜿甚するず、パラメヌタヌ化可胜な関数を芋぀けるこずができたす。 たずえば、 circles 。 任意の圢状を怜玢できる倉曎された倉換がありたす。 この倉換は数孊者に非垞に愛されおいたす。 しかし、画像を凊理する堎合、残念ながら垞に機胜するずは限りたせん。 非垞に遅い速床、2倀化の品質に察する非垞に高い感床。 理想的な状況であっおも、他の方法で察凊するこずを奜みたした。

盎線のハフ倉換の類䌌物は ラドン倉換です。 これはFFTを介しお蚈算され、倚くのポむントがある状況でパフォヌマンスが向䞊したす。 さらに、2倀化されおいない画像にも適甚できたす。



ルヌプフィルタリング


フィルタの別のクラスは、境界線ず茪郭のフィルタリングです。 アりトラむンは、画像の操䜜からその画像内のオブゞェクトの操䜜に移行する堎合に非垞に圹立ちたす。 オブゞェクトが非垞に耇雑であるが、十分に区別されおいる堎合、倚くの堎合、オブゞェクトを操䜜する唯䞀の方法はその茪郭を遞択するこずです。 回路のフィルタリングの問題を解決するアルゎリズムがいく぀かありたす。



最もよく䜿甚されるのはケニヌです。圌はうたく機胜し、その実装はOpenCVで行われおいたすSobelもありたすが、茪郭をより悪く探しおいたす。

画像

画像



その他のフィルタヌ


フィルタヌは䞊にありたすが、その修正はタスクの80-90を解決するのに圹立ちたす。 ただし、それらのほかに、ロヌカルタスクで䜿甚されるよりたれなフィルタヌがありたす。 このようなフィルタヌは倚数ありたすが、それらすべおを提䟛するわけではありたせん。 反埩フィルタヌたずえば、 倖芳のアクティブモデル は、ラドン倉換の分野での叀兞的なりェヌブレットフィルタヌ凊理ず分析の合金であるリッゞ倉換ず曲線倉換ず同様に興味深いものです。 ビヌムレット倉換は、りェヌブレット倉換ず論理解析の境界で矎しく機胜し、茪郭を匷調できたす。

画像

しかし、これらの倉換は非垞に具䜓的であり、たれなタスクに適しおいたす。



パヌト2.フィルタリング結果の論理凊理



フィルタリングは、凊理に適したデヌタのセットを提䟛したす。 しかし、倚くの堎合、このデヌタを凊理せずにそのたた䜿甚するこずはできたせん。 このセクションでは、画像からオブゞェクトのプロパティ、たたはオブゞェクト自䜓に切り替えるこずができるいく぀かの叀兞的な方法がありたす。



圢態孊


私の意芋では、ろ過から論理ぞの移行は数孊的圢態孊の方法です 1、2、3 。 実際、これらはバむナリむメヌゞの構築ず収瞮の最も単玔な操䜜です。 これらの方法を䜿甚するず、利甚可胜な芁玠を増枛するこずにより、バむナリむメヌゞからノむズを陀去できたす。 数孊的モルフォロゞヌに基づいた茪郭アルゎリズムがありたすが、通垞、䜕らかのハむブリッドアルゎリズムたたはアルゎリズムを組み合わせお䜿甚​​したす。

画像



茪郭解析


フィルタリングのセクションでは、すでに境界生成アルゎリズムに぀いお蚀及しおいたす。 結果の境界は、非垞に単玔に茪郭に倉換されたす。 ケニヌのアルゎリズムの堎合、これは自動的に行われたすが、他のアルゎリズムの堎合、远加の二倀化が必芁です。 バグアルゎリズムなどにより、バむナリアルゎリズムの茪郭を取埗できたす。

茪郭は、オブゞェクトの固有の特性です。 倚くの堎合、これにより茪郭に沿っおオブゞェクトを識別できたす。 これを行う匷力な数孊的装眮がありたす。 この装眮は茪郭解析 1、2 ず呌ばれたす。

画像

正盎に蚀うず、茪郭解析を実際の問題に適甚するこずに成功したこずはありたせん。 理想的な条件が必芁です。 境界線がないか、ノむズが倚すぎたす。 しかし、理想的な条件で䜕かを認識する必芁がある堎合、茪郭解析は玠晎らしいオプションです。 非垞に高速で、矎しい数孊ず明確なロゞックが機胜したす。



特城点


特別なポむントずは、オブゞェクトをオブゞェクト自䜓たたは類䌌のオブゞェクトクラスにマップできるようにするオブゞェクトの固有の特性です。 そのような点を匷調する方法は数十ありたす。 隣接するフレヌムの特異点を匷調衚瀺するメ゜ッドもあれば、長時間にわたっお照明を倉曎するずき、オブゞェクトを回転させたずきにも残る特別なポむントを芋぀けるこずができるメ゜ッドもありたす。 それほど安定しおいないが、すぐに蚈算される特異点を芋぀けるこずができる方法から始めたしょう。次に、耇雑さを増しおいきたす。

ファヌストクラス。 数秒間安定しおいる特別なポむント。 このようなポむントは、ビデオの隣接するフレヌム間でオブゞェクトを誘導したり、隣接するカメラの画像を瞮小したりするのに圹立ちたす。 これらのポむントには、画像の局所的な最倧倀、画像内の角床 最高の怜出噚、おそらくハリス怜出噚、分散の最倧倀に到達する点、特定の募配などが含たれたす。

2番目のクラス。 オブゞェクトの照明ず小さな動きを倉曎するずきに安定しおいる特別なポむント。 このようなポむントは、䞻にトレヌニングずその埌のオブゞェクトタむプの分類に圹立ちたす。 たずえば、歩行者分類噚たたは顔分類噚は、そのような点に特化しお構築されたシステムの補品です。 前述のりェヌブレットのいく぀かは、そのようなポむントの基瀎になる堎合がありたす。 たずえば、Haarプリミティブ、グレアの怜玢、他の特定の機胜の怜玢。 このようなポむントには、有向募配のヒストグラム HOG の方法で芋぀かったポむントが含たれたす。

3幎生。 安定したポむント。 私は、完党な安定性を提䟛する2぀の方法ず、それらの倉曎に぀いおのみ知っおいたす。 これらはSURFずSIFTです。 画像を回転させおも特別なポむントを芋぀けるこずができたす。 このようなポむントの蚈算には、他の方法ず比范しお時間がかかりたすが、かなり時間がかかりたす。 残念ながら、これらの方法は特蚱を取埗しおいたす。 ロシアでは、特蚱アルゎリズムはnizyaですが、囜内垂堎で䜿甚しおください。





パヌト3.トレヌニング



ストヌリヌの最埌の郚分は、画像を盎接操䜜するのではなく、意思決定を可胜にする方法に専念したす。 これらは䞻に機械孊習ず意思決定のさたざたな方法です。 最近YandyksはHabrにこのテヌマのコヌスを投皿したした。非垞に良い遞択がありたす。 これはテキスト版です。 トピックに関する真剣なレッスンのために、それらを芋るのを匷くお勧めしたす。 ここでは、特にパタヌン認識で䜿甚されるいく぀かの基本的な方法を特定しようずしたす。

状況の80で、認識問題のトレヌニングの本質は次のずおりです。

オブゞェクトのいく぀かのクラスがあるテスト遞択がありたす。 写真の䞭の人の存圚/䞍圚ずしたす。 各画像には、Haar、HOG、SURF、たたは䜕らかのりェヌブレットなど、䜕らかの機胜によっお匷調衚瀺された䞀連の機胜がありたす。 孊習アルゎリズムは、新しい画像を分析し、どのオブゞェクトが画像䞊にあるかを刀断できるモデルを構築する必芁がありたす。

これはどのように行われたすか 各テスト画像は、特城空間のポむントです。 その座暙は、画像内の各暙識の重みです。 サむンを次のようにしたす。「目の存圚」、「錻の存圚」、「䞡手の存圚」、「耳の存圚」など。人間。 そのようなスペヌスにいる人にずっお、ポむント[1; 1; 1; 1; ..]は正しいでしょう。 サルの堎合、ポむント[1; 0; 1; 0 ...]で、りマの堎合[1; 0; 0; 0 ...]。 分類噚は䟋のサンプルでトレヌニングされたす。 しかし、すべおの写真ですべおの手が目立ったわけではなく、他の人には目がありたせんでした。3番目の猿では、分類゚ラヌのために人間の錻がありたした。 人の蚓緎された分類噚は、次のような方法で蚘号のスペヌスを自動的に分割したす。最初の蚘号が0.5 <x <1の範囲にある堎合、2番目は0.7 <y <1などです。これは人です。

本質的に、分類子の目的は、属性オブゞェクトに分類オブゞェクトに特城的な領域を描画するこずです。 これは、2次元空間での分類子の1぀AdaBoostの答えに察する䞀貫した近䌌がどのように芋えるかです。

画像画像画像

画像

非垞に倚くの分類子がありたす。 それぞれが独自のタスクでより良く機胜したす。 特定のタスクの分類子を遞択するタスクは、䞻に芞術です。 トピックに関するいく぀かの矎しい写真を以䞋に瀺したす。



単玔な堎合、1次元の分離


䟋ずしお、属性空間が1次元であり、2぀のクラスを分離する必芁がある堎合の分類の最も単玔なケヌスを調べおみたしょう。 状況は芋かけよりも䞀般的です。たずえば、2぀の信号を区別したり、パタヌンをパタヌンず比范したりする必芁がある堎合です。 トレヌニングサンプルを甚意したす。 この堎合、X軞に沿った類䌌性の枬床ず、Y軞に沿ったそのような枬床を持぀むベントの数の画像が取埗されたす。 目的のオブゞェクトが自分自身に䌌おいるず、巊のガりス型になりたす。 奜きではない堎合-右。 X = 0.4の倀はサンプルを分割するため、誀った決定により、誀った決定が行われる可胜性が最小限に抑えられたす。 分類の問題は、このようなセパレヌタヌの怜玢です。

画像

ちょっずした発蚀。 ゚ラヌを最小化する基準は垞に最適ずは限りたせん。 次のグラフは、実際の虹圩認識システムのグラフです。 このようなシステムの堎合、基準は、郚倖者がオブゞェクトに誀っおパスする可胜性を最小限に抑えるように遞択されたす。 このような確率は、「第1皮の間違い」、「誀報の確率」、「誀反応」ず呌ばれたす。 英文孊では「False Access Rate」。

画像



3぀以䞊の枬定がある堎合はどうすればよいですか


たくさんのアルゎリズムがありたす。 でもたくさん。 それぞれに぀いお詳しく知りたい堎合は、䞊蚘のリンク先のVorontsovコヌスを読み、Yandyksの講矩をご芧ください。 どのアルゎリズムがどのタスクに最適であるかを蚀うこずは、倚くの堎合事前に䞍可胜です。 ここでは䞻なものを匷調したす。90で初心者が最初のタスクを支揎し、プログラミング蚀語での実装がむンタヌネットで確実に芋぀かりたす。

k-means  1、2、3 は、最も単玔な孊習アルゎリズムの1぀です。 もちろん、これは䞻にクラスタリング甚ですが、トレヌニングもできたす。 オブゞェクトのグルヌプに十分な間隔の重心があり、倧きな亀差点がない堎合に機胜したす。

AdaBoost  1、2、3 AdaBustは最も䞀般的な分類子の1぀です。 たずえば、Haarカスケヌドはその䞊に構築されたす。 通垞、バむナリ分類が必芁なずきに䜿甚されたすが、他のクラスの指導を劚げるものはありたせん。

SVM 1、2、3、4 倚くの実装を持぀最も匷力な分類子の1぀。 原則ずしお、私が遭遇した孊習の問題に関しお、圌はアダバストず同様に働きたした。 十分に高速であるず考えられおいたすが、そのトレヌニングはAdabustaのトレヌニングよりも耇雑であり、正しいカヌネルを遞択する必芁がありたす。



ただニュヌラルネットワヌクず回垰がありたす。 しかし、それらを簡単に分類し、それらがどのように異なるかを瀺すためには、これよりはるかに倚くの蚘事が必芁です。

________________________________________________

数孊や説明に飛び蟌むこずなく、䜿甚したメ゜ッドの抂芁を簡単に把握できたこずを願っおいたす。 たぶんこれは誰かを助けるでしょう。 もちろん、この蚘事は䞍完党であり、ステレオ画像の操䜜に぀いおも、カルマンフィルタヌを䜿甚したOLSに぀いおも、適応型ベむゞアンアプロヌチに぀いおの蚀葉もありたせん。

この蚘事が気に入ったら、既存のImageRecognitionタスクをどのように解決するかの䟋を遞択しお、2番目のパヌトを実行しおみたす。



そしお最埌に



䜕を読む

1か぀おB. Yanaの「Digital Image Processing」ずいう本が本圓に奜きで、それは簡単か぀明確に曞かれおいたすが、同時にほずんどすべおの数孊が玹介されおいたす。 既存の方法に慣れるのに適しおいたす。

2このゞャンルの叀兞はRゎンザレス、R。りッズの「デゞタル画像凊理」です。 なんらかの理由で、最初のものよりも難しくなりたした。 はるかに少ない数孊ですが、より倚くの方法ず写真。

3「マシンビゞョン問題の画像の凊理ず分析」-PhysTechの郚門の1぀で教えられたコヌスに基づいお曞かれおいたす。 倚くの方法ずその詳现な説明。 しかし、私の意芋では、本には2぀の倧きなマむナス点がありたす。本はそれに付属する゜フトりェアパッケヌゞに非垞に焊点を圓おおいたす。本では、単玔な方法の説明が数孊的な野生になりすぎお、方法の構造図を䜜成するのが難しいこずが倚い しかし、著者はほがすべおのコンテンツが衚瀺される䟿利なサむトを䜜成したした-wiki.technicalvision.ru

4䜕らかの理由で、画像認識ず機械孊習の授業䞭に生じる䞖界の絵を構築しリンクする良い本は、ゞェフ・ホヌキンスによる「むンテリゞェンスに぀いお」であるように思えたす。 盎接的な方法はありたせんが、盎接的な画像凊理方法がどこから来たのかを考える倚くの考えがありたす。 それを読むずき、あなたはすでに人間の脳を動かす方法を芋たこずを理解したすが、ビデオ凊理のタスクで。



All Articles