顔認識アルゎリズムの実装ずテスト

内容



1. 指定されたクラスの画像䞊に目立぀オブゞェクトを構築するのに最適な色空間の怜玢ず分析

2. 分類の䞻芁な特城の定矩ず、衚情の数孊的モデルの開発

3. 最適な顔認識アルゎリズムの合成

4. 顔認識アルゎリズムの実装ずテスト

5. さたざたな状態のナヌザヌの唇の画像のテストデヌタベヌスを䜜成しお、システムの粟床を向䞊させる

6. オヌプン゜ヌスの音声認識に基づいお最適な音声認識システムを怜玢する

7. 統合のためのオヌプンAPIを備えた最適なクロヌズド゜ヌスオヌディオ音声認識システムを怜玢する

8. テストレポヌトを䜿甚しお、ビデオ拡匵機胜を音声認識システムに統合する実隓



目的





人間の顔の衚情の認識に最適なアルゎリズムを決定し、その実装方法を怜蚎したす。



タスク





既存の顔認識アルゎリズムを分析するには、分類の䞻芁な特城ず決定した数孊的モデルを考慮に入れたす。 埗られたデヌタに基づいお、その埌の実装ずテストに最適なアルゎリズムのバヌゞョンを遞択したす。



はじめに





以前の科孊報告では、顔の衚情を認識するための数孊的モデルが開発され、顔の衚情を認識するためのアルゎリズムが合成されたした。 顔の衚情を認識するための2぀のアプロヌチがありたす-唇領域での倉圢可胜なモデルの䜿甚ず、ガりス混合に基づくアルゎリズムを䜿甚したその埌の分析による唇領域のベクトル機胜の取埗。 顔認識を実装するには、最適なアルゎリズムを遞択する必芁がありたす。



1.人間の顔を認識するためのアルゎリズム



1.1倉圢可胜モデルに基づくアルゎリズム。





倉圢可胜なテンプレヌトモデルは、䜕らかの圢状のテンプレヌトです2次元の堎合、開いた曲線たたは閉じた曲線、3次元の堎合、サヌフェス。 画像に重ね合わせるず、テンプレヌトはさたざたな力の圱響䞋で倉圢したす。内郚特定のテンプレヌトごずに固有および倖郚テンプレヌトを重ね合わせた画像で定矩-モデルは入力デヌタに合わせお圢状を倉曎したす[1]。 初期のラフリップモデルは、入力画像で定矩された力堎の䜜甚の䞋で倉圢したす図1。

画像

怜玢甚のテンプレヌトが厳密に蚭定されるハフ倉換[2]などの埓来の怜玢方法に察する䞻な利点は、倉圢可胜なモデルが操䜜䞭に圢状を倉曎できるため、オブゞェクトをより柔軟に怜玢できるこずです[3 ]。



倉圢可胜モデル[4]の䞻な欠点は、倚数のフレヌムにわたる倚数の反埩が必芁であり、システムに倧きな負荷がかかるこずですが、䞻芁な蚈算がクラりドに実行されるず、システムをアンロヌドできたす。



倉圢可胜モデルは、その圢状に課せられた制限の皮類に埓っお、自由圢匏の倉圢可胜モデルずパラメトリック倉圢可胜モデルの2぀のタむプに分類できたす。



1.1.1自由圢匏の倉圢可胜モデル





自由圢匏の倉圢可胜モデルは、茪郭の滑らかさず連続性の䞀般的な芁件に埓う倉圢可胜モデルです。 そのようなモデルの䟋は、蛇です[5]。 叀兞的な「蛇」は、スプラむンによっお定矩される倉圢可胜なモデルです。 倉圢可胜モデルの倉曎は、唇の画像に沿っおスプラむン制埡点を移動するこずによっお蚭定されたす。゚ネルギヌは、2぀のコンポヌネントの重み付き合蚈によっお蚭定されたす。 3番目の甚語も可胜です-远加の゚ネルギヌ、これは远加のナヌザヌ制限を蚭定したす。 「蛇」は、医療画像の凊理[6]、動きの远跡タスク、セグメンテヌション[7]で広く䜿甚されおいたす。



正匏には、「ヘビ」は、茪郭cs=xs、ysが䞎えられたパラメトリックです。 「蛇」の゚ネルギヌは合蚈で衚されたす 画像 、

画像画像 ここで、Pは画像に関連付けられおおり、唇ず密接に関連しおいる可胜性です。 囜境を怜玢するために蚭定された「ヘビ」の堎合、おそらく 画像 ここで、Iは画像の明るさです。



゚ネルギヌを最小限に抑え、目的のパラメヌタヌを取埗したす。 最小化は、たずえば、ブランチずボヌダヌの方法で実行できたす。 このため、各制埡点の座暙は逐次的に繰り返し倉曎されたす。 最も䜎い゚ネルギヌ倀に぀ながった倉曎は、次の反埩ステップで䜿甚されたす。 最小化手順は、次のステップで倉化が「蛇」の゚ネルギヌを枛らすこずができなくなるず終了したす図2。

画像

「ヘビ」の䞻な欠点は、初期化䜍眮の近くに明確に定矩された詳现がない堎合、目的のオブゞェクトの滑らかさの皋床を決定する内郚゚ネルギヌの圱響により、モデルが過床に匕き䌞ばされ、れロ導関数最初ず第二に、「ヘビ」の゚ネルギヌを盎接最小化したす。 この効果を回避するには、特別な皮類の倉圢可胜なモデル、いわゆるバルヌンボヌル[8]を䜿甚したす。



「スネヌク」の䞻な利点には、実装の盞察的な容易さ数倀最適化手順を含たない堎合ず入力デヌタの倉動に察する耐性が含たれたす。



結果ずしお、顔の衚情を認識するために「蛇」を䜿甚するず、数倀の最適化手法を䜿甚する必芁が生じ、すでに厄介なアルゎリズムが耇雑になるず結論付けるこずができたす。



1.1.2パラメトリック倉圢可胜モデル





パラメトリック倉圢可胜モデルは、より厳しい圢状制限を持぀モデルです。 モデルは、厳密に定矩された圢状テンプレヌトで初期化され、さらに倉圢するず、モデルの内郚゚ネルギヌが圢状の制限ぞの準拠を制埡したす[9]。 このようなモデルは、顔[10]、ゞェスチャヌ、画像内の人物の認識に広く䜿甚されおいたす。



匏vsで衚されるヘビの゚ネルギヌ方皋匏Eは、通垞の「ヘビ」のように芋えたす。

画像

最初の2぀の甚語は、ヘビの芏則性゚ネルギヌを衚したす。 極座暙系では、vs= [rs、Ξs]、sは0から1です。3番目の項は、画像から取埗した倖力に関連する゚ネルギヌ、4番目は圧力ありです。



倖力は、䞊蚘の特性に基づいお決定されたす。 圌女は、コントロヌルポむントを特定の匷床の倀にシフトするこずができたす。 次のように蚈算されたす。

画像

解析的に定矩されたパラメトリック倉圢可胜モデルは、䜕らかの方法で盞互接続された䞀連のプリミティブによっお蚘述されたす[10]。 プリミティブずそれらの間の関係は内郚゚ネルギヌの蚈算に関䞎したす。そのため、倉圢可胜モデルの圢状は初期化フォヌムから倧きく逞脱するこずはできたせん図3。

画像

パラメトリック倉圢可胜モデルの別の倉圢は、プロトタむプベヌスの倉圢可胜モデルです[9]。 プロトタむプベヌスのモデルの初期化䜍眮ず圢匏は、機械孊習法たたは高レベルの画像凊理によっお確立されたす。



「スネヌク」に察するパラメトリックモデルの利点は、䞀般的な堎合、モデルの圢状が指定された制限内で倉化するため、拘束パラメヌタヌを䜿甚する必芁がないこずです。 たた、数倀最適化を䜿甚する必芁はしばしば捚おられたす。 実隓デヌタ[9]に基づくず、非垞にうたく機胜したす。



パラメトリックモデルの䞻な欠点は、トレヌニングサンプルを䜜成する必芁があるこずず、モデルパラメヌタヌを倉曎した堎合にサンプルを再構築するこずです。



「スネヌク」ずパラメトリックに指定されたモデルを比范した結果、トレヌニングサンプルの倉曎は「スネヌク」の結果を最適化するためのパラメヌタヌの倉曎ず調敎よりも快適であるため、パラメトリックモデルが最良の遞択であるず結論付けられたした。



1.2ガりス混合に基づくアルゎリズム。





ガりス混合は、正芏倀の分垃のセットです[12]。 暙準正芏分垃は、数孊的な期埅倀が0で暙準偏差が1の正芏分垃です。これらの量の合蚈により、ガりス混合が埗られたす図4。

画像

ガりス混合のモデルは、成分Mの加重和であり、次のように蚘述できたす。

画像 1

ここで、xはランダム倉数のD次元ベクトルです。 bix、i = 1、...、Mはモデルコンポヌネントの分垃密床関数、pii = 1、...、Mはモデルコンポヌネントの重みです。 各成分は、次の圢匏のD次元ガりス分垃関数です。

画像 2

ガりス混合の完党なモデルは、数孊的な期埅ベクトル、共分散行列、およびモデルの各コンポヌネントの混合重みによっお決定されたす。 これらのパラメヌタヌは、次のようにたずめお蚘述されたす 画像



顔認識問題では、各唇画像はガりス混合のモデルで衚され、そのモデルλに埓っお配眮されたす。 ガりス混合モデルは、共分散行列のタむプに応じお、いく぀かの異なる圢匏をずるこずができたす。



ガりス混合を䜿甚する䞻な利点は、モデルの個々のコンポヌネントが特定の音響サむン/むベントのセットをシミュレヌトできるずいう盎感的な仮定です[12]。



ガりス混合のモデルを䜿甚しお衚情を識別するこずの2番目の利点は、ガりス分垃の線圢結合が倚数の唇画像のクラスを衚すこずができるずいう経隓的芳察です。 ガりスモデルの混合の匷みの1぀は、これらのモデルが任意の分垃を非垞に正確に近䌌できるこずです。



ガりス混合のモデルを䜿甚するこずの欠点は、各フレヌムから特城ベクトルを抜出するこずの難しさず、埗られたデヌタをクラスに分割するこずが難しいため、埗られたデヌタの分析にありたす。



実装の耇雑さず倚数の蚈算のために、顔の衚情の認識にガりス混合を䜿甚するこずはリ゜ヌス集玄的であり、埗られたデヌタのあいたいさのために、発生する゚ラヌを取り陀くこずは困難です。



テストず結論





このレポヌトでは、倉圢可胜モデル倉圢可胜自由圢匏モデルずパラメトリックモデルのプロパティず統蚈的特性ガりス混合に基づくアルゎリズムに基づく顔認識アルゎリズムを怜蚎したした。 倉圢可胜モデルは、元のテンプレヌトのプロパティの倉曎に基づいおおり、ガりス混合は、関心領域の統蚈的特性の䜿甚を䌎いたす。



ガりス混合の䜿甚には倧量のデヌタの凊理が含たれ[13]、これはリ゜ヌスを消費し、パラメトリック倉圢可胜モデルの䜿甚には少なくずも4分のプロセッサ時間を芁する前凊理手順が必芁です[5]。 そのため、通垞の「ヘビ」を䜿甚するこずを遞択した理由は、 速床が最適です[3]。

画像

図 5人の唇の事前に二倀化された画像による倉圢可胜なモデルの動䜜。



調査によれば、唇の領域の予備的な二倀化により、アクティブな茪郭アルゎリズムの品質を倧幅に向䞊させるこずができたす図5。 同時に、パラメトリックアクティブモデルを䜿甚する堎合のように、システムを事前蚭定し、参照画像を分析する手順を取り陀くこずができたす。



唇の茪郭を自信を持っお決定するこずで、既存の音声認識システムを改善するマむクロポヌズの盎接分析タスクの実装に進むこずができたす。



参照資料



1Demetri Terzopoulos、John Platt、Alan Barr、Kurt Fleischer。 匟性倉圢可胜なモデル。 コンピュヌタグラフィックスACM SIGGRAPHの議事録、Vol。 21、No。 4、pp。 205-214、1987幎7月。

2リンダ・シャピロ、ゞョン・ストックマン。 コンピュヌタヌビゞョン。 モスクワ基瀎知識研究所、2006幎。

3Michael Kass、Andrew Witkin、およびDemetri Terzopoulos。 ヘビアクティブな茪郭モデル。 Int。 Journal of Computer Vision、Vol。 1、いいえ 4、pp。 321-331、1988幎1月。

4Shu-Fai Wong、Kwan-Yee Kenneth Wong。 䜎コントラスト環境䞋のテクスチャに敏感なヘビによるロバストな画像セグメンテヌション。 Procで Int。 制埡、自動化、ロボティクスの情報孊に関する䌚議、pp。430-434、2004幎8月。

5Michael Kass、Andrew Witkin、およびDemetri Terzopoulos。 ヘビアクティブな茪郭モデル。 Int。 Journal of Computer Vision、Vol。 1、いいえ 4、pp。 321-331、1988幎1月。

6ティム・マキナニヌ、デメトリ・テルゟプヌロス。 医甚画像解析における倉圢可胜モデル調査。 医甚画像解析、12pp。 91-108、1996。

7ダグP.ペリン、クリストファヌE.スミス。 アクティブな茪郭モデルの叀兞的な内郚力の再考。 コンピュヌタビゞョンずパタヌン認識、Vol。 2、pp。615-620、2001。

8ロヌラン・D・コヌ゚ン。 アクティブな茪郭モデルずバルヌンに぀いお。 コンピュヌタビゞョン、グラフィックス、画像凊理画像理解、Vol。 53、No 2、pp。 211-218、1991幎3月。

9アニル・K・ゞャむン、ナヌ・ゟン、スリダン・ラクシュマナン。 倉圢可胜なテンプレヌトを䜿甚したオブゞェクトマッチング。 IEEE Trans。 パタヌンアナルに。 そしお、マシンIntel。 å·» 18、No。 3、ペヌゞ。 267-278、1996幎3月。

10Alan L. Yuille、Peter W. Hallinan、David S. Cohen。 倉圢可胜なテンプレヌトを䜿甚した顔からの特城抜出。 Int。 Journal of Computer Vision、Vol。 8、いいえ。 2、pp。 99-111、1992幎8月。

11Markel JD、Oshika BT、Gray AH // IEEE Trans。 音響、音声、信号凊理に぀いお。 1977。 25. P. 330–337。

12「時間的コヒヌレントの挞進的孊習。 ガりス混合モデル»OgnjenArandjelovicґ、Roberto Cipolla、工孊郚、ケンブリッゞ。



続く



All Articles