分類の主要な特徴を決定し、表情の数学モデルを開発する

内容:



1. 指定されたクラスの画像上に目立つオブジェクトを構築するのに最適な色空間の検索と分析

2. 分類の主要な特徴の定義と、表情の数学的モデルの開発

3. 最適な顔認識アルゴリズムの合成

4. 顔認識アルゴリズムの実装とテスト

5. さまざまな状態のユーザーの唇の画像のテストデータベースを作成して、システムの精度を向上させる

6. オープンソースの音声認識に基づいて最適な音声認識システムを検索する

7. 統合のためのオープンAPIを備えた最適なクローズドソースオーディオ音声認識システムを検索する

8. テストレポートを使用して、ビデオ拡張機能を音声認識システムに統合する実験



目標



ローカリゼーションオブジェクトの分類の主要な特徴を特定し、顔の表情を分析するタスクの数学モデルを開発します。



タスク



顔の位置特定方法の検索と分析、分類の支配的な兆候の決定、顔の表情を認識するタスクに最適な数学モデルの開発。



テーマ



研究の前の段階で実行された、特定の画像クラスで顕著なオブジェクトを構築するための最適な色空間を決定することに加えて、分類の主要な特徴の決定と表情の数学モデルの開発も重要な役割を果たします。



この問題を解決するには、まず、ビデオカメラで顔検出の問題を修正するためのシステム機能を設定してから、唇の動きを特定する必要があります。



画像



最初のタスクについては、それらの2つの種類を区別する必要があります。

•顔の定位(顔の定位);

•顔追跡[1]。

顔の表情を認識するためのアルゴリズムを開発するという課題に直面しているため、このシステムは頭を動かすことにあまり積極的でない1人のユーザーによって使用されると想定するのは論理的です。 したがって、唇の動きの認識技術を実装するには、画像上に1つだけの顔が存在する単純化されたバージョンの検出タスクを基本とする必要があります。



そしてこれは、顔検索が比較的まれにしか実行できないことを意味します(約10フレーム/秒。さらに少ない)。 同時に、会話中の話者の唇の動きは非常に活発であり、したがって、彼らの輪郭の評価はより強力に行われるべきです。



画像内で顔を見つけるタスクは、既存の手段で解決できます。 現在、画像内の顔を検出してローカライズする方法はいくつかあり、2つのカテゴリに分類できます。

1.経験的認識;

2.顔画像のモデリング。 [2]。



最初のカテゴリには、顔の画像の不変の特徴に基づくトップダウン認識方法が含まれます。これは、撮影条件に対して不変な顔が画像内に存在するという兆候があることを前提としています。 これらのメソッドは、2つのサブカテゴリに分類できます。

1.1。 顔画像に特徴的な要素および特徴の検出(エッジ、明るさ、色、顔の特徴の特徴的な形状など)[3]、[4]。;

1.2。 発見された特徴の分析、顔の数と位置の決定(経験的アルゴリズム、標識の相対位置の統計、視覚画像プロセスのモデリング、剛体および変形可能パターンの使用など)[5]、[6]。



アルゴリズムが正しく機能するには、その後のテストで顔の特徴のデータベースを作成する必要があります。 経験的手法をより正確に実装するために、顔変換の可能性を考慮できるモデルを使用できます。したがって、認識用の基本データの拡張セット、または基本要素の変換をモデル化できるメカニズムを使用できます。 個々の特徴、顔の特徴などを持つ最も多様なユーザーに焦点を当てた分類データベースの構築の難しさは、この方法の認識精度の低下に寄与します。



2番目のカテゴリには、数学的統計と機械学習の方法が含まれます。 このカテゴリの方法は、顔検出タスクを認識タスクの特殊なケースと見なし、画像認識ツールに依存しています。 画像は、画像を2つのクラスに分類するために使用される特定の特徴ベクトルとともに配置されます:顔/顔ではありません。 特徴ベクトルを取得する最も一般的な方法は、画像自体を使用することです。各ピクセルはベクトルのコンポーネントになり、n×m画像を空間R ^(n×m)のベクトルに変換します。nとmは正の整数です。 [7]。 この表現の欠点は、特徴空間の非常に高い次元です。 この方法の利点は、特定のユーザー向けにシステム自体をトレーニングする機能だけでなく、人間の参加の分類子を構築する手順全体から除外されることです。 したがって、顔の局所化の数学的モデルを構築するための画像モデリング手法の使用は、問題を解決するのに最適です。



顔の輪郭をセグメント化し、一連のフレームで唇のポイントの位置を追跡することに関しては、この問題を解決するためにモデリングの数学的方法も使用する必要があります。 顔の表情の動きを判断する方法はいくつかありますが、最も有名なものは、アクティブな輪郭モデルに基づいた数学的モデルの使用です。



アクティブな輪郭モデルの数学的モデルに基づく顔の表情の位置特定



アクティブな回路(スネーク)は変形モデルであり、そのテンプレートはパラメトリック曲線の形式で与えられ、入力画像の開いた曲線または閉じた曲線上にある制御点のセットによって手動で初期化されます。



アクティブな輪郭を顔の表情の画像に適合させるには、調査中のオブジェクトの対応する二値化、つまりさまざまなデジタルラスターイメージへの変換を実行し、アクティブな輪郭のパラメーターの適切な評価と特徴ベクトルの計算を実行する必要があります。



画像



アクティブな輪郭モデルは次のように定義されます:

•多くのポイントN。

•関心のあるエネルギーの内部領域(内部弾性エネルギー用語)。

•関心のあるエネルギーの外部領域(外部エッジベースのエネルギー用語)。



認識の品質を向上させるために、肌と唇の2つのカラークラスが区別されます。 カラークラスメンバーシップ関数の値は、0〜1です。



アクティブな輪郭モデル(スネーク)の方程式は、次の式v(s)で表されます。

画像

Eはヘビのエネルギーです(アクティブな輪郭モデル)。 最初の2つの用語は、アクティブな輪郭モデル(ヘビ)の規則性エネルギーを表します。 極座標系では、v(s)= [r(s)、θ(s)]、sは0〜1です。3番目の項は、画像から取得した外力に関連するエネルギー、4番目は圧力ありです。



外力は、上記の特性に基づいて決定されます。 彼女は、コントロールポイントを特定の強度の値にシフトすることができます。 次のように計算されます。

画像

勾配係数(微分)は、対応する放射状の線に沿った蛇の点で計算されます。 勾配が負の場合、強度は増加し、そうでない場合は減少します。 勾配の前の係数は、画像のトポロジに依存する重み係数です。 圧縮力は一定であり、最小重量の1/2が使用されます。 ヘビの最良の形は、一定回数の反復後にエネルギーの機能を最小化することによって得られます。



画像処理の基本操作をより詳細に検討してください。 簡単にするために、話者の口の領域をすでに何らかの方法で特定していると仮定します。 この場合、実行する必要がある受信画像を処理するための主な操作は、図に示されています。 3。



画像



おわりに



研究作業の過程で画像分類の支配的な兆候を決定するために、ビデオカメラによる顔検出問題の修正の特性が明らかにされました。 顔の位置を特定し、研究対象の表情の領域を検出するすべての方法の中で、モバイルデバイス用の汎用認識システムを作成するタスクに最も適しているのは、顔画像モデリング方法です。

顔の表情の数学的モデルの開発は、研究中のオブジェクトのアクティブな輪郭二値化モデルのシステムに基づいています。 この数学的モデルでは、色空間をRGBからYCbCrカラーモデルに変更した後、対象のオブジェクトを効率的に変換できます。これは、アクティブな輪郭モデルに基づいたその後の分析に対応し、対応する画像の反復後に表情の明確な境界を明らかにします。



使用されたソースのリスト



1. Vezhnevets V.、Diagtereva A.画像内の顔の検出と位置確認。 CGMジャーナル、2003

2.そこに。

3. E. Hjelmas and BK Low、顔検出:調査、Journal of Computer Vision and Image Understanding、vol。83、pp。 236-274、2001。

4. G. YangおよびTS Huang、複雑な背景での人間の顔の検出、パターン認識、vol。27、no.1、pp。53-63、1994

5. K. SobottkaおよびI. Pitas、自動顔セグメンテーション、顔特徴抽出および追跡のための新しい方法、信号処理:画像通信、Vol。 12、No. 3、pp。 1998年6月263-281

6. F. Smeraldi、O。Cormona、およびJ. Big.un.、目検出およびリアルタイムの頭部追跡に適用されるGabor機能を使用したサッカード検索、Image Vision Comput。 18、pp。 323-329,200

7.ゴモゾフA.A.、クリウコフA.F. 人間の顔を認識するための経験的および数学的アルゴリズムの分析。 ネットワークジャーナル。 モスクワ電力工学研究所(工科大学)。 No1(18)、2011



続く



All Articles