最初の投稿では、 最初からではありませんでした。 ここから最初から始めます。
人の画像による人の認識は、第一に、特別なまたは高価な機器が必要でなく、第二に、デバイスとの物理的な接触が必要ないという点で、生体認証システムの中で際立っています。 ただし、顔画像による人の認識は、100%の識別信頼性を提供しません。
特徴は、撮影時の角度や照明条件の変化に関係なく、人物の画像によって人物を認識することです。
このような問題には、正確な分析ソリューションがありません。 同時に、視覚画像を特徴付ける主要な特徴を強調表示し、重み係数を選択して特徴の相対的な重要性を判断し、特徴間の関係を考慮する必要があります。 当初、これらのタスクは人間の専門家によって実行されましたが、時間がかかり、品質を保証するものではありませんでした。 新しい方法では、トレーニングサンプルを自動的に分析することで主要な機能が選択されますが、それでも、特性に関するほとんどの情報は手動で設定されます。 このような分析装置を自動的に使用するには、サンプルが十分に大きく、考えられるすべての状況をカバーする必要があります。
ニューラルネットワークの方法は、パターン認識の問題を解決するための異なるアプローチを提供します。 ニューラルネットワークの重みは、解析式を解くことによって計算されるのではなく、さまざまなトレーニング方法を使用して調整されます。 ニューラルネットワークは、一連のトレーニング例でトレーニングされます。 訓練されたNSは、さまざまな条件下で人を認識するために使用できます。 T.O. 顔画像から人物を認識するタスクにニューラルネットワークを使用することが有望な方向です。
顔識別方法
さまざまなアルゴリズムと画像認識方法のすべてを備えた典型的な認識方法は、3つのコンポーネントで構成されています(図1)。
1.元の画像から初期表現への変換(前処理と数学的変換の両方、たとえば、主要成分の計算を含む場合があります);
2.重要な特性を強調する(たとえば、最初のn個の主成分または離散コサイン変換係数が取得されます)。
3.分類(モデリング)メカニズム:クラスターモデル、メトリック、ニューラルネットワークなど。
![画像](https://habrastorage.org/getpro/habr/post_images/5d2/f9c/2f6/5d2f9c2f6e94cdfd6d88472ceaba6af5.png)
図1 典型的な画像認識方法の構造要素の関係の図
人の顔の画像を使用して人を識別する一般的なアプローチは、実際に確立されています。 人の画像から自動的に抽出される主要な機能(性別、あごひげの存在、眼鏡、顔の角度など)を使用して提供する検索の時間と精度の特性を最適化するには、既存のアルゴリズムを改善する必要があります。検索の速度と精度。
主成分法
主成分分析(PCA)は、情報を大幅に失うことなく情報を圧縮するために使用されます。 これは、次元Nの入力ベクトルXから次元Mの出力ベクトルYへの線形直交変換で構成されます。ここで、N> Mです。
利点:
-人種、性別、感情、照明などの顔の画像セットにバリエーションがある場合、コンポーネントが表示されます。その大きさは主にこれらの要因によって決まります。 したがって、対応する主要コンポーネントの値は、たとえば、人種または性別を決定できます。
-大規模データベースでの画像の保存と検索、画像の再構成。
主な困難は、画像を撮影するための条件に対する高い要件にあります。 画像は近い照明条件で取得し、同じ角度(トレーニングセットに異なる角度の画像を追加することで解決)と高品質の予備処理を実行して、画像を標準条件にします。
線形判別分析の方法
線形判別分析(LDA)メソッドを使用して、特徴空間でのクラス内距離を最小化し、クラス間距離を最大化するような方法で、特徴空間への画像空間の投影が選択されます。 これらのメソッドは、クラスが線形に分離可能であることを前提としています。
利点:
-幅広い照明条件、さまざまな表情、眼鏡の有無で高い認識精度(約94%)が認められました。
メソッドの問題:
-ただし、この方法が大規模データベースでの検索に適用できるかどうか、一部の個人のトレーニングサンプルで1つの照明条件のみで画像が存在する場合にこの方法が機能するかどうかは不明です。
-角度にも変化はなく、他の要因を変更せずに照明の変化を伴う実験を実施しました。 この方法がこのような組み合わせで機能するかどうかも不明です。 ここでも自分の方法のように、高品質の予備処理が必要であり、画像を標準条件に導きます。
この作業の主な目標は、認識方法の開発と、顔画像を使用してリアルタイムで人の性格を自動的に特定する特殊用途情報検索システム(IPS SP)の構築です。
作業で設定された目標を達成するには、次の多くの主要なタスクを解決する必要があります。
-人間の顔の画像の主要な特徴を認識して強調する「高速」アルゴリズムの開発。検索オブジェクトの識別の高い信頼性を確保します。
-許容可能な時間を提供する検索オブジェクトを特徴付ける補助情報を保存およびコーディングするためのアルゴリズムの開発-IPS SPのスペースパフォーマンスインジケータ。
-IPS SPデータベースに保存された情報に基づいて、人物を確実に識別するためのアルゴリズムの開発。
-上記のアルゴリズムを実装するプロトタイプのIPS SPの開発。この作業で行われた理論的結論の正確性を実際に検証し、IPS SPの試運転の結果に基づいたさらなる改善に関する推奨事項を発行します。
タスクは、主成分の方法と線形判別分析(LDA)の方法を比較するように設定されました。 主成分法とLDA法を検証する必要があります。
研究を行うために、主成分法とLDA法を実装するC ++ Builderプログラムが開発されました。 実験研究は、ORL基地、FERET基地、および15人の私たち自身の基地を使用して実施されました。 すべてのデータベースには、任意の表情、さまざまなスケール、および登録条件を含む、さまざまな登録角度の画像が含まれていました。 この実験の目的は、データベース内のKクラスの異なる数(K = 4、15、40、100、200、および395)に対する認識方法の有効性を評価することでした。 少数のクラス(K = 4、15)の認識効率の評価により、この場合のPCAおよびLDAメソッドで使用される共分散行列は特殊になり、この場合は不可能であるため、各クラスの最小画像数は5未満ではないことが示されました元の特徴空間の縮小の安定性を保証します。
縮小記号Ĺ(vxvy)の1番目と2番目の要素は、頭部の回転と姿勢に「責任」があり、3番目は表現自体に責任があります。 さらに、(近い画像を選択した結果として)認識プロセスにおけるコンポーネントの影響は、コンポーネントのシリアル番号が小さいほど高くなります。
ソースデータベースが2つ以上の異なるデータベースで構成されている場合のPCAおよびLDAメソッドがテストされました。 これを行うために、FERETデータベースの355クラスがORLデータベースの40クラスに追加されました。 追加された画像は、解像度が低く、背景が暗い、照明やサイズが異なるだけでなく、顔の回転に大きなばらつきがあることに注意してください。
縮小されたフィーチャのスペースにおける初期データのこのような違いにより、新しいフィーチャが出現し、ORLベースのフィーチャとは別の領域にグループ化されました。
研究結果を表1に示します。
表1
認識できる人の数 | 各人の画像の数 | トレーニングに使用される画像の数 | 相関係数を使用する場合の第2種のエラー(FRR) | |
PCA | LDA | |||
4 | 10 | 5 | 0,000 | 0,000 |
15 | 15 | 5 | 0.333 | 0.063 |
10 | 0.230 | 0.133 | ||
40 | 10 | 3 | 0.330 | 0.122 |
5 | 0.250 | 0.155 | ||
7 | 0.184 | 0.033 | ||
100 | 20 | 5 | 0.197 | 0.056 |
7 | 0.176 | 0.104 | ||
200 | 20 | 5 | 0.173 | 0.102 |
7 | 0.104 | 0.083 | ||
395 | 20 | 5 | 0.083 | 0.064 |
7 | 0.080 | 0.046 |
おわりに
上記の分析から、認識の可能性を高めるには、両方の方法を組み合わせて使用することをお勧めします。 これにはさらなる研究が必要です。
文学
1. Golovko V.A. ニューロインテリジェンス:理論と応用。 ブック1.直接接続およびフィードバック接続を使用したニューラルネットワークの構成とトレーニング-Brest:BPI、1999、-260s。
2.サマルD.I.、スタロボイトフV.V. -写真の肖像画で人を認識するためのアプローチと方法。 -ミンスク、ITC NASB、1998。-54 p。
3.サマルD.I.、スタロボイトフV.V. 写真の肖像画による人々の自動認識の技術//デジタル画像処理。 -ミンスク:ITK、1999.-S.81-85。
4. Voronovsky G.K.、Makhotilo K.V.、Petrashev S.N.、Sergeev S.A. -遺伝的アルゴリズム、人工ニューラルネットワーク、仮想現実の問題。 -ハリコフ:基礎、1997年。
次の記事をお待ちください:)