👃🏽 ✊🏼 👩🏿 アクティブな外観モデル 👨🏽‍🤝‍👨🏻 👨‍👩‍👦‍👦 🖼️

アクティブな外観モデル（AAM）は、さまざまな変形を通じて実際の画像に適応できる画像の統計モデルです。 2次元バージョンのこのタイプのモデルは、1998年にTim KoutsとChris Taylorによって提案されました[1]。当初は、アクティブな外観モデルを使用して顔画像のパラメーターを推定していましたが、X線画像と磁気共鳴イメージングを使用して取得した画像の分析において、特に医学などの他の分野で積極的に適用されるようになりました。

イラストの説明

この図は、アクティブな外観モデルを顔画像に適合させた結果を示しています。青いグリッドはモデルの初期状態を示し、赤いグリッドは何が起こったかを示します。

この記事では、外観のアクティブなモデルと関連する数学的装置がどのように機能するかの簡単な説明と、それらの実装例について説明します。

アクティブな外観モデルの概要

過去数年にわたり、アクティブな外観モデルの数学的装置が積極的に開発されており、現時点では、そのようなモデルの構築への2つのアプローチを区別することができます： [2]）。

最初に、2つのアプローチの一般的な部分を検討します。アクティブな外観モデルでは、2つのタイプのパラメーターがモデル化されます。 形状に関連付けられたパラメーター（形状パラメーター）と、統計画像モデルまたはテクスチャーに関連付けられたパラメーター（外観パラメーター）です。使用する前に、事前にマークされた画像のセットでモデルをトレーニングする必要があります。画像のマークアップは、手動または半自動モードで行われます。アルゴリズムを使用する場合、ラベルのおおよその位置があり、その後、専門家によって洗練されます。各ラベルには独自の番号があり、新しいイメージへの適応中にモデルが見つけなければならない特徴的なポイントを定義します。このようなマークアップの例（XM2VTS顔データベース）を次の図に示します。

提示された例では、68個のマークが画像にマークされ、アクティブな外観のモデルの形状を形成しています。この形は、顔の外部輪郭、口、目、鼻、眉の輪郭を示します。マークアップのこの特性により、その画像から顔のさまざまなパラメーターをさらに決定でき、他のアルゴリズムによるさらなる処理に使用できます。たとえば、個人の識別、視聴覚音声認識、被験者の感情状態の判別のためのアルゴリズムを使用できます。

アクティブな外観モデルのトレーニング手順は、スケール、勾配、および変位の違いを補正するために、すべてのフォームの位置を正規化することから始まります。このために、いわゆる一般化されたプロクラストフ分析が使用されます。ここでは詳細な説明は行いません。興味のある読者は、対応するウィキペディアの記事を読むことができます。これは、正規化の前後で多くのラベルがどのように見えるかです（[3]による）。

すべてのフォームが正規化された後、構成点からマトリックスが形成されます

どこで

。このマトリックスの主要なコンポーネントを強調表示した後、合成されたフォームに対して次の式を取得します。

。

ここに

-トレーニングサンプルのすべての実装にわたって平均されたフォーム（基本フォーム）、

-主ベクトルの行列、

-フォームパラメータ。上記の式は、フォームが

基本形式の合計として表現できます

行列に含まれる固有形式の線形結合

。パラメータのベクトルを変更する

あらゆる種類の形状変形を取得して、実際の画像に合わせることができます。そのようなフォームの例を以下に示します[7]。青と赤の矢印は、主要コンポーネントの方向を示しています。

剛体変形ではなく剛体変形を持つアクティブな外観のモデルがあることに注意する必要があります。剛体変形のあるモデルはアフィン変換（回転、シフト、スケーリング）のみを受けることができますが、非剛体変形のあるモデルは他のタイプの変形を受けることができます。実際には、両方のタイプの変形の組み合わせが使用されます。この場合、位置パラメーター（回転角度、スケール、変位、またはアフィン変換係数）も形状パラメーターに追加されます。

外観のコンポーネントのトレーニング手順は、フォームのコンポーネント（基本フォームと主要コンポーネントのマトリックス）が計算された後に実行されます。ここでの学習プロセスは、3つのステップで構成されています。最初のステップは、基本形状に最適なトレーニング画像からテクスチャを抽出することです。これを行うには、基本フォームのマークとトレーニング画像のマークで構成されるフォームの三角測量を実行します。次に、区分補間を使用して、生成されたテクスチャの対応する領域への三角測量の結果として得られたトレーニング画像の領域のマッピングが実行されます。例として、下の図は、IMMデータベースイメージの1つに対するこのような変換の結果を示しています。

すべてのテクスチャが形成された後、2番目のステップは、さまざまな照明条件を補正するための測光正規化です。これを行うために多くの方法が開発されました。最も単純な方法は、平均値を減算し、ピクセル輝度の分散を正規化することです。

最後に、3番目のステップで、各列に対応するテクスチャのピクセル値が含まれるように、マトリックスがテクスチャから形成されます（マトリックスと同様）

）トレーニングに使用されるテクスチャは、シングルチャンネル（グレースケール）またはマルチチャンネル（RGBカラースペースなど）のいずれかであることに注意してください。マルチチャネルテクスチャの場合、ピクセルベクトルはチャネルごとに個別に形成され、それらの連結が実行されます。テクスチャマトリックスの主要なコンポーネントを見つけた後、合成されたテクスチャの式を取得します。

。

ここに

-トレーニングサンプルのすべてのテクスチャを平均化することによって取得された基本テクスチャ、

-独自のテクスチャのマトリックス、

-アクティブな外観のパラメーターのベクトル。以下は、合成されたテクスチャの例です[7]。

実際には、モデルの再トレーニングの影響を減らすために、主要コンポーネントのマトリックスには、最も重要なベクトルの95〜98％しか残っていません。さらに、この数は、フォームの主要コンポーネントと外観の主要コンポーネントで異なる場合があります。洗練された数値は、実験研究の過程で、または相互検証手順を使用してモデルをテストするときに、すでに選択できます。

これで、さまざまなタイプのアクティブな外観モデルの一般的な部分が終了し、2つのアプローチの違いを検討します。

クラシックなアクティブな外観モデル

このタイプのモデルでは、結合パラメーターのベクトルも計算する必要があります。これは次の式で与えられます。

。

ここに

-重み値の対角行列。これにより、ピクセル間の距離の寄与とピクセル強度のバランスを取ることができます。トレーニングサンプル（テクスチャとフォームのペア）の各要素について、独自のベクトルが計算されます

。次に、結果のベクトルのセットが結合されて行列になり、その主成分が検出されます。この場合、結合された形状とテクスチャーパラメーターの合成ベクトルは、次の式によって決定されます。

。

ここに

-結合されたパラメータの主要コンポーネントのマトリックス、

-結合された外観パラメーターのベクトル。ここから、合成されたフォームとテクスチャの新しい式を取得できます。

。

実際には、行列

また、再トレーニングの影響を減らし、計算の数を減らすために、ノイズ成分の除去の対象となります。

フォーム、外観、結合パラメーターのパラメーターが計算された後、いわゆる予測マトリックスを見つける必要があります

これは、平均二乗誤差の最小の意味で、次の一次方程式を満たします。

。

ここに

、そして

-位置ベクトルと結合された外観パラメータの乱れ。上記の方程式を解くために、さまざまな方法が開発されています。詳細な検討は[3-6]で実施されました。

考慮されたアクティブな外観モデルの分析画像への適応は、一般的な場合、次のように発生します。

初期近似に基づいて、すべてのモデルパラメーターとアフィン形式変換が計算されます。
エラーベクトルが計算されます。分析した画像からテクスチャを抽出するには、その区分的変形を使用します。
摂動のベクトルが計算されます。 ;
パラメーターとアフィン変換を組み合わせたベクトルは、現在の値を摂動ベクトルの対応するコンポーネントと合計することにより更新されます。
形状とテクスチャが更新されています。
収束するまでステップ2に進みます。

このアルゴリズムに対するさまざまな修正と改善が提案されていますが、その一般的な構造と本質は同じままです。

上記のアルゴリズムは非常に効果的ですが、リアルタイムアプリケーションでのアプリケーションを制限するかなり深刻な欠点があります。収束が遅く、多くの計算が必要です。これらの欠点を克服するために、新しいタイプのアクティブな外観モデルが[2、7]で提案されました。これについては次のセクションで説明します。

アクティブな逆構成の外観モデル

MatthewsとBakerは、フォームパラメータのみに依存するアクティブな外観モデル（いわゆる「プロジェクトアウト」モデル）を適応させるための計算効率の良いアルゴリズムを提案しました。このため、速度を大幅に上げることができました。 Lucas-Canadaアプローチに基づいた適応アルゴリズムは、Newtonメソッドを使用して誤差関数の最小値を見つけます。

Lucas-Canadaアルゴリズムは、テンプレートと実際の画像の間の最小二乗平均誤差の意味で、局所的に最適な一致を見つけようとします。この場合、テンプレートは、パラメーターベクトルで指定された変形（アフィンおよび/または区分的）にかけられます。

ピクセルを実際の画像のピクセルにマッピングします。

パラメータを直接見つける

は非線形最適化問題です。線形手法で解決するために、Lucas-Canadaアルゴリズムは、変形パラメーターの初期値が既知であると想定し、パラメーターの増分を繰り返し検出します

各反復ベクトルで更新

。

逆構図の外観のアクティブモデルは、同様のアプローチを使用して、適応プロセス中に独自のパラメーターを更新しますが、変形は基本的なテクスチャの影響を受けません。

、分析された画像。

逆構図の外観のアクティブモデルをトレーニングする段階で、いわゆる最急降下とそのヘッシアンの画像が計算されます。モデルの適合は、外観の古典的なモデルと同様の方法で行われますが、この場合、形状パラメーターと（オプションで）位置パラメーターのみが更新されます。

MatthewsとBakerが、開発したモデルの特性が異なる多数の可能なバリエーションを提案したことは注目に値します。興味のある読者は、[2、7-9]を参照してより詳細なレビューをご覧ください。

ソフトウェア実装

上記のアクティブな外観モデルのトレーニングと適応アルゴリズムの実用的な実装と研究のために、著者はAAMToolboxと呼ばれる特殊なソフトウェアライブラリを開発しました。このライブラリはGPLv3ライセンスの下で配布されており、非営利目的および研究目的でのみ使用することを目的としています。ソースコードはこのリンクで利用可能です。

AAMToolboxアセンブリには、OpenCV 2.4、Boost 1.42以上のライブラリ、NetBeans IDE 6.9が必要です。 Ubuntu Linux OSバージョン10.04および10.10は現在サポートされています。他のプラットフォームでのパフォーマンスと収集はテストされていません。

AAMToolboxは、従来のアクティブな外観モデルとリバースコンポジションのアクティブな外観モデルの両方を操作するためのアルゴリズムを実装しています。両方のタイプのアルゴリズムへのアクセスは、特定のトレーニングセットでのモデルのトレーニング、トレーニング済みモデルのファイルの保存と復元、モデルの実際の画像への適応を提供する単一のインターフェイスを介して行われます。カラー画像（3チャンネルカラー）とグレースケール画像の両方がサポートされています。

モデルをトレーニングするには、最初にトレーニングサンプルを準備する必要があります。選択は、2種類のファイルで構成する必要があります。最初のタイプは、モデルをトレーニングする実際の画像です。 2番目のタイプのファイルはマークアップテキストファイルで、トレーニングサンプルの対応する画像にマークされたフォームのラベルが含まれています。以下は、このようなファイルの断片です。

1 228 307 2 232 327 3 239 350 5 270 392 6 294 406 7 314 410 8 343 403 9 361 388 10 372 370 11 382 349 12 388 331 13 393 312 14 374 243

ここで、最初の列はラベル番号、2番目の列はラベルのX座標、3番目の列はラベルのY座標です。各画像には独自のマークアップファイルが必要です。

アクティブな外観モデルのトレーニングコードは非常に単純です。

 #include "aam/AAMEstimator.h" void trainAAM() { //      aam::AAMEstimator estimator; //     ,  //    // aam::ModelPathType     // std::pair<std::string, std::string>,   //       ,  //  -    . std::vector<aam::ModelPathType> modelPaths; //  -     ...................................................... // //       aam::TrainOptions options; //     .    0  1. options.setPCACutThreshold(0.95); // ,     : // true -  , false -   options.setGrayScale(true); //       . //       //  . options.setMultithreading(true); //    : // aam::algorithm::conventional -  , // aam::algorithm::inverseComposition -    options.setAAMAlgorithm(aam::algorithm::conventional); //   .     . //   ,       //  .     triangles  //   std::vector<cv::Vec3i>      //  (    0. options.setTriangles(triangles); //      . //        , //        . options.setScales(4); estimator.setTrainOptions(options); //    estimator.train(modelPaths); //      estimator.save("data/aam_test.xml"); }

提示されたコードフラグメントの実行の結果として、特定のタイプの外観のアクティブモデルをトレーニングし、それをファイルに保存することができます。トレーニング中は、画像を含むすべてのデータがRAMにあるため、大量の画像（数百）を読み込むときは、十分な量（2〜3 GB）が利用可能であることを確認する必要があります。さまざまなタイプのアクティブな外観モデルのトレーニング手順を実行するコードの例として、ライブラリプロジェクトのユニットテスト「AAM Estimatorテスト」を見ることができます。起動すると、カラーイメージとグレースケール（合計4つの異なるモデル）のバージョンでサポートされている各タイプのモデルをトレーニングし、適切なファイルに保存します。

アクティブな外観モデルの画像への適応コードは次のようになります。

 #include "aam/AAMEstimator.h" void aplyAAM() { //  . //         aam::AAMEstimator estimator; estimator.load("<___>"); //   cv::Mat im = cv::imread("<___>"); //      std::vector<cv::Rect> faces; cv::cvtColor(im, im, CV_BGR2GRAY); cascadeFace.detectMultiScale(im, faces, 1.1, 2, 0 |CV_HAAR_FIND_BIGGEST_OBJECT //|CV_HAAR_DO_ROUGH_SEARCH |CV_HAAR_SCALE_IMAGE , cv::Size(30, 30) ); if (faces.empty()) { return; } cv::Rect r = faces[0]; aam::Point2D startPoint(rx + r.width * 0.5 + 20, ry + r.height * 0.5 + 40); // ,        aam::Vertices2DList foundPoints; //   .   verbose  //       . estimator.estimateAAM(im, startPoint, foundPoints, true); }

アクティブな外観モデルの適応アルゴリズムのデモを見るには、サポートされているタイプのモデルのイメージへの適応を実行するユニットテスト「Aply model test」および「Aply model IC test」を実行する必要があります。次の図は、結果の1つの例を示しています。

これらのテストは、古典的なアクティブな外観モデルと逆構成のアクティブな外観モデルの収束速度の違いを明確に示しています。ただし、後者の発散は、場合によっては、適応のためのアルゴリズムの発散に起因する可能性があります。その除去のためにいくつかのアプローチが提案されていますが、それらは検討中のAAMToolboxライブラリに実装されていません（少なくとも現時点では）。

おわりに

この記事では、アクティブな外観モデルと関連する基本概念と数学的装置について簡単に調べました。記事で説明されているアルゴリズムを実装する、著者によって開発されたAAMToolboxソフトウェアライブラリも考慮されます。その使用例が示されています。

舞台裏には、アクティブな外観と関連するアルゴリズムの3次元モデルがありました。おそらく、それらは以下の記事で議論されるでしょう。

参照資料

T.クートス、G。エドワーズ、C。テイラー。アクティブな外観モデル。コンピュータビジョンに関する欧州会議の議事録、第2巻、484〜498ページ、1998年。
S.ベイカー、R。グロス、およびI.マシューズ。 Lucas-Kanade 20年：統合フレームワーク：パート3。テクニカルレポートCMU-RI-TR-03-35、カーネギーメロン大学ロボティクス研究所、2003年。
ポイント注釈と線形部分空間手法を使用したMB Stegmann分析と顔画像のセグメンテーション。技術報告書IMM-REP-2002-22-22、情報技術と数学モデリング、デンマーク工科大学、2002
TFクート、GJエドワーズ、CJテイラー。アクティブな外観モデル。 IEEE Trans。パターン認識とマシンインテリジェンス、23（6）：681–685、2001
TFクートとCJテイラー。医用画像分析とコンピュータービジョンの外観の統計モデル。 Procで SPIE Medical Imaging 2001、第1巻、236〜248ページ。 SPIE、2001。
TFクートとCJテイラー。制約付きのアクティブな外観モデル。コンピュータビジョン、2001。ICCV2001。議事録。第8回IEEE国際会議、1：748–754 vol。1、2001。
Iain MatthewsとSimon Bakerのアクティブな外観モデルの再検討。 International Journal of Computer Vision、Vol。 60、No 2、2004年11月、pp。 135-164。
S.ベイカー、R。グロス、およびI.マシューズ。 Lucas-Kanade 20年：統合フレームワーク：パート1。テクニカルレポートCMU-RI-TR-02-16、カーネギーメロン大学ロボティクス研究所、2002年。
S.ベイカー、R。グロス、およびI.マシューズ。 Lucas-Kanade 20年：統合フレームワーク：パート2。テクニカルレポートCMU-RI-TR-03-01、カーネギーメロン大学ロボティクス研究所、2003年。

アクティブな外観モデル

アクティブな外観モデルの概要

クラシックなアクティブな外観モデル

アクティブな逆構成の外観モデル

ソフトウェア実装

おわりに

参照資料

More articles: