さまざまな状態のユーザーの唇の画像のテストデータベースを作成して、システムの精度を向上させる

内容:



1. 指定されたクラスの画像上に目立つオブジェクトを構築するのに最適な色空間の検索と分析

2. 分類の主要な特徴の定義と、表情の数学的モデルの開発

3. 最適な顔認識アルゴリズムの合成

4. 顔認識アルゴリズムの実装とテスト

5. さまざまな状態のユーザーの唇の画像のテストデータベースを作成して、システムの精度を向上させる

6. オープンソースの音声認識に基づいて最適な音声認識システムを検索する

7. 統合のためのオープンAPIを備えた最適なクローズドソースオーディオ音声認識システムを検索する

8. テストレポートを使用して、ビデオ拡張機能を音声認識システムに統合する実験



目的:





さまざまなタイプの顔、肌の色、唇の構造の特徴、環境特性、照明などを備えたユーザー向けに、開発されたシステムの唇領域を見つける精度を高めるため。



タスク:





システムの精度を手動で高めるために、さまざまな位置でユーザーの唇の変化の写真を撮ります。 無料のデータベース管理システム(DBMS)に基づいて、さまざまな種類の唇の動きに対応したデータベースシステムライブラリを実装します。



はじめに





以前のレポートでは、特定のクラスの画像でオブジェクトを強調表示するのに最適なさまざまな種類の色空間を分析しました。 人間の顔とその特性認識するためのさまざまなアルゴリズムが調査されています。 視覚データをリアルタイムで処理するために使用できるさまざまな数学モデルも考慮されます。 この研究に基づいて、 唇の領域を見つけるための独自のアルゴリズムが実装されました。 ただし、提示されたソリューションの対象オブジェクトのアクティブな輪郭モデルの精度は、必ずしも現実に対応するとは限りません。 この科学的研究でモジュール式視覚ソリューションの精度を高めるために、カスタム製品を実装するタスクに直面しているため、さまざまなタイプのユーザーの唇に関するデータのライブラリを収集するタスクに直面しています。



1.さまざまなタイプの顔の唇のバリエーションを撮影します。





さまざまな理由で提示されたシステムは、それ自体で唇領域を正確にローカライズすることに必ずしも成功しなかったため、技術をより効果的にするために、次の段階でシステムデータベースに初期データを入力するために、ユーザーのさまざまな種類の唇を手動で調べることが決定されました。



このテストタスクを達成するために、18人のユーザーの唇の動きを分析しました。 元のデータは手動で撮影されました。 図1は、発音中の唇の領域のローカライズを伴うユーザーの顔を示しています。



画像

画像



2. MySQLに基づくシステムの唇のデータベースの編集。





MySQLは無料のデータベース管理システム(DBMS)です。 MySQLはOracle Corporationの財産であり、買収したSun Microsystemsと一緒にアプリケーションを開発および保守しました[1]。 GNU General Public Licenseまたは独自の商用ライセンスの下で配布されます。 さらに、開発者はライセンスを取得したユーザーの順序で機能を作成します。このような順序のおかげで、複製メカニズムはほとんどの初期バージョンに登場しました。



レプリケーションは、オブジェクトの複数のコピーの内容を同期するためのメカニズムです。 このプロセスは、1つのソースから他の多くのソースへ、またはその逆にデータをコピーすることを指します。

•master-データを複製する必要があるメインサーバー。

•レプリカ-メインデータのコピーを保存する修復されたサーバー[2]。



MySQLは、小規模から中規模のアプリケーション向けのソリューションです。 WAMP、AppServ、LAMPサーバー、およびポータブルサーバーアセンブリDenver、XAMPPの一部です。 通常、MySQLはローカルまたはリモートクライアントからアクセスされるサーバーとして使用されますが、ディストリビューションには、MySQLをスタンドアロンプ​​ログラムに含めることができる内部サーバーライブラリが含まれています[3]。 ユーザーの唇にデータベースを作成するときに使用されるのはこれらのライブラリです。



MySQL DBMSの柔軟性は、多数のテーブルタイプをサポートすることにより提供されます。ユーザーは、フルテキスト検索をサポートするMyISAMテーブルと、個々のレコードレベルでトランザクションをサポートするInnoDBテーブルの両方を選択できます。 さらに、MySQL DBMSには特別なタイプのテーブル例が付属しており、新しいタイプのテーブルを作成する原理を示しています。 オープンアーキテクチャとGPLライセンスのおかげで、新しいタイプのテーブルが常にMySQL DBMSに登場しています。

画像

もちろん、持っているすべての情報をデータベースに入れることは意味がありません。 たとえば、MySQLで許可されていても、そこに写真を保存する必要はありません。 グラフィックファイルのバイナリイメージをデータベースに配置することにより、サーバーの動作が遅くなるだけです。 ディスクから写真付きのファイルを読み取ることは、スクリプトからSQLに接続し、要求を行い、画像を取得し、それを処理し、サーバーへの訪問者を示すために必要なヘッダーを表示するよりも、消費リソースの観点からはるかに簡単です。 2番目の場合、画像を発行する操作には、数倍のプロセッサ、メモリ、およびディスクリソースが必要になります。 また、ユーザーがトラフィックを節約できるドキュメントキャッシングメカニズムがあり、コンテンツを動的に生成することにより、訪問者からこの便利な機能を実際に奪うことも忘れてはなりません[4]。



画像の代わりに、MySQLに情報を保存することをお勧めします。これに基づいて、スクリプトによって動的に作成されたドキュメントの静的画像へのリンクを生成できます。 データライブラリを実装する際に、唇の角に沿った距離の変化に基づいて取得したインジケーターを使用しました。 この瞬間を図3に示します。

画像

次に、ユーザーの唇の位置の統計的変化に関するデータを、MySQLデータベースサーバーに基づいて別のデータベースに収集しました。



したがって、唇の輪郭検出システムの精度を向上させるために、18人の異なるユーザーが唇の動きデータベースで手動で撮影されました。 ユーザーの顔と唇の写真は、最初に別々に分析されました。 次に、ソースデータに基づいて、MySQL DBMSに基づく既製のライブラリが収集され始めました。



MySQL DBMSを使用すると、システムのユーザーの唇の写真を保存できますが、視覚信号を処理するために非常に大きなライブラリを処理する必要があるため、この概念はシステムの操作を複雑にするため、この機能を放棄することにしました。 したがって、私たちのシステムの仕事の基礎は、空間におけるユーザーの唇の輪郭の位置を固定するために取られました。 この概念に基づいて、システムをさらに洗練および改善するために、ユーザーの唇の静的位置を自動的に維持する機能が生成されました。



将来的には、さまざまな顔のタイプ、肌の色、環境条件を持つユーザーの唇の位置を自動的に固定することにより、開発されたシステムのデータベースをさらに改善し、特定のユーザーの個々の特性にシステムを調整する可能性が計画されています。



参照資料



1)MySQL DBMSの開発例: macbug.ru/macosxsample/mysql

2)MySQLでのレプリケーションの基本: habrahabr.ru/post/56702

3)Plotnikov D.Yu.、Malevany E.F.、Anoprienko A.Ya. 高度にロードされたWebアプリケーションの開発//情報制御システムとコンピューター監視(IMSおよびKM 2012)/学生、大学院生、若手科学者による第3回国際科学技術会議の資料。 -ドネツク、DonNTU-2012、p。 431-435

4)MySQLの最適な使用: www.mysql.ru/docs/optimal.html

続く



All Articles