🤢 🛩️ 🔠 ComputerVision（RubyおよびOpenCV） ⏯️ 🤳🏿 🔏

投稿者：Lyudmila Dezhkina、シニアフルスタック開発者

OpenCVは、有名なオープンソースの汎用コンピュータービジョンライブラリです。 OpenCVでできること、ライブラリの仕組み、Rubyでの使用方法を説明します。私はそれが適用された2つのプロジェクトに参加することができました。どちらの場合も、最終バージョンではRubyを使用しませんでしたが、OpenCVが必要なタスクを実行する方法を確認するためだけに、将来のシステムのプロトタイプを作成する必要がある最初の段階では非常に便利です。すべてが順調であれば、その後、アプリケーションは別の言語で同じアルゴリズムで記述されます。また、特にRubyでOpenCVを使用するには、対応するgemがあります。

ライブラリの主要部分は、画像解釈と機械学習アルゴリズムです。 OpenCVが提供する機能のリストは非常に広範囲です。

画像解釈;
標準に従ったカメラの較正。
光学歪みの除去;
類似性の決定;
オブジェクトの動きの分析;
オブジェクトの形状を決定し、オブジェクトを追跡します。
3D再構築;
オブジェクトのセグメンテーション。
ジェスチャー認識。

現在、OpenCVは多くの分野で使用されています。以下に興味深い例を示します。

Google：
1. Google自動運転車-無人車両でGoogle OpenCVを使用して、環境を認識するプロトタイプを開発します。
  
  （現在、構築されたシステムは主にLIDARに基づいています-暗い場所での認識が難しいため）
2. Google Glass-これらのメガネでは、画像の3D再構成がOpenCV上に構築されています。
3. Google Mobile
ロボティクスとArduino。
工業生産-時々、工場はOpenCVまたはそのようなもので部品カウントシステムを作成します。

難しいですか、面白いですか？

どのデータを真に「大」と見なすことができるかを言うのは難しいこともありますが、OpenCVの場合にはそのような疑いはありません。たとえば、自動運転車は大まかな見積もりに従って約1 Gb / sを処理でき、これは本当にビッグデータです。比較のために、人間の脳は約45 Mb-3 GB / sを処理します。これは、特に部屋の照明に依存します。

多数のOpenCVアルゴリズムについては、その中に複雑で単純なものがあります。特に、フィルタリングのアルゴリズム、テンソル（実際には1次元配列）があります。

OpenCVは、認識が部分的にニューラルネットワーク上に構築されるため、機械学習とディープラーニングテクノロジーも使用します。ディープラーニングと機械学習は非常に興味深いトピックです。コースラでコースを勉強することをお勧めします。一般的なコンピュータービジョンのトピックに関しては、次の本をお勧めします。

OpenCVの構成要素は何ですか？

奇妙なことに、 CXCORE （コア自体）はプログラミングの点では基本的です。基本的なデータ構造とアルゴリズムが含まれています。

多次元数値配列の基本操作-たとえば、行列とベクトルの乗算、2つの行列の乗算などが可能です。
行列代数、数学関数、乱数ジェネレーター-これを操作するには、目的の関数の名前を知るだけで十分です。
XMLへのデータ構造の書き込み/復元。
2Dグラフィックスの基本機能-たとえば、ヘビを描くことができます。

CVは画像処理およびコンピュータービジョンモジュールです。以下が含まれます。

画像の基本操作（フィルタリング、幾何学的変換、色空間変換など）;
画像分析（特徴の選択、形態、輪郭の検索、ヒストグラム）;
モーション分析、オブジェクトの追跡。
オブジェクト、特に人の検出;
カメラキャリブレーションおよび空間復元要素。

ところで、幾何学的変換はライブラリの非常に重要な部分です。何かを構築しようとすると、カメラの回転と角度を考慮する必要があることが多いからです。

HighGUI-ユーザーインターフェイスを作成する、画像とビデオの入出力モジュール。モジュールは次の機能を実行します。

カメラおよびビデオファイルからビデオをキャプチャし、静的画像を読み書きします。
シンプルなUIを整理するための関数（すべてのデモアプリケーションはHighGUIを使用）。

MLは組み込みの機械学習アルゴリズムであり、そのまま使用できますが、3番目のバージョンでは、他社が優れた機械学習アルゴリズムを開発しているため、徐々に放棄されています（後で説明します）。

CvCam-ビデオでできること（カメラキャプチャ、検出、スライスなど）

Cvauxは実験的で非推奨の機能です。

空間ビジョン：ステレオキャリブレーション、自己キャリブレーション。
ステレオマッチングの検索、グラフのクリック。
顔の特徴の発見と説明。

特許またはスタートアップの例

OpenCVを使用して最後に成功したスタートアップの1つの良い例は、 Zugaraの仮想試着室です。彼女はどのように働いていますか？アルゴリズムはおよそ次のとおりです。彼女はユーザーを撮影し、顔までの距離を計算します。次に、ユーザーは自分のサイズをいくつか入力し、試着室はバイヤーを引き付けた服から何かを計算します。ただし、このシステムにはもう1つの重要な部分があります。AutoCADモデルです。試着する前に、すべてのものが3D再構築されます。

OpenCVを使用する2番目の良い例は、道路上のナンバープレート認識システムです。ただし、このようなシステムの精度は最大90％です。これは、撮影の品質、マシンの速度、数字の汚れ具合などに大きく依存するためです。

ニューラルネットワーク（学習メカニズム）

OpenCVの2番目の重要な部分（画像処理を担当する部分に続く）は、機械学習です。組み込みのOpenCVに加えて、現在、いくつかの機械学習メカニズムがあります。

GoogleのTensorFlowは 、すべてテンソル上に構築されています。
Theano 、 PyLearn 2 && EcoSystemは最大の開発の1つであり、使用が非常に困難です。
トーチは時代遅れのメカニズムです。
Caffeは、使用に最適な初心者向けシステムです。ちなみに、認識のために特別に使用する必要はありません-たとえば、金融セクターで使用できます。そのため、Caffeは銀行取引操作のプロトタイプの作成によく使用されます。その上に構築された生物学的システムもあります。

システム構築の難しさ

このようなシステムを構築する場合（同じ仮想試着室または番号認識システムであっても）、少なくとも2つのジレンマに対処する必要があります。

ソフトウェアまたはハードウェア、
アルゴリズムまたはニューラルネットワーク。

ソフトウェアとハードウェアのジレンマは、ハードウェアが悪いほど、賢明な結果を得るためにソフトウェア部分を開発することがより良いということです。 2番目のジレンマは次のとおりです。ソフトウェア部分で使用する方が良いのは、アルゴリズムまたはニューラルネットワークですか？実際、ニューラルネットワークではアルゴリズムが失われることがあります。次のようにアルゴリズムとニューラルネットワークを選択します。ニューラルネットワークがアルゴリズムよりも多くのスペースを占有する場合は、アルゴリズムを選択します。アルゴリズムは一般に信頼性が高く、単純な場合にはそれを選択します。また、ニューラルネットワークは、非常に単純な問題でさえ解決できない場合があります。たとえば、Rosenblattパーセプトロンは、ポイントがラインの上または下にあるかどうかを理解できません。

文字認識

たとえば、ナンバープレート認識システムを作成するときに必要になる可能性のある文字認識について少し話しましょう。

Tesseract OCRは、1つの文字を自動的に認識し、すぐにテキストを認識するオープンソースソフトウェアです。 Tesseractは、あらゆるOS向けであり、安定して動作し、簡単にトレーニングできるという点で便利です。ただし、重大な欠点があります。テキストが色あせたり、破損したり、汚れたり、変形したりすると、動作が非常に悪くなります。したがって、Tesseractは数字の認識には適していませんが、プレーンテキストの認識には非常に適しています。 T. h。Tesseractは、たとえば文書管理に完全に適用できます。

K-nearestは非常に理解しやすい文字認識アルゴリズムであり、その原始性にもかかわらず、SVMまたはニューラルネットワーク手法の最も成功した実装を打ち負かすことができます。

次のように機能します。

以前に手動でクラスに分割された実際のキャラクターの画像を事前に記録します。
文字間の距離の測定値を入力します（画像が2値化される場合、XOR操作が最適になります）。
次に、シンボルを認識しようとすると、データベース内のすべてのシンボルとシンボル間の距離を交互に計算します。最も近い隣人の中には、さまざまなクラスの代表者がいる場合があります。どのクラスの隣人がより多くの代表者であるか、認識可能なキャラクターはそのクラスに帰すべきです。

OpenCVデータ型

ここではすべてが簡単です。

CvPoint

ポイント（2つの変数（x、y）の構造）

CvSize

サイズ（2つの変数の構造（幅、高さ））

CvRect

長方形（4つの変数（x、y、幅、高さ）の構造）

CvScalar

スカラー（double型の4つの数字）

CvArr

は配列です-CvMatおよびさらにIplImageの「抽象基本クラス」と見なすことができます（CvArr-> CvMat-> IplImage）

CvMat

マトリックス

IplImage

画像

これがOpenCVのすべてのデータ型です。

写真をアップロード

これがRubyでできることです。ライブラリを接続したら、写真をアップロードできます。あなたがそれを見たいなら、あなたはそれを窓の外に出すことを忘れてはならないことが重要です。

cvLoadImage( filename, int iscolor=CV_LOAD_IMAGE_COLOR ) 
      

        
        
        
      

     //

ファイル名と画質はパラメーターとして受け入れられます。

filename

ファイル名
iscolor

画像の表示方法を定義します
iscolor > 0

iscolor == 0

画像はGRAYSCALE形式（グレースケール）でアップロードされます

iscolor < 0

画像はそのままアップロードされます

cvNamedWindow("original",CV_WINDOW_AUTOSIZE); 
      

        
        
        
      

     //   
      

        
        
        
      

     cvShowImage("original",image);

ダウンロード後に利用可能な情報

約25のメソッドがありますが、私はこれらのみを使用します：

image->nChannels // (RGB, OpenCV — BGR ) (1-4);
image->depth // ( , );
image->width // ;
image->height // ;
image->imageSize // , (==image->height*image->widthStep);
image->widthStep // ( ) — .

ヴィオラジョーンズメソッド

2005年に発明されたこの顔認識方法は、Haarの機能に基づいています。ほとんどすべてのカメラで顔を検出するために使用されます。これがその仕組みです。

各フィーチャの値は、白い長方形のピクセルの合計として計算され、そこから黒い領域のピクセルの合計が差し引かれます。長方形の特徴は操縦可能なフィルターよりも原始的であり、

そして、画像の垂直および水平の特徴に敏感であるという事実にもかかわらず、それらの検索の結果はより粗いです。

そして、人間の言葉で話すと、顔が撮影され、2つの部分に分割されます。鼻の近くや目の下の領域は暗くなり、頬は明るくなります。画像の各ピクセルが1つのベクトル値であると想像してください。これを使用して、グレーとホワイトのピクセル数が計算されます。これに基づいて、顔のように見えるかどうかにかかわらず、結論が導き出されます。

ニューラルネットワーク

ニューラルネットワークは現在2つのタイプに分けられています。最初のタイプは、古い2レベルおよび3レベルのネットワークです。このようなネットワークは、誤差の逆伝播を伴う勾配法によって訓練されます。それらを使用する場合、ベクトルを取り、関数を指示します。その後、たとえば、パーセプトロンの層があります。入力済み（既に処理されている画像-たとえば、目的の部分が撮影され、数字の場合は、数字の各文字ごとに長方形にカットされます）。その後、各ピクセルが分解されます-ベクトル、遷移をカウントします。実際、これは単なる配列トラバーサルです。この技術はすでに時代遅れです。

2番目のタイプの新しいネットワークは、畳み込み演算を使用して深くて畳み込み的です。畳み込み演算は、ある関数と、別の関数の反射およびシフトされたコピーとの類似性を示します。 OpenCVのすべての畳み込みは2Dフィルターで行われます。

cvFilter2D( src, dst, kernel, CvPoint anchor CV_DEFAULT(cvPoint(-1,-1)))

Canny Border Detector

顔や数字の画像を処理する場合、これらの画像の境界を計算する必要があります。この非常に難しいタスクは、非常に古い組み込みアルゴリズム-Canny 1986を使用してOpenCVで解決されます。

エッジ（境界）は、輝度またはその他の種類の不均一性が急激に変化する画像の曲線です。簡単に言うと、エッジとは、輝度の急激な変化または変化です。

エッジの原因：

照明の変化;
色の変化;
シーンの深さの変化（表面の向き）。

アルゴリズムを使用するには、画像と浸食のしきい値を探す場所を指定する必要があります-これは、たとえば、暗い道路で車を見つけることができるようにするために必要です。

cvCanny( image, edges, threshold1, 
      

        
        
        
      

     threshold2, CV_DEFAULT(3) );

image-処理用の単一チャネル画像（グレースケール）;

edges

-関数によって検出された境界線を保存するための単一チャネル画像。

threshold1

最小しきい値。

threshold2

最大しきい値。

aperture_size

-Sobelオペレーターのサイズ。

Cannyアルゴリズムの仕組みは次のとおりです。

画像からノイズと不要な詳細を削除します。
画像の勾配を計算します。
エッジを薄くします。
エッジを輪郭に接続します（エッジリンク）。

ここまで読んだ人たち（そして、それらの半分以上があると信じたい）に、私はこの記事が事実発見の性格に過ぎないと言いたい、私はただ私の結論を共有したかった。私は技術的なコンピューター教育を受けていないので、不正確な点があるかもしれません-訂正やコメントを歓迎します。

そして、このトピックがロボティクス時代の到来に関連していることを願っています。

ComputerVision（RubyおよびOpenCV）