人間の脳のコピー:操作「畳み込み」

畳み込み人工ニューラルネットワーク(ANN)がすでに学習しているものは何ですか?







1.はじめに



誰が最初のANNを発明したか、どのように配置され、他のほとんど役に立たない水を注ぐかを説明するために、歴史への遠足からそのような記事を始めるのが慣習です。 退屈。 省略してください。 少なくとも比fig的には、最も単純なANNがどのように配置されるかを想像できるでしょう。 入力と出力を持つブラックボックスのようなニューロンと接続のみがあり、特定の関数の結果を再現するようにトレーニングできる古典的なニューラルネットワーク(パーセプトロンなど)を検討することに同意しましょう。 このボックスのアーキテクチャは私たちにとって重要ではありません。ケースによって大きく異なる場合があります。 彼らが解決するタスクは、回帰と分類です。







2.ブレークスルー



ANNの急速な発展を引き起こした最近の出来事は何ですか? 答えは明らかです。これは技術の進歩と計算能力の可用性です。







シンプルで非常に明確な例を挙げます。







2002:







画像



Earth Simulatorは、世界最速のコンピューティングシステムの1つです。 2002年に構築されました。 2004年まで、このマシンは世界で最も強力なコンピューティングデバイスでした。







費用 :350,000,000ドル。

エリア :テニスコート4面、

パフォーマンス :35,600ギガフロップス。







2015:

画像

NVIDIA Tesla M40 / M4:ニューラルネットワーク用GPU







費用 :5,000ドル

エリア :ポケットに収まる、

パフォーマンス :NVIDIA GPU Boostで最大2.2テラフロップスの単精度パフォーマンス







このように生産性が急速に向上した結果、リソースを集中的に使用する数学演算が一般的に利用可能になり、長年にわたる理論を実際にテストすることが可能になりました。







3.畳み込み演算。



実装におけるリソース集約型の理論の1つ、または非常に大きなパワーを必要とする方法の1つは、畳み込み演算です。







これは何? 整理してみましょう:







シール



画像

動物の実験では、David HubelとTorsten Wieselは、単純な形の画像の同一の断片が脳の同じ部分を活性化することを発見しました。 つまり、猫が円を見ると、ボックスが「B」のときにゾーン「A」がアクティブになります。 そして、これにより科学者はビジョンの原理に関するアイデアを提示する作品を書くことを奨励し、実験でこれを確認しました。









結論は次のようなものでした:







動物の脳には、画像内の特定の特徴の存在に反応するニューロンの領域があります。 すなわち 画像は脳の深部に入る前に、いわゆる特徴抽出器を通過します。







数学



画像



グラフィックエディターは長い間数学を使用して画像のスタイルを変更していましたが、判明したように、同じ原理をパターン認識の分野に適用できます。







ピクチャをポイントの2次元配列、各ポイントをRGB値のセット、各値が8ビットの数値とみなす場合、非常に古典的なマトリックスが得られます。 今、あなた自身を考えて、それをカーネル、マトリックスと呼び、それは次のようになります:



画像







イメージマトリックスの最初から最後まですべての位置を調べて、同じサイズのセクションをカーネルに掛けると、結果が出力マトリックスを形成します。







画像



以下が得られます:







画像







エッジ検出セクションを見ると、結果は顔であることがわかります。 そのようなカーネルを簡単に選択できます。これにより、出力でさまざまな方向の線と円弧が決定されます。 そして、これがまさに私たちが必要とするものです-最初のレベルの画像の機能。 したがって、同じアクションを再度適用すると、第1レベルの機能-第2レベルの機能(曲線、円など)の組み合わせが得られ、これに限定されない場合はこれを何度も繰り返すことができると想定できます。リソース。







カーネルマトリックスセットの例を次に示します。







画像

画像







そして、ここにレイヤーからレイヤーへの特徴抽出があります。 5番目のレイヤーには、非常に複雑な機能が既に形成されています。たとえば、目、動物の画像、および抽出プログラムがトレーニングされる他のタイプのオブジェクトです。







画像







当初、開発者は自分でカーネルを取得しようとしましたが、すぐにトレーニングで入手できることが明らかになり、これははるかに効果的です。







落とし穴



猫の脳の仕組みと数学的な装置の使用方法を理解したので、独自の機能抽出プログラムを作成することにしました! しかし... ...抽出する必要のある機能の数、必要な抽出レベルの数を考え、複雑な画像を見つけるには「それぞれの機能」の特徴の組み合わせを分析する必要があると推定したため、これをすべて保存するのに十分なメモリがないことを明確に認識しました。







数学者は再び救助に来て、プーリングの操作を思いついた。 その本質はシンプルです。高レベルの機能が特定の領域に存在する場合、他の領域をスローバックできます。







画像







このような操作は、メモリの節約に役立つだけでなく、画像のゴミやノイズを排除します。







実際には、畳み込みと結合の層は数回交互になります。







画像







最終的なアーキテクチャ



上記のすべてを適用すると、猫の頭よりも悪くない完全に機能する機能抽出アーキテクチャを取得できます。さらに、現在、コンピュータービジョンの認識の精度は98%に達し、科学者が計算したように、精度人間の画像認識の平均は97%です。 未来が来ました、スカイネットが来ています!







以下に、実際の特徴抽出スキームの例を示します。







画像

画像

画像







ご覧のように、最後の各回路にはニューロンの層が2〜3個あります。 これらは抽出の一部ではなく、序文からのブラックボックスです。 現在では、ボックスを認識すると、最も単純なネットワークのようにピクセルの色だけでなく、抽出器がトレーニングされた複雑な機能が存在するという事実が供給されます。 ええと、鼻、目、耳、髪の毛を見ると、各ピクセルの色を個別に指定するよりも、目の前にあるもの、たとえば人の顔を判断する方が簡単ですか?







このビデオは、機能抽出プログラムの仕組みを示しています。









4.ショーの運営者は誰ですか?



1. テンソルフロー



機械学習用の無料ソフトウェアライブラリ。 Googleサービスを非常にスマートにするほとんどすべてがこのライブラリを使用しています。







Inception-v3(Tensorflow上に構築されたGoogleの画像分類器が提供するもの)およびImageNetでトレーニングされた画像セットが提供するものの例:







画像







2. MS Cognitive Services (Microsoft Cognitive Toolkit)



マイクロソフトは別の方法で、使い慣れた目的で、リクエストの数を制限するために、お金と無料の両方で既製のAPIを提供します。 APIは非常に広範囲であり、多数のタスクを解決します。 あなたは彼らのウェブサイトでこれらすべてを試すことができます。







もちろん、TFと同様にMSCTを使用することもできます。構文と考え方も非常によく似ており、両方ともスタブ付きのグラフを記述しますが、既にトレーニング済みのモデルを使用できるのに時間を浪費するのはなぜですか?







画像







3. Caffe (Caffe2)



オープンライブラリ、任意のアーキテクチャを構築できるフレームワーク。 最近まで、最も人気がありました。 このフレームワークには、多くの既製(トレーニング済み)の無料ネットワークモデルがあります。







Caffeの使用例:

Rober Bondは、猫の認識のために訓練されたネットワークを使用して、彼の芝生から自動化された猫走りを構築しました。







画像







ライブラリ、ラッパー、アドオンにはまだ多くの異なるものがあります:BidMach、Brainstorm、Kaldi、MatConvNet、MaxDNN、Deeplearning4j、Keras、Lasagne(Theano)、リーフ。







5.適用範囲(結論ではなく)



記事の最後で、畳み込みネットワークの使用のいくつかの鮮明な例を共有したいと思います。







応用分野 コメント 参照資料
手書き認識 人間の精度-97.5%CNN-99.8% TF訓練されたネットワークの画像の 可視化、畳み込み作業のJSインタラクティブな可視化MNIST
コンピュータービジョン CNNは、写真内の単純なオブジェクトだけでなく、感情、アクションも認識し、ビデオを分析して自動操縦を行います(セマンティックセグメンテーション)。 感情セマンティックセグメンテーションSkypeキャプションボットGoogle画像検索
3D再構築 ビデオによる3Dモデルの作成 ディープステレオ
エンターテインメント 定型化と画像生成 ディープドリームディープスタイルビデオ スタイル 転送 生成、さまざまなオブジェクト生成
写真 品質向上、開花 顔の幻覚着色
創薬
安全性 異常行動検出(畳み込み+再発) 1、2、3
ゲーム その結果、ネットワークはプロよりも冷たくなり、ホールをノックアウトし、そこで特別にボールを打ちます。 アタリブレイクアウト



All Articles