🏠 ☎️ 👨🏿‍💻 猫、犬、機械学習、深層学習について 🥓 🏩 🕔

1997年、Deep Blueはチェスでカスパロフを破りました。

2011年、ワトソンはJeopardyチャンピオンを破りました。

あなたのアルゴリズムは2013年にBobikとFluffyを区別できますか？」

この写真と序文は、昨年秋に開催されたKaggle Challengeからのものです。将来を考えると、最後の質問は「はい」と答えることができます-数十人のリーダーがタスクを98.8％完了しました。これは驚くほど印象的です。

そしてまだ-そのような質問の声明はどこから来たのですか？ 4歳の子供が長い間簡単に解決できる分類タスクが、プログラムにとって非常に困難であった（そしてまだ残っている）のはなぜですか？チェスをするよりも世界のオブジェクトを認識するのが難しいのはなぜですか？ディープラーニングとは何ですか？なぜ猫は恐ろしい不変の彼についての出版物に登場しますか？それについて話しましょう。

「認識する」とはどういう意味ですか？

2つのカテゴリと、カテゴリに対応する2つの山に配置する必要がある多くの多くの写真があるとします。どのような原則でこれを行いますか？この質問に対する素晴らしい答えは、誰も確かに知らないということですが、一般的に受け入れられているアプローチは次のとおりです。カテゴリの1つでのみ見つかる「興味深い」データを写真で調べます。これらのデータは機能と呼ばれ、アプローチ自体は機能検出と呼ばれます。生物学的脳が何らかの形で機能するという事実を支持するかなり強い議論があります-最初のことは、もちろん、猫の（再び）視覚皮質の細胞でのヒューベルとヴィーゼルの有名な実験です。

用語について

機械学習に関する国内の文献では、機能の代わりに「サイン」を書いていますが、私の意見では、それはなんとなくぼやけています。ここで私は「特徴」と言います、ロシア語のこのm笑が私に許されますように。

画像のどの部分を優れた機能として使用できるかを事前に知ることはできません。それらの役割は、イメージ、形状、サイズ、または色の断片など、何でもかまいません。フィーチャは、画像自体にも簡単に存在することはできませんが、ソースデータから何らかの方法で取得されたパラメーターで表現できます。たとえば、境界フィルターを使用した後などです。さて、複雑さが増したいくつかの例を見てみましょう。

右折と左折を区別できるグーグルカーを作り、それに応じてハンドルを回したいとします。良い特徴を見つけるためのルールは、ほとんど指で考えることができます。写真の上半分を切り取り、特定の色合い（アスファルト）のセクションを選択し、左側にある種の対数曲線を適用します。すべてのアスファルトが曲線の下に収まる場合は、右に曲がり、それ以外の場合は左に曲がります。曲率の異なる曲がり角の場合、そしてもちろん、乾燥状態と湿潤状態を含むアスファルトの異なる色合いのセットの場合、いくつかの曲線を取得できます。確かに、未舗装の道路では、この機能は役に立ちません。

手書き数字のデータセットMNISTの例-この写真は、おそらく機械学習に少なくとも少し精通しているすべての人に見られます。各桁には、その桁の種類を決定する特徴的な幾何学的要素があります-2つの下部のカール、ユニットのフィールド全体のスラッシュ、8つの2つの結合円など。これらの重要な要素を強調する一連のフィルターを作成し、これらのフィルターを1つずつ画像に適用すると、最良の結果を示した人は誰でも正しい答えを得ることができます。

これらのフィルターは、たとえば次のようになります

Joffrey Hinton の機械学習コースのニューラルネットワークからの写真

ちなみに、数字の7と9に注意してください-下部にはありません。事実、7と9で同じであり、認識に役立つ情報が含まれていないため、これらの機能を生成したニューラルネットワークはこの要素を無視しました。通常、そのような特徴フィルターを取得するには、通常の単層ニューラルネットワークまたは類似のものを使用します。

わかりました、トピックに近い。これはどう？

これらの2つの写真には多くの違いがあります-目が大きく広がっています。明るさ、色、または例えば、面白い偶然のレベル-左の写真では、左側が白い色で、右側が右側です。しかし、私たちは何も選択する必要がありません。つまり、猫や犬を確実に識別するものです。つまり、たとえば、次の2つの画像は同じカテゴリに属していると認識される必要があります。

それらを長い間見て、それらの間で一般的なものを理解しようとすると、耳の形が思い浮かびます-それらは多かれ少なかれ同じであり、右に傾いています。しかし、これも偶然です-猫が間違った方向を向いている、頭を傾けている、または一般的に後ろから撮影されている写真を簡単に想像することができます（同じデータセットから例を見つけることができます）。残りはすべて異なります。コートのスケール、色、長さ、目、姿勢、背景...一般的に、共通点はありません-それにもかかわらず、頭の中の小さなデバイスは、これら2つの写真を最高の精度で間違いなく同じカテゴリーに帰することができます。。私はあなたのことは知りませんが、時にはそのような強力なデバイスが私たち一人一人のすぐ近くにあり、手を貸すだけでも喜んでいますが、それがどのように機能するのかまだ理解できません。

5分間の楽観論（および理論）

わかったそれでも、素朴な質問をしようとすると-猫と犬は視覚的にどのように違いますか？リストを簡単に開始できます-サイズ、毛皮、口ひげ、足の形、撮影できる特徴的なポーズの存在...または、たとえば、猫には眉毛がありません。問題は、これらすべての特徴がピクセルの言語で表現されていないことです。これらの眉毛が何であり、どこにあるべきか、または足が何であり、どこから成長するかを彼に以前に説明するまで、それらをアルゴリズムに入れることはできません。さらに、一般的に、私たちは猫を持っていることを理解するためにこれらすべての認識アルゴリズムを実行します-「口ひげ」、「足」、「尾」の概念が適用できる生き物-そしてそれ以前には写真で壁紙やソファが終わり猫が始まる場所を十分に自信を持って言うことができます。円は閉じています。

ただし、ここからはまだ結論を導き出すことができます。前の例で機能を定式化したとき、オブジェクトの可能な変動性から始めました。道路の曲がり角は左または右にしかできません-他のオプションはありません（もちろん、まっすぐ進むことを除きますが、何もする必要はありません）。さらに、道路建設の基準により、曲がり角が非常に滑らかで、直角ではないことが保証されます。したがって、さまざまな回転曲率、路面の特定のシェードのセットを可能にするように機能を設計し、これが可能な可変性が終了する場所です。次の例：数字「1」は異なる手書きで書くことができ、すべてのオプションは互いに異なりますが、必然的にまっすぐな垂直（または傾斜）線を含む必要があります。そうしないと、1でなくなります。フィーチャフィルターを準備するとき、可変性のために分類子スペースを残します-スポイラーの下の画像をもう一度見ると、ユニットのフィルターのアクティブな部分は太いストリップであり、異なる傾斜と有効な鋭角で線を描くことができます上部にあります。

猫の場合、オブジェクトの「操作のためのスペース」は計り知れないほど巨大になります。写真には、さまざまな品種の猫がいる可能性があります。あなたが考えることができるあらゆる背景に対して、彼らはいくつかのオブジェクトによって部分的にブロックされる可能性があり、もちろん、彼らは10万の異なるポーズを取ることができます-そして、私たちは放送についてまだこれについて言及していません（画像内のオブジェクトを横に移動する）、回転とスケーリングは、すべての分類子の永遠の頭痛です。これらすべての変更を考慮に入れることができる、前のフィルターと同様のフラットフィルターを作成することは不可能な作業のように思われます.1枚の画像で何千もの異なる形状を精神的に組み合わせようとし、すべてに積極的に応答する形状のないフィルタースポットを取得します。したがって、必要な機能は、何らかの複雑な構造にする必要があります。どちらがまだ明確ではありませんが、これらすべての可能な変更を考慮に入れることができるはずです。

この「これまでのところ理解できない」は非常に長い時間続きました-機械学習の歴史のほとんど。しかし、突然、ある時点で、人々は周囲の世界についての1つの魅力的なアイデアを実現しました。次のように聞こえます：

すべてのものは、他の、より小さく、より基本的なもので構成されています。

「すべて」と言うとき、文字通り私たちが学べることは何でも意味します。まず第一に、視覚に関するこの投稿は、写真に示されているように、もちろん私たちの周りの世界の対象であるためです。目に見えるオブジェクトはすべて、安定した要素の構成として表すことができ、それらは順番に幾何学的形状で構成され、それらは特定の順序で配置された線と角度の組み合わせです。このようなもの：

（何らかの理由で私は有益な情報を見つけられなかったので、これはアンドリュー・ウンのディープラーニングについてのスピーチ（コースラの創設者）から切り取られました

ところで、素朴な反射の枠組みでは、私たちの音声と自然言語（人工知能の問題と長い間考えられてきた）は、文字が単語に、単語にフレーズに、そしてそれらが順番に文に結合される構造的階層であると言えますテキスト-そして、新しい単語に会うとき、それに含まれるすべての文字を再学習する必要はなく、特別な暗記とトレーニングを必要とするものとして、なじみのないテキストをまったく認識しません。歴史に目を向けると、次のような考えを表明するさまざまなアプローチを見つけることができます。

1. 1959年の実験ですでに言及したフーベルとヴィーゼルは、画面上の特定の記号に反応する脳の視覚皮質の細胞を発見しました。さらに、彼らは他の細胞の存在を発見しました。最初のレベルのセルからの信号。これに基づいて、彼らは同様の検出器セルの階層全体の存在を示唆しました。

実験のビデオからの美しい抜粋

...ここで、彼らがほとんど偶然にニューロンを反応させる必要な特徴を発見したことが示されています-ガラスの縁がカメラに落ちるように通常のサンプルより少し遠くに移動することによって。敏感な人には、動物のm笑に注意してください。

2.機械学習の専門家の2千分の1の領域のどこかで、 ディープラーニングという用語は、1つのニューロン層ではなく多数のニューロンネットワークを参照しているため、いくつかのレベルの機能を学習できます。そのようなアーキテクチャには、厳密に正当化された利点があります。ネットワークのレベルが高いほど、より複雑な機能を表現できます。そのようなネットワークをトレーニングする方法にはすぐに問題があります-以前に広く使用されていた逆伝播アルゴリズムは、多数のレイヤーではうまく機能しません。これらの目的のためのいくつかの異なるモデルがあります-自動エンコーダー、限定されたボルツマンマシンなど。

3.ジェフ・ホーキンスは、2004年の「知性について」の本で、階層的アプローチが推進し、未来は彼にあると書いています。彼はすでにボールの開始に少し遅れていましたが、私はそれを言及せざるを得ません-このアイデアは完全に日常的なものと単純な言語に由来し、機械学習から十分に遠い人であり、一般的にこれらすべてのニューラルネットワークが悪いと言いましたアイデア。本を読んで、それは非常に刺激的です。

コードについて少し

したがって、仮説があります。 1024x768のピアピクセルを学習アルゴリズムに詰め込んで、メモリ不足と認識に重要なピクセルを理解できないためにゆっくりとチョークを見るのではなく、さまざまなレベルで構成される画像から階層構造を抽出します。最初のレベルでは、写真の最も基本的で構造的に単純な要素のいくつかを見るつもりです-その建物のレンガ：境界、ストローク、セグメント。より高い-最初のレベルのフィーチャ（角度など）の安定した組み合わせ、さらに高い-前のものから配置されたフィーチャ（幾何学的形状など）。実際には、問題は-別の写真のそのような構造をどこで取得するかです。

コードを抽象的な質問として少し話しましょう。

コンピューターで現実世界のオブジェクトを表現する場合、いくつかのルールセットを使用して、このオブジェクトを1つずつデジタル形式に変換します。たとえば、文字はバイトマッピング（ASCII）に入れられ、画像は多くの小さなピクセルに分割され、それぞれが明るさと色の情報を伝える一連の数字で表されます。色を表現するためのモデルは多数ありますが、一般的には、トレーニングに使用するものは重要ではありませんが、簡単にするために、1ピクセルが0から1までの数字で表現され、その明るさを黒から白まで表現する白黒の世界を想像します

このビューの何が問題になっていますか？ここの各ピクセルは独立しており、最終画像に関する情報のごく一部のみを送信します。これは、一方で、画像をどこかに保存したり、ネットワーク経由で転送したりする必要があるときに、スペースを取りませんので、快適で有益です。一方で、認識には不便です。この例では、画像の下部に斜めのストローク（少し曲がった）があります。ここから推測するのは難しいですが、これは顔写真からの鼻の輪郭の詳細です。したがって、この場合、このストロークを構成するピクセルは私たちにとって重要であり、黒と白の境界は重要です-そして、正方形の上部にあるライトグレーの色合いでほとんど知覚できない光の遊びは完全に重要ではなく、それにコンピューティングリソースを費やすこともできません。ただし、このビューでは、すべてのピクセルを一度に処理する必要があります。各ピクセルは他のピクセルよりも優れています。

ここで別のコードを想像してみましょう。この正方形を他の同じ正方形の線形和に分解し、それぞれに係数を掛けます。透明度の異なる暗いガラスのプレートをどのように取り、各プレートにさまざまなストローク（垂直、水平、異なる）が描画されるか想像できます。これらのプレートを重ねて配置し、透明度を調整して写真に似たものを作成します。完璧ではありませんが、認識には十分です。

私たちの新しいコードは機能的な要素で構成されています-それぞれが、元の正方形に別の意味のあるコンポーネントの存在について何かを言うようになりました。垂直ストロークのコンポーネントの係数は0.01です。また、サンプルには「垂直性」がほとんどないことがわかります（ただし、「斜めストローク」がたくさんあります-最初の係数を参照）。この新しいコードのコンポーネントであるディクショナリを個別に選択した場合、ゼロ以外の係数はほとんどないと予想できます。このようなコードはsparseと呼ばれます。

このような表現の有用なプロパティは、 ノイズ除去オートエンコーダーと呼ばれるアプリケーションの例で見ることができます。画像を取得し、たとえば10x10の小さな正方形に分割し、各ピースに対応するコードを選択すると、この画像をランダムなノイズと歪みから印象的な効率で消去し、ノイズの多い画像をコードに変換して元に戻すことができます（たとえば、たとえば、こちらをご覧ください）。これは、コードがランダムノイズの影響を受けないことを示し、オブジェクトを認識するために必要な画像の部分を保存します。これにより、復元後のノイズが「少なく」なったと考えられます。

このアプローチの反対は、新しいコードが重いことです。コンポーネントの数によっては、以前の10x10ピクセルの正方形が重くなる可能性があります。スケールを評価するには、人間の脳の視覚皮質が約100,000個のニューロンを使用して14x14ピクセル（寸法196）をエンコードしているという証拠があります。

そして、階層の最初のレベルを突然取得しました。これは、このコードの語彙要素のみで構成されています。これは、今ご覧のように、ストロークと境界線です。この辞書をどこかから持ってくることは残っています。

5分間の練習

SciPy（Python）の機械学習用ライブラリであるscikit-learnパッケージを使用します。具体的には、MiniBatchDictionaryLearningのクラス（サプライズ）です。ミニバッチ-アルゴリズムは一度にデータセット全体ではなく、交互に小さいランダムに選択されたデータパケットで実行されるためです。プロセスは簡単で、10行のコードが必要です。

from sklearn.decomposition import MiniBatchDictionaryLearning from sklearn.feature_extraction.image import extract_patches_2d from sklearn import preprocessing from scipy.misc import lena lena = lena() / 256.0 #   data = extract_patches_2d(lena, (10, 10), max_patches=1000) #    10x10 -   data = preprocessing.scale(data.reshape(data.shape[0], -1)) # rescaling -    ,      1 learning = MiniBatchDictionaryLearning(n_components=49) features = learning.fit(data).components_

フィーチャにあるものを描画すると、次のようなものが得られます。

pylabを介した出力

 import pylab as pl for i, feature in enumerate(features): pl.subplot(7, 7, i + 1) pl.imshow(feature.reshape(10, 10), cmap=pl.cm.gray_r, interpolation='nearest') pl.xticks(()) pl.yticks(()) pl.show()

ここでしばらく停止し、最初からこれを行った理由を思い出してください。描かれたオブジェクトを構成する、かなり独立した「ビルディングレンガ」のセットを取得したかったのです。これを実現するために、多数の小さな正方形の断片を切り取り、アルゴリズムを介してそれらを駆動し、これらすべての正方形の断片を、そのようなコンポーネントの構成の形で認識できる十分な確実性で表現できることを発見しました。 10x10ピクセルのレベルでは（もちろん、画像の解像度に依存しますが）エッジと境界にしか遭遇しないため、結果としてそれらを取得します。

このエンコードされた表現を検出器として使用できます。ランダムに選択された画像がエッジであるかボーダーであるかを理解するために、scikitに次のように同等のコードを取得するよう依頼します。

 patch = lena[0:10, 0:10] code = learning.transform(patch)

コードのコンポーネントのいずれかが他のコンポーネントに比べて十分に大きい係数を持っている場合、これは対応する垂直、水平または他のストロークの存在を示していることがわかります。すべてのコンポーネントがほぼ同じである場合、それは写真のこの場所に単純な背景またはノイズがあることを意味します。

しかし、私たちは先に進みたいです。これには、さらにいくつかの変換が必要になります。

したがって、サイズ10x10の任意のフラグメントは、49個の数字のシーケンスで表現できます。各数字は、上の図の対応するコンポーネントの透明度係数を意味します。次に、これらの49個の数字を7x7の正方行列の形式で記述し、何が起こったかを描きます。

そして、次のことがわかりました（明確にするために2つの例を示します）。

左側は元の画像の断片です。右側はエンコードされた表現です。各ピクセルは、コード内の対応するコンポーネントの存在レベルです（明るいほど強い）。最初のフラグメント（上）には明確なストロークがなく、そのコードは淡い灰色の淡い強度の行のすべての混合物のように見え、2番目のコンポーネントには明確に存在し、残りはすべてゼロです。

次に、階層の2番目のレベルをトレーニングするために、元の画像から大きなフラグメントを取り出し（いくつかの小さなもの、たとえば30x30）、それに収まるようにし、小さなフラグメントに切り取り、エンコードされたバージョンでそれぞれを提示します。次に、一緒にドッキングし、そのようなデータに基づいて別のDictionaryLearningをトレーニングします。ロジックは単純です-最初のアイデアが正しければ、隣接するエッジと境界線も安定した繰り返しの組み合わせにまとめる必要があります。

例の結果として判明したことは、一見して意味のあるものに見えませんが、一見しただけです。ここでは、たとえば、人間の顔で訓練された階層の第2レベルで何が起こるか。

何とか写真が多すぎる

ただし、ここでは、フラグメントサイズをさらに選択します-10x10ではなく25x25。このアプローチの不快な機能の1つは、「最小セマンティックユニット」のサイズをカスタマイズする必要があることです。

2番目のレベルは最初のレベルのコードでトレーニングされるため、結果の「辞書」を描くためにいくつかの困難が発生し、そのコンポーネントは上の図のドットが崩れたように見えます。これを行うには、別のステップを踏む必要があります-これらのコンポーネントを再び分割し、最初のレベルを使用して「デコード」しますが、ここではこのプロセスを詳細に検討しません。

そして、まったく同じ原則に従って、必要になるまでレベルが上がります。ここで、たとえば、3番目です。そして、ここで私たちはすでに面白いものを見ています：

ここの各面は、160x160サイズの機能です。最も一般的な場所はいくつかあります-正面、左右に半回転、さまざまな肌の色。同時に、各機能にはさらに2つのレイヤーがあり、最初にテストイメージの有効性をすばやく確認できるようにし、2番目に追加の自由度を与えます-輪郭と境界線は理想的な線から外れることがありますが、これまでのところ彼らのレベルの特徴、彼らは彼らの存在を2階に知らせる機会があります。

悪くない。

そして、何-すべて、私たちは勝ちましたか？

明らかにそうではありません。実際、猫と犬に関する目的のデータセットにこれらのすべてのセットを描画するのと同じスクリプトを実行すると、画像は非常に憂鬱になります-レベルごとに、わずかに湾曲した境界線を描くほぼ同じ機能を返します。

わかりました、これは間違いなく最後です

1匹の犬の顔を埋めることが判明しましたが、これは純粋なチャンスです-サンプルで同様のシルエットが、たとえば2回見つかったからです。スクリプトを再度実行すると、表示されない場合があります。

従来のフィードフォワードニューラルネットワークを批判したのと同じ理由で、私たちのアプローチは苦労しています。学習プロセスにおける辞書学習は、いくつかの共通の場所、画像の選択されたフラグメントの構造コンポーネントを探します。顔の場合、すべてがほぼ類似しているため、すべてがうまくいきました-一定の数の逸脱を伴う細長い楕円形（および階層のいくつかのレベルは、この点でより多くの自由を与えます）。猫の場合、データセット全体で2つの類似したシルエットを見つけることは難しいため、機能しなくなりました。アルゴリズムは、テストセット内の画像間で共通点を検出しません-ストロークと境界線をまだ処理している最初のレベルを除きます。失敗。再び行き止まり。 ~~使いました。~~

未来へのアイデア

実際、考えてみると、多数の異なるアザラシのサンプルは、さまざまな品種、姿勢、サイズ、色をカバーするという点で優れていますが、私たちの知性さえ訓練するのにはあまり成功しないかもしれません。最終的に、オブジェクトの可能性のあるすべてのバリエーションをすばやく調べるのではなく、オブジェクトの繰り返しと観察を繰り返す方法によって多くを学びます。ピアノの弾き方を学ぶためには、絶えず音階を弾く必要があります。そして、このために千の古典的な作品を聴くだけで十分であればいいと思います。したがって、アイデアは、サンプルの多様性から逃れ、同じシーン内の、たとえば異なる位置にある1つのオブジェクトに集中する回数です。

2番目のアイデアは最初から続いており、Jeff Hawkinsが言及したものを含め、多くの人々から既に発言されています。最後に、1つのオブジェクトで時間内に観察するさまざまな形と姿勢を確認します-そして、最初に、少しずつ新しい猫を表示するように、同じ猫を表示すると信じて、順番に到着する写真をグループ化できますポーズ。つまり、少なくとも、トレーニングセットを根本的に変更し、「kitty wakes up」というリクエストで見つかったYouTubeビデオを用意する必要があります。しかし、それについては次のシリーズで詳しく説明します。

コードを見てください

... githubでできます。 python train.py myimage.jpgを実行します（写真でフォルダーを指定することもできます）、さらに追加の設定-レベルの数、フラグメントのサイズなど。 scipy、scikit-learn、matplotlibが必要です。

役立つリンクと、ディープラーニングに関するその他の情報

ディープラーニングの入門書は、背景、簡単な紹介、より美しい写真を含む有益な投稿です。
UFLDLチュートリアル -既に述べたスタンフォード大学のAndrew Ngによるチュートリアル -手を汚すために。導入、プロセス数学、フィードフォワードネットワークとの類似、Matlab / Octaveでの例と演習など、文字通り、その仕組みを知るためのすべてがあります。
無料のオンラインブックNeural Networks and Deep Learningは、残念ながらまだ終わっていません。かなり一般的な形式で、パーセプトロン、ニューロンのモデルなどから始まる基本を説明します。
ジョフリーヒントンがニューラルネットワークの新世代について語る
ホーキンスとの最後の話では、彼は彼の本とほぼ同じですが、より具体的に述べています。インテリジェントアルゴリズムでできること、人間の脳の既知の特性がこれについて教えてくれること、ニューラルネットワークに満足できない理由、スパースコーディングの使用についてはどうでしょうか。

猫、犬、機械学習、深層学習について