ニューラルネットワークのトレーニングについて

画像

これはレベル2の記事です(以下を参照)。

この記事は、 畳み込みニューラルネットワークとその画像認識への応用に関する私の話の論理的な続きです。

続行する前に、機械学習の分野の同じ人々が何をしているか、そして彼らのグローバルな目標が何であるかを理解したいと思います。 グローバルな目標は、 機械によるすべての人々奴隷化、トレーニングを通じて、外界の複雑で非線形なモデルを構築できる方法とアルゴリズムの作成です。 説明として、私は[1]から感謝して借りた写真を見ることを提案します。 今、人類はすでに簡単な操作を学習できるアルゴリズムを作成する方法を知っていますが、この種の変換についてはどうですか?座っている人の画像があります。これは、本質的に各ポイントの画像の輝度値の生のベクトルです。 そして、これらの生データの抽象性を徐々に増やして、「人が座っている」と結論付ける必要があります。 したがって、主な質問自体: 単純な(非線形ではあるが)依存関係を理解できるだけでなく、現実世界の表現の複雑な多次元およびマルチレベルの階層を学習できるシステムを作成する方法は?



この点で、いくつかの困難に形式化されたタスクが、いわゆる ハードワイヤード方式。 しかし、同じ問題が同じ品質レベルで釣り合ったリソースコストで解決された場合、システム自体が学習プロセスで知識を獲得したため、そのような結果はより高く評価されます。

SNAのトピックに戻ると、これらは画像だけでなく時系列(音声)のさまざまな認識問題で正常に使用されていることを思い出します。特定の改善があれば、分類するだけでなく、生成および評価することもできます。 それらを他のすべてと区別する畳み込みニューラルネットワークの主な特徴は、入力制限と局所的知覚のレイヤーごとの変更と同様に、重量制限の人為的な課しです。 フィーチャマップのレイヤーごとのサイズ変更がスケールの不変性を確保するための単なるトリックであり、ローカル認識が良いがかなり古いアイデアである場合(ネオコグニトロン、70年代)、制限の人為的な導入、つまり共有ウェイトのメカニズムは非常に興味深いものです。 多くのニューラルネットワークの父親(Hintonと彼のフォロワー)は、これまで誰も逆伝播を使用して3層以上のニューラルネットワークを適切にトレーニングできず、SNAを除いて成功する可能性が低いことを認めました[1]。 そして、この排他性の理由は、正確に重みの分離の特性と呼ばれています。

重みを共有するという考え方は、スパースフィーチャの考え方に非常に近い[2]。その意味は次のとおりです。 入力で生の形式でデータを受け取り、出力でそれらを何らかの表現で提供する、ある種のトレーニングシステムがあります。 標識のカードを形成します。 放電された機能のアイデアは、トレーニング中に、システムが入力データを提示するプロセスで可能な限り少ない出力を使用するように強制的に説得する必要があるということです。 そのような暴力は通常、いわゆる 非張力(希薄性ペナルティ)の罰金。 そして、これで私は個人的に私たちの脳がどのように機能するかとの素晴らしい類似性を見ています。 世界の全体的な多様性において、開発者(子供)はすべてを連続して覚えようとすると夢中になる可能性があるため、私たちの周りのすべての現象や物体に最も一般的な兆候を覚えておく必要があるのは当然です。 したがって、特定の画像の辞書が頭の中に構築され、それを使用して残りの世界を理解します。 さらに、階層の各レベルには独自の辞書があります。 例としては、青リンゴが表示され、青リンゴであると表示された後、2つのリンゴが表示され、2つのリンゴであると表示される場合の言語学習方法です。 これら2つの状況のうち、脳は両方に共通するものを強調し、リンゴが何であるかを理解します。 同様に、データのエンコードに多すぎる出力を使用する罰金は、システムがすべての入力に可能な限り共通の画像を使用する方法を学習することにつながります。

畳み込みニューラルネットワークで、入力データの処理に使用される重みの数が人為的に制限されている理由が明らかになったと思います。

これまでのところ、今後の記事でこのトピックを続けていきます。



いくつかの革新を提案します。 人工知能は、幅広い人々にとってかなり興味深いトピックであり、主婦からこの分野に携わる科学者まで専門的に読んでいるので、記事のアクセシビリティのレベルを1から5レベルまで導入します。 これをタグとして追加することもできます。たとえば、AI1-エントリレベル、AI5-プロフェッショナルレベルです。 そうすれば、初心者がレビューから詳細に進むのが簡単になります。 当然、これはレベル5の記事でさえ「祖母が理解できるように」書かれるべきであるという事実を否定しません(c)。




[1] Yoshua Bengio、Learning deep architectures for AI(2009)、in:Foundations and Trends in Machine Learning、2:1(1-127)

[2] M. Ranzato、Y。LeCun、「文書画像に適用される疎で局所的にシフトする不変特徴抽出器」。 ドキュメント分析と認識に関する国際会議(ICDAR 2007)、クリチバ、2007



All Articles