🎳 👨🏿‍🎨 👩🏿‍🚀 ジェフリーヒントンのチームは、ImageNet Computer Vision Competitionで2つの優位性を獲得しています 🎅🏿 😿 👩🏼‍⚕️

ImageNetコンテストは2012年10月に開催され、写真内のオブジェクトの分類に専念しました。競争には、1000のカテゴリのパターン認識が必要でした。

ヒントンのチームは、ディープラーニング手法と畳み込みニューラルネットワーク、およびジェフディーンとアンドリューングのリーダーシップの下でGoogleが作成したインフラストラクチャを使用しました。 2013年3月、グーグルはトロント大学に拠点を置くヒントンのスタートアップに投資し、それによってこの技術に対するすべての権利を獲得しました。 6か月の間に、photos.google.comの写真検索サービスが開発されました。

このサービスは、1990年代後半にJan Lekun教授によって開発された畳み込みニューラルネットワークを使用しています。それでも、この技術により、手書き認識の問題を確実に解決することが可能になりました。それ以来、コンピューターの能力が大幅に向上し、ニューラルネットワークの大規模なトレーニングのための新しいアルゴリズムが登場しました。

技術的なインフラストラクチャについては、「教師なしの教育に関する大規模な実験の助けを借りた高レベルの属性の形成」という記事で一部説明しました。詳細な説明については、記事（pdf）を参照してください。数桁に制限します。 2次元画像の処理に特徴的なローカルに接続されたネットワークの使用により、1つの大きなニューラルネットワークをトレーニングするために、それぞれ512コアで、それぞれ16コアの最大32台のコンピューターを効率的に使用できます。分散最適化アルゴリズムと訓練されたパラメータの複製を使用するため、効果的に動作する並列プロセッサコアの数を数万に増やすことができます！

特に、ImageNetコンテストで優勝したネットワークのトレーニングには、100x100ピクセルの1,600万枚の画像が使用されました。ニューラルネットワークの出力層は、21,000の「すべての1つ」ロジスティック分類子で構成されていました。最適化されたパラメーター（ニューラルネットワークの重み）の総数は17億でした。 81台のマシンがトレーニングに使用されました-ほぼ1300コア。

1年足らず前にGoogleが取得した学術技術の実装により、マークされていない画像の卓越した検索サービスを最短時間で開発することが可能になりました。以下に興味深い結果を示します。

一般化

トレーニングサンプルとテストサンプルの画像には大きな違いがありますが、検索エンジンは一般化にかなり対応しています。たとえば、「花」の概念を教えるために、花のマクロ写真を使用して、フレームの中央に単一の花が含まれる理想的な構図にすることができます。訓練されたネットワークは、任意の構図と規模でアマチュア写真から花を見つけます。