ジェフリーヒントンのチームは、ImageNet Computer Vision Competitionで2つの優位性を獲得しています

ImageNetコンテストは2012年10月に開催され、写真内のオブジェクトの分類に専念しました。 競争には、1000のカテゴリのパターン認識が必要でした。



ヒントンのチームは、 ディープラーニング手法と畳み込みニューラルネットワーク 、およびジェフディーンとアンドリューングのリーダーシップの下でGoogleが作成したインフラストラクチャを使用しました。 2013年3月、グーグルはトロント大学に拠点を置くヒントンのスタートアップに投資し、それによってこの技術に対するすべての権利を獲得しました。 6か月の間に、photos.google.comの写真検索サービスが開発されました。



このサービスは、1990年代後半にJan Lekun教授によって開発された畳み込みニューラルネットワークを使用しています。 それでも、この技術により、手書き認識の問題を確実に解決することが可能になりました。 それ以来、コンピューターの能力が大幅に向上し、ニューラルネットワークの大規模なトレーニングのための新しいアルゴリズムが登場しました。



技術的なインフラストラクチャについては、「 教師なしの教育に関する大規模な実験の助けを借りた高レベルの属性の形成」という記事で一部説明しました。 詳細な説明については、 記事(pdf)を参照してください 。数桁に制限します。 2次元画像の処理に特徴的なローカルに接続されたネットワークの使用により、1つの大きなニューラルネットワークをトレーニングするために、それぞれ512コアで、それぞれ16コアの最大32台のコンピューターを効率的に使用できます。 分散最適化アルゴリズムと訓練されたパラメータの複製を使用するため、効果的に動作する並列プロセッサコアの数を数万に増やすことができます!



特に、ImageNetコンテストで優勝したネットワークのトレーニングには、100x100ピクセルの1,600万枚の画像が使用されました。 ニューラルネットワークの出力層は、21,000の「すべての1つ」ロジスティック分類子で構成されていました。 最適化されたパラメーター(ニューラルネットワークの重み)の総数は17億でした。 81台のマシンがトレーニングに使用されました-ほぼ1300コア。

1年足らず前にGoogleが取得した学術技術の実装により、マークされていない画像の卓越した検索サービスを最短時間で開発することが可能になりました。 以下に興味深い結果を示します。



一般化


トレーニングサンプルとテストサンプルの画像には大きな違いがありますが、検索エンジンは一般化にかなり対応しています。 たとえば、「花」の概念を教えるために、花のマクロ写真を使用して、フレームの中央に単一の花が含まれる理想的な構図にすることができます。 訓練されたネットワークは、任意の構図と規模でアマチュア写真から花を見つけます。



画像

トレーニングセットからの花の画像




画像

システムが花を検出した画像




マルチモーダルクラス


ネットワークは、外観が大幅に異なる画像クラスを認識できました。 たとえば、システムは車の外部と内部の両方を「車」クラスとして分類します。 出力層では、フィーチャの多次元空間を分離する線形分類器が基本的に使用されるため、これはさらに驚くべきことです。



抽象概念の分類


このシステムは、「ダンス」、「キス」、「食べ物」などの抽象または非常に一般化されたクラスにうまく対処します。 興味深いのは、 色、テクスチャ、または形状などの単純な概念は、そのような概念にとって明らかではありません。



画像

画像

これらの画像で検出された食べ物




意味のある間違い


多くのコンピュータービジョンシステムとは異なり、特定のシステムが誤っている場合、そのエラーはかなり正当化されているように見えます。 そのような間違いは人間によってなされた可能性が高い-例えば、軟体動物(ヘビ)またはロバ(犬)の誤った分類を参照してください。



画像

バナナナメクジが誤ってヘビと認識された




画像

誤って犬と認識されたロバ




高度に専門化されたクラスの認定


システムは、色の種類(ハイビスカスなど)など、非常に特定のクラスを認識できました。「夜明け」などの幅広い概念を認識できるシステムの場合、微妙な兆候の分類は驚くべきものです。



画像

システムは、ホッキョクグマだと判断しました...




画像

...そしてこれはハイイログマです



All Articles