Googleでの画像認識のためのニューラルネットワークの進化:Inception-v3

私は、インセプションアーキテクチャの生活について話し続けています。これは、Googleのconvnetアーキテクチャです。

(最初の部分- ここ

そのため、1年が経過すると、男性はGoogLeNet以降の開発の成功を発表します。

最終的なネットワークがどのように見えるかの恐ろしい画像を次に示します。

画像

そこでどんな恐怖が起こっているのでしょうか?







免責事項:投稿はclosedcircles.comの編集されたチャットログに基づいて書かれているため、プレゼンテーションスタイルと明確な質問です。







今回、著者は、効率的なネットワークのアーキテクチャを構築するためのいくつかの基本原則を策定しようとしています(実際の記事はhttp://arxiv.org/abs/1512.00567です )。

(Inceptionアーキテクチャの目的は、私たちが大好きな実際のアプリケーションの計算とパラメーターの数で主に効果的であることを思い出します)

彼らは次のように原則を定式化します:









ネットワークビルディングブリックの以前のバージョンは次のようになりました。









彼らはどのような修正を行いますか





画像







ここで、畳み込みを行うと安価になり、3x1 + 1x3ではなく、すぐにnx1 + 1xnを行う理由がわかります。

そして、グリッドの開始時ではないが、すでに7時になっています。 これらすべてのアップグレードにより、メインブリックは次のようになります。













問題は、最初のオプションはアクティベーションの数を大幅に削減することであり、2番目はフル解像度で畳み込みを行う必要があるため、計算の観点からは効率が悪いことです。







したがって、ハイブリッドスキームを提供します。機能プールを半分に、畳み込みを半分にしましょう。









また、プールの後、機能の数は通常2倍になるため、ボトネクは発生しません。 プールは、機能の数を減らすことなく前のプールを圧縮します。一部の畳み込みは最大解像度で駆動されますが、機能は少なくなります。 ネットワークは共有を学習しますが、これには完全な解像度が必要であり、プールには十分です。









そして今、ネットワークはいくつかの初期の畳み込みであり、これらはプールによって散在するレンガです。 合計ネットワーク11インセプションレイヤー。

したがって、最初の図の恐怖。







また、側面の追加分類子はトレーニングを大幅に加速するのではなく、正規化子として機能するため、むしろ役立ちます。バッチ正規化を接続すると、ネットワークの予測が向上します。







他に何...



追加の正則化のための別のトリック、いわゆるラベルスムージングを提供します。

簡単に言うと、これは次のとおりです。通常、特定のサンプルのターゲットラベルは、クラスが正しい場合は1、クラスが正しくない場合は0です。

これは、ネットワークがすでにクラスの正確性に非常に自信がある場合、勾配がプッシュされてこの信頼性が増加および増加することを意味します。







彼らは、他のクラスがゼロではなく、いくつかの小さな値を持つように、1回限りのターゲットと、データセットに従ってクラスを比例的に愚かに分布する分布とを混合することを提案しています。 これにより、別の百分位数のchtoli、つまり多くの勝ちが可能になります。







合計



そして、これらすべての機械はInception-v1の2.5倍のコンピューティングリソースを消費し、大幅に優れた結果を達成します。

これらはメインアーキテクチャInception-v2を呼び出し、追加の分類子がBNで機能するバージョンはInception-v3です。

このInception-v3は、Imagenetでトップ5の分類エラー4.2%に達し、4つのモデルのアンサンブルは3.58%です。







そしてこれにより、Googleの男性は2015年にImagenetを獲得しようとしていました。

しかし、ResNetsが発生し、Microsoft Research Asiaのパートナーが結果でKaiming Heを獲得しました... 3.57%!!!

(オブジェクトのローカライズでは、結果が根本的に優れていることに注意してください)

ただし、ResNetsについては別の機会に話します。







興味深い平均ホモサピエンスは、これらの写真にどのようなエラーが表示されます。

広く議論された唯一の実験は、アンドレイ「私たち全員」カルパシーによって行われました。

http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/

彼はデータセットのある部分でテストを行った結果、5.1%でした。

これもtop5ですが、人がtop5を選択するのは難しいかもしれません。

ところで、あなたは自分自身をチェックすることができます-http://cs.stanford.edu/people/karpathy/ilsvrc/

そしてそれは本当に複雑です。 彼らは、地中海のフィンチと占いのいくつかの亜種を紹介します。



All Articles