💢 🕴🏼 👨🏽‍🔧 「あなたのために記事を読む」という見出し。 2017年8月 🍳 🤾🏿 🏡

こんにちは、Habr！この問題から、良い伝統が始まります。チャンネル#article_essenceのOpen Data Scienceコミュニティのメンバーからの科学記事のレビューが毎月発行されます。誰よりも早くそれらを受け取りたい場合は、 ODSコミュニティに参加してください！

記事は、個人的な興味から、または進行中のコンテストに近いために選択されます。あなたがあなたの記事を提供したい場合、またはあなたが希望を持っている場合-コメントを書くだけで、私たちは将来的にすべてを考慮に入れようとします。

今日の記事：

1.ノイズに合わせる、または何もしない：市場での機械学習

オリジナル記事

投稿者：kt {at} ut {dot} ee

これは、金融市場がディプラーリングによって予測される記事のレビューです。投稿の著者（以降-ZHD）は、この記事および類似の記事の次の明白なナンセンスを指摘しています。

すべての実験から最大値を取得する方法による精度インジケータの魅力。それどころか、中央値はランダムな予測に対応しています。
現在まったく取引されていない（つまり、一定の価格を持っている）商品で得られた「良い結果」について自慢します。一般的に、ZHDは、ランダムな予測変数ではなく、売買戦略と取引モデルを比較することを推奨します。
著者は、取引に手数料がかからず、過去5分間の最高値と最低値の平均に等しい価格で取引を実行できると仮定して、戦略を「ふり」します。このため、シミュレーションでは、最高の利益が最も流動性の低い楽器から得られます（実際には常に平均価格5分で販売されることにはほど遠いため、すべての利益は流動性の不公平な仮定により「獲得」される可能性が最も高い）。さらに、著者はネガティブにシミュレートされたすべてのことについて沈黙している少数の「成功した」モデルのみを誇っています。
著者は、取引所の取引時間（取引（取引ピット）の対面セッションを含む）を考慮しておらず、ZHDによると、これは間違っています。

2.翻訳で学んだ：文脈化された単語ベクトル

→ オリジナル記事

→ コード

投稿者：kt {at} ut {dot} ee

私たちの時代の転勤は標準的な技術です。 ImageNetラップドッグの品種で訓練されたグリッドを取得し、鼻水タイプの認識のためにどこかにねじ込むことは、すべての母親のディプロプナーのための標準プログラムです。ワードプロセッシングのコンテキストでは、通常、転送の学習はそれほど深くなく、Word2Vec、GloVeなどの準備されたワードベクトルの使用に依存します。

この記事の著者は、次のようにテキスト転送の学習を1レベルだけ深めることを提案しています。

LSTMベースのseq2seqモデル（エンコーダー+デコーダーに隠れた状態に注意を払ったデコーダー）をトレーニングして、たとえば英語からドイツ語に翻訳します。
エンコーダーのみを使用します（LSTMの単純な形式（埋め込み（word_idxs））。このエンコーダーは一連の単語をLSTMの隠された状態のシーケンスに変換できます。これらの隠された状態はランダムに取られないため（変換モデルはその減衰で使用します）、間違いなく有用なシグナルがそこにあります。
以上で、GloVeワードベクトルだけでなく、翻訳エンコーダーからそれらに接着された対応するLSTM隠しベクトル（コンテキストベクトル、CoVeと呼びます）にフィードする他のテキストモデルを構築しましょう。

さらに、著者はバイアテンションとmaxout（明らかに、以前の仕事から積み上げられた）を使用して、自明でないモデルを作成し、ランダムな埋め込み、GloVe、GloVe + CoVe、GloVe + CoVe + CharNGramEmbeddingsをフィードする場合のさまざまなタスクでの動作を比較します。

結果によると、CoVeを追加すると、裸のGloVeの精度が約1％向上するようです。効果が小さい場合もあれば、負の場合もありますが、CoVeの代わりにCharNGramをモデルに追加すると、同じかそれ以上の効果が得られます。いずれにせよ、GloVe + CoVe + CharNGramsの組み合わせは、他のすべての方法よりも正確に機能します。

私の意見では、著者は比較されたタイプの埋め込み（GloVe対CoVe）の上に減衰を備えたしっかりと構築されたモデルを台無しにしたという事実により、CoVeユーティリティ効果の測定は過度にうるさく、あまり説得力がないことが判明しました。もっと「実験室」の測定が見たいです。

3. AIを使用してアニメキャラクターを作成します。

→ オリジナル記事

→ ウェブサイト

投稿者：kt {at} ut {dot} ee

絵図付きのさまざまな日本のゲームからアニメキャラクターの「プロファイル」を収集するGetchuサイトがあります。これらの写真はダウンロードできます。

写真で顔を見つけるには、特定のツール「lbpcascade animeface」を使用できます。したがって、著者は42kのアニメの顔を受け取り、ペンで修正し、悪い例の4％を捨てました。

アニメ写真の「笑顔」、「髪の色」などのプロパティを認識できる、特定の既製のCNNモデルIllustration2Vecがあります。著者は、画像のブロックを解除するためにそれを使用し、それらに関心のある34のタグを選択しました。

著者はそれをすべてDRAGANに押し込んだ（Kodaliら、通常のGANとは異なり、著者は明らかに深く、原理に基づいていない）。

与えられた属性で写真を生成できるようにするために、著者はACGANの場合と同じようにします：

ジェネレータには属性ベクトルが供給されます。
彼らは弁別者にこのベクトルを予測させます。
さらに、判別器が正しいクラスを推測しなかった割合に応じて、ジェネレーターに罰金が科されます。

ジェネレーターとディスクリミネーターはどちらも、かなり混乱した革命的なSRResNetです（ジェネレーターは16ブロック、ディスクリミネーターは10ブロック）。著者は、「勾配ノルムの計算に望ましくないミニバッチ内で相関をもたらすため」、識別器から識別器層を削除しました。私はこの問題を完全には理解していませんでしたが、誰かに突然明らかになるかどうかを説明してください。

すべてが0.0002から開始してlrを減らしてAdamによってトレーニングされましたが、どのくらいの期間かはあまり明確ではありません。

webappの場合、作成者はWebDNN（ https://github.com/mil-tokyo/webdnn ）でネットワークを変換したため、クライアントのブラウザーですべての画像を直接生成します（！）。

4. LiveMaps：地図画像をインタラクティブな地図に変換

→ オリジナル記事

→記事-Best Short Paper Awart SIGIR 2017の受賞者

投稿者： zevsone

地図画像を分析し、関連するビューポートを抽出するための、根本的に新しいシステム（LiveMaps）が提案されています。

このシステムでは、検索エンジンを使用して取得した画像に注釈を付けることができ、ユーザーはリンクをたどって、見つかった画像に対応する場所の中心にあるインタラクティブマップを開きます。

LiveMapsはいくつかの方法で機能します。最初に、画像が地図かどうかを確認します。

「はい」の場合、システムはこの画像の位置情報を特定しようとします。場所を特定するために、画像から抽出されたテキストおよび視覚情報が使用されます。その結果、システムは、画像に対して計算された地理的領域を表示するインタラクティブなマップを作成します。

上位の位置データセットの評価結果は、システムが良好なカバレッジを達成しながら、非常に正確なインタラクティブマップを構築できることを示しています。

PSこのような由緒ある会議でベストショートペーパー賞を受賞することは期待していませんでした（今年の競争相手の121ショートペーパー、すべての業界の巨人）。

5.ランダム消去データの増強

→ オリジナル記事

egor.v.panfilov {at} gmail {dot} comが投稿

この記事は、画像増強の最も単純な方法の1つであるランダム消去（ロシア語ではランダムな長方形の描画）の研究に専念しています。

拡張は、4つのパラメーターでパラメーター化されました：（P_prob）各画像にバッチを適用する確率、（P_area）領域サイズ（面積比）、（P_aspect）領域アスペクト比、（P_value）値で満たされた：ImageNetのランダム/平均0/255。

著者は、この増強方法が3つのタスクに与える影響を評価しました：（A）オブジェクトの分類、（B）オブジェクトの検出、©個人の再識別。

（A） ：AlexNetからResNeXtで終わる6つのアーキテクチャが使用されました。データセット-CIFAR10 / 100。最適なパラメーター値は次のとおりです。P_prob= 0.5、P_aspect =広い範囲ですが、できれば1（正方形）ではなく、P_area = 0.02-0.4（画像の2-40％）、P_value = ImageNetでランダムまたは平均、0および255の場合、結果は著しく悪化します。また、拡張（ランダムクロッピング、ランダムフリッピング）および正則化（ドロップアウト、ランダムノイズ）を他の方法と比較しました：効率を低下させるために、すべて、ランダムクロッピング、ランダムフリッピング、ランダム消去です。このメソッドは「チップ」を実行します。一般に、この方法は最も強力ではありませんが、最適なパラメーターを使用すると、1％の精度が安定して得られます（5.5％-> 4.5％）。また、重複するオブジェクトに対する分類器の堅牢性が向上すると書いています：you-dont-say：。

（B） ：PASCAL VOC 2007 + 2012でFast-RCNNを使用しました。 3つのスキームを実装しました：IRE（イメージ対応のランダム消去、盲目的にゼロ化する領域も選択します）、ORE（オブジェクト対応、バウンディングボックスの一部のみをゼロ化）、I + ORE（両方）これらの方法の間にmAPに大きな違いはありません。純粋なFast-RCNNと比較すると、約5％（VOC07で67-> 71、VOC07 + 12で70-> 75）、 A-Fast-RCNNと同じ量になります。最適なパラメーターは、P_prob = 0.5、P_area = 0.02-0.2（2-20％）、P_aspect = 0.3-3.33（横たわっている状態から立っている状態まで）です。

（C） ：Market-1501 / DukeMTMC-reID / CUHK03でID-discim.Embedding（IDE）、Triplet Net、SVD-Net（すべてResNetに基づいており、ImageNetで事前にトレーニング済み）を使用しました。すべてのモデルおよびデータセットで、ランク1で少なくとも2％（最大8％）、mAPで少なくとも3％（最大8％）が安定して増加します。パラメーターは（B）と同じです。

一般に、この方法は単純ですが、研究と記事は非常に簡潔で詳細（10ページ）であり、多数のグラフと表があります。中国人に満足して、何も言えません。

6. YellowFinと運動量調整の芸術

→ オリジナル記事

→ 運動量に関する追加資料

投稿者： Arech

ずっと前に読んだので、非常に非常に表面的です。一次元の厳密に凸の二次関数の目的で、古典的な運動量（Boris Polyakの運動量）を思慮深く喫煙した後、学習率と運動量係数をつなぐ不平等そのため、特定の「堅牢な」領域に分類され、SGDアルゴリズムの最速の収束が保証されます。そして、このステートメントは、少なくともいくつかの局所領域で、いくつかの非凸関数に対して原理的に何らかの形で満たすことができることが示されました。これは、二次近似で多少近似できます。次に、以前の勾配変化の履歴の知識に基づいて、不等式に必要な誤差関数の表面特性（勾配分散、一部の「一般化された」表面曲率、および現在の点の2次近似の極小値までの距離）を近似するチューナーYellowFinをガッシュすることにしました。これらの近似のうち、SGDで使用する学習率と運動量の適切な値が得られます。

また、ネットワークの非同期（分散）トレーニングの問題を研究した男は、そのような方法の一般化（閉ループYellowFin）を提案しました。これは、そのような条件での実際の勢いが計画よりも大きいことを考慮しています。

それぞれCIFAR10および100で畳み込み110層および164層ResNetをテストし、PTB、TSおよびWSJで一部のLSTMをテストしました。結果は興味深い（Adamに比べてx1.18からx2.8の加速）が、いつものように、実験をセットアップするための質問があります-競合他社の係数の大まかな選択、+ emnip、各アーキテクチャで1回の実行、+トレーニングセットの結果のみが表示されます...要するに、一番下に到達するものがあります...

このようなことを願っています

私はそれを自分のlibinにカットすることを考えていましたが、自己正規化ニューラルネットワーク（SELU + AlphaDropout）に固執しました。これは少し前に取り組んでいたため、私の手に届くまで非常に有用でした。私は、Lesagneのスレッド（ https://github.com/Lasagne/Lasagne/issues/856-結果の再現に問題がある人）をフォローしています。一般に、結果の再現に関する詳細情報が得られることを期待しています。だから誰かが試してみたら-chocakを共有してください。

7.悪魔はデコーダーの中にあります

→ オリジナル記事

投稿者： ternaus

問題は、デコーダーが存在するさまざまなアーキテクチャにとって、どのUpSamplingが優れているか、特にセグメンテーション問題、超解像、色付け、深度、境界検出で小数第5位を争う多くの人の頭を悩ますことです。

GoogleとUCLのメンバーは混乱し、経験的に、誰が優れているかを確認し、このロジックを見つけることにした記事を書きました。

チェック済み-違いがあることが判明しましたが、ロジックはあまり見えません。

セグメンテーションの場合：

[1]転置変換=アップサンプリング+変換であり、誰もがUnetの規範で激しく使用しています。

[2]スキップされた接続のキャスト、つまり、SegNet => Unet変換は、コンクリートのキャストを強化します。これは直感的ですが、ここには数字があります。

[3]トランスポーズされたSeparable Transposedのように見えますが、セグメンテーションのオプションが少ない方がうまく機能します。 #proj_carsの人々にこれをチェックしてほしい。

[4]セグメンテーションに関する彼らが提案した独創的な双線形加法アップサンプリングは、おおむね[3]のように機能します。しかし、これは#proj_cars checkからチームにも向けられています

[5]それらは理論的には何かを追加する可能性のある残りの接続をどこかに投げますが、正確にはあまり明確ではなく、非常に不確実で常にではない追加します。

セグメンテーションタスクの場合、resnet 50をベースとして使用し、上からデコーダーを追加します。

インスタンス境界検出の問題については、マークアップアルゴリズムのオーバーフィットが少なく、より多くの数値が得られるメトリックを選択することにしました。

つまりDuring the evaluation, predicted contour pixels within three from ground truth pixels are assumed to be correct

。これにより、すべてのピクセルが重要なタスクにすべてがどのように転送されるかという疑問がすぐに生じます。（ここでは、1ピクセルの厚さのフェンスを見つけるためのKostinのサテライトトリックと、人々が車の問題で国境で+ -1ピクセルのために戦っている方法を思い出します）

[6]トレーニングするすべてのネットワークで、スケールは0.0002のオーダーのL2正則化を使用します

Karpatyは、以前より安定した収束のためにこれを常に行うと言っていたようです。（私はこれを試してみる必要があります、誰かがこれを行い、それが目立った何かを与えるなら、スレッドでそれについて話すのがいいでしょう）

要約：

[1]誰が、いつ、より良い質問をしたが、答えなかった。

[2]彼らは、アップサンプリングを行う別の方法を提案しました。これは他の方法と同じように機能します。

[3]彼らは、スキップされた接続が確実に役立つこと、そして月の位相に応じて残留することを確認しました。

GridProが#proj_carsで言うことを1か月待っています。

8. Generic Data Augmentationを使用した深層学習の改善

→ オリジナル記事

egor.v.panfilov {at} gmail {dot} comが投稿

エピグラフ：中国の栄冠は、黒大陸でも誰にでも出没します。彼らはまだ良いコンピューターを提供していないのは事実ですが、テルナウスは私に「それで続けます」と書くように命じました。

著者は、画像分類問題に関する画像増強方法のベンチマークを実施し、さまざまなケースでの使用に関する推奨事項を開発しようとしました。最初の近似では、これらのメソッドは2つのカテゴリに分類されます：Generic（一般的に適用可能）およびComplex（ドメイン情報/生成を使用）。この記事はジェネリックのみを対象としています。

この記事のすべての実験は、ZFNet（バニラZFNetの最適なトレーニング方法に関する記事の有益な部分の半分）を使用して、Caltech-101（クラス101、9144画像）で行われました。 DL4jを使用して30の時代を教えました。考慮される増強方法：（1）増強なし、（2-4）幾何学的：水平反転、回転（-30度および+ 30度）、トリミング（4コーナートリミング）、（5-7）フォトメトリック：色のゆらぎ、エッジ強調（Sobelフィルターの結果を画像に追加）、PCAを空想（画像の主成分を強化）。

結果：ベースラインに対して（top1 / top5：48.1％/ 64.5％）（a）フリッピングは+ 1/2％を与えるが、精度の広がりを増加させる、（b）回転は+ 2％を与える、（c）トリミングは+ 14％を与える、（ d）カラージッター+ 1.5 / 2.5％ 、（de）エッジ強調および+ 1/2％の派手なPCA。すなわち幾何学的な方法の中ではトリミングが先にあり、測光的な方法の中には色のジッターがあります。結論として、作者は、トリミングの増強中の精度の大幅な改善は、データセットが元の4倍であるという事実による可能性があると書いています（バランスは運命ではありません）。ポジティブから-彼らはモデルの精度を評価するとき、5倍の交差検証を忘れませんでした。なぜこれらの増強方法（特に人気のあるものを含む）の中から具体的に選ばれたのか、次の記事で明らかになります。

9.効率的なニューラルネットワークの重みと接続の両方を学習する

→ オリジナル記事

egor.v.panfilov {at} gmail {dot} comが投稿

この記事では、最新のDNNアーキテクチャ（特にCNN）によるリソース消費の問題を考慮しています。主な問題は、動的メモリへのアクセスです。たとえば、20 Hzで10億の接続がある干渉ネットワークは、約13 Wを消費します。

著者は、アクティブなニューロンとネットワーク接続の数を減らすための剪定方法を提案しています。（1）完全なデータセットでネットワークをトレーニングし、（2）特定のレベル以下の重みで通信をマスクし、（3）完全なデータセットで残りの接続を再トレーニングします。アグレッシブ（1つのアプローチの場合）プルーニングの結果はわずかに悪い（たとえば、ImageNet上のAlexNetの場合、5倍対9倍）ため、ステップ（2）および（3）を数回繰り返すことができます。トリック：重みのL2正規化を使用して、再トレーニング中のドロップアウトを減らし、学習率を低下させ、CONVレイヤーとFCレイヤーを別々にドリルして再トレーニングし、ステップ（2）の結果に従ってデッド（非接続）ニューロンを破棄します

実験は、MnetistのLenet-300-100、Lenet-5ネットワーク、AlexNet、ImageNetのVGG-16を使用してCaffeで実行されました。 MNIST：ウェイトとFLOPの数を12倍 に減らし、プルーニングがアテンションメカニズムの特性を示していることも発見しました（エッジでさらにカットします）。 ImageNetで ：AlexNetは75時間トレーニングし、173時間再トレーニングし、VGG-16は5回ロールアップして再トレーニングしました。重量では、FLOP'am でそれぞれ9回と13回、 3.3回と5回絞ることができました。 興味深いプロファイルは、リンクがどのようにロールされるかです：最初のCONVレイヤーは2回未満に圧縮され、次のCONVレイヤーは3以上（最大12）、非表示FCは10-20回、最後のFCレイヤーは4回です。

結論として、著者はさまざまなプルーニング方法の比較結果を提示します（L1、L2正規化、追加トレーニングあり、なし、CONVに応じて、FCに応じて）。要するに、ドリルするには怠すぎるので、L1でネットワークを学習し、レイヤーの半分を単純に捨てることができます。怠notでない場合-L2のみ、プルーニングと再トレーニングを5回まで繰り返します。そして最後に、著者とともにスケールをまばらな形で保存すると、オーバーヘッドが最大16％になります。ネットワークが10倍小さい場合はそれほど重要ではありません。

10.高密度オブジェクト検出の焦点損失

→ オリジナル記事

投稿者：kt {at} ut {dot} ee

ご存知のように、機械学習でモデルを検索するプロセスは、特定の客観的損失関数の最適化に依存します。最も単純な損失関数は、トレーニングセットのエラーの割合ですが、最適化が難しく、結果が統計的に悪いため、実際には異なる代理損失を使用します：エラー平方、確率対数、マイナス速度からの指数、ヒンジ損失など。すべての代理損失は単調な関数であり、エラー値が大きくなるほどエラーにペナルティを課します。損失は、ターゲット変数の分布のタイプとして解釈できます（たとえば、誤差の2乗はガウス分布に対応します）。

作品の著者は、フォームの代理損失

損失（p、y）：=-（1-p）^ガンマログ（p）y == 1の場合-p ^ガンマログ （1-p）

使用および公開されたことはありません。なぜ私たちはそのような損失だけを使用する必要がありますか？そして暗黙の分布の意味は何ですか？著者は知りませんが、それは彼らにとってクールなようです余分なパラメータガンマがあり、その助けを借りて、「簡単」な例のように罰金の量を変えることができます。著者は、この機能を「焦点損失」と呼びました。

著者は、1つのデータセットと1つのニューラルネットワークモデルを選択しましたが、パラメーター値を調整すると、通常のクロスエントロピー（クラスによって重み付けされた）の代わりにこのような損失を使用した場合のプラスの効果が結果タブに表示されます。実際、ほとんどの記事では、オブジェクト検出にRetinaNetを使用することを検討していますが、これは損失関数の選択にあまり依存していません。

この記事は、すべての初心者がアカデミーへの道を読むために必要です。彼女は頭の中に良いアイデアがないときに説得力のある出版物を書く方法を完璧に説明します。

代替意見

あなたの手を見てください：男は検出で測定される標準のかなり複雑なデータセットのいずれかを取り、ベルやホイッスル（他の誰もができる限り絞り出そうとしたもの）のない単純なネットワークを取り、損失を適用してすぐにマルチスケールなしの単一モデルの結果を得ました他のトリックは、このデータセットの他のすべてのものよりも高く、1段階のすべてのネットワークと、より高度な2段階のネットワークが含まれます。それが損失の問題であり、他の何かではないことを確認するために、彼らは以前にクールでファッショナブルなテクニックであった他のオプションを試しました-クロスエントロピー、OHEMのバランスを取り、結果を独自に安定して高くしました。私たちは自分のパラメーターをひねり、最適に機能するオプションを見つけ、さらにその理由を少し説明しようとしました（2未満のガンマはかなり滑らかな分布を与え、2つ以上の罰金は非常に鋭くなります（2つでも実際には棚がある場合、それは驚くべきことです）作品））。

もちろん、40のネットワークオプション、100万のハイパーパラメーターオプション、既知のすべてのデータセット、10倍のクロス検証を10回比較することもできますが、どれだけ時間がかかり、いつ出版の準備ができ、いくつが異なるのかアイデアの？

ここではすべてが簡単です。1つのコンポーネントを変更し、特定のデータセットでSoTAよりも優れた結果を得ました。結果は他の何かではなく、変化によって引き起こされたと確信しました。フィン。

代替意見

おそらく、記事がRetinaNetプレゼンテーションとして位置付けられた場合、私の意見では、まったく異なる方法で表示されることを追加する価値があります。結局のところ、実際には主にRetinaNetの使用例として構築されています。なぜそれが突然損失と奇妙なタイトルに重点を置いているのか、私は個人的に理解していません。この損失について表明された論文を確認する客観的な測定値はまだありません。

たぶん、たとえば、RetinaNetはより深刻な形式で、著者の順序を変えて公開される予定であり、これはサードパーティの実験の結果であり、学生がうまく働いたため追加の出版物として発行することも決定しました。この場合も、これは余分な物品を薄い空気から吸い出す方法の例です。

いずれにせよ、私自身、この記事から抜け出すことはできません。タイトルとテキストで約束されている「どこでもこのような損失をひねれば、あなたは幸せになります」。

論文「RetinaNetはCOCOでうまく機能します（さらに損失があります！）」しかし、私は我慢できます。

11.富から宝物を借りる：選択的共同微調整によるディープトランスファー学習

→ オリジナル記事

→ コード

投稿者： movchan74

著者は、小さなデータセットで画像を分類する問題に焦点を合わせました。この場合の典型的なアプローチは次のとおりです。ImageNetで事前にトレーニングされたCNNを取得し、データセットで再トレーニングします（または、完全に接続された分類のみを再トレーニングします）。しかし同時に、ネットワークはすぐに再トレーニングされ、希望する精度値に達しません。著者は、ターゲットデータセット（ターゲットデータセット、十分なデータではないため、以下のデータセットTと呼びます）だけでなく、多数の画像（通常はImageNet）を含む追加のソースデータセット（以下、Sデータセットと呼びます）を使用して2つのデータセットでマルチタスクをトレーニングすることを提案します同時に（データセットごとに1つずつ、CNNの後に2つのヘッドを行います）。

しかし、著者がわかったように、トレーニングにSデータセット全体を使用するのは良い考えではありませんが、Sデータセットの特定のサブセットを使用する方が適切です。

次のフレームワークを取得します。

SとTの2つのデータセットを使用します。Tは少数の例を含むデータセットであり、分類器を取得する必要があります。Sは大きな補助データセット（通常ImageNet）です。
サブセットの画像がターゲットデータセットTの画像に近くなるように、データセットSから画像のサブセットを選択します。最も近いものを選択する方法を考えてみましょう。
データセットTと選択されたサブセットSのマルチタスクネットワークを学習します。

データセットSのサブセットを選択する方法を検討してみましょう。著者は、データセットTから各サンプルを提案し、Sから特定の数の近傍を見つけ、それらからのみ学習します。近接性は、低レベルのAlexNetフィルターまたはGaborフィルターのヒストグラム間の距離として定義されます。空間コンポーネントを考慮しないように、ヒストグラムが取得されます。

低レベルフィルタが使用される理由の説明は次のとおりです。

データが多いため、低レベルの畳み込み層をトレーニングする方が良いことがわかり、これらの低レベルフィーチャの品質によって、高レベルのフィーチャの品質が決まります。
低レベルフィルターを使用して同様の画像を検索すると、トレーニング用のサンプルをより多く見つけることができます。セマンティクスはほとんど考慮されません。

正直に言うと、私はこれらの説明はあまり好きではありませんが、そのような記事では。もちろん、私は何かを理解していなかったか、または理解していないかもしれません。これはすべて、「低レベルの特性に応じて画像を選択する動機は2つあります」という言葉の後に2ページで説明されています。

近い画像の検索のその他の機能：

ヒストグラムは、平均して、データセット全体でほぼ同じ量が1つのビンに入るように構築されます。
ヒストグラム間の距離は、KL発散を使用して計算されます。

著者は、AlexNetとGaborフィルターのさまざまな畳み込み層を試し、近いサンプルを検索しました。AlexNetの1 + 2の畳み込み層を使用すると最適に機能しました。

著者は、Tの各サンプルのデータセットSから類似のサンプルの数を選択する反復的な方法も提案しました。最初に、Tから個々のサンプルごとに指定された数の最近傍を取得します。次に、トレーニングを実行し、サンプルの誤差が大きい場合、この最近傍の数を増やしますサンプル。最も近い近傍がどのように拡大されるかは、式6から明らかです。

トレーニングの特徴の。バッチを作成するとき、Tデータセットからサンプルをランダムに選択し、選択した各サンプルについて、最も近い隣の1つを取得します。

以下のデータセットで実験が行われました：Stanford Dogs 120、Oxford Flowers 102、Caltech 256、MIT Indoor67。SOTAの結果はすべてのデータセットで得られました。データセットに応じて、分類精度を2％から10％に上げることが判明しました。

12.ディープネットワークの高速適応のためのモデルに依存しないメタ学習

→ オリジナル記事

→ コード

投稿者：repyevsky {at} gmail {dot} com

メタトレーニングに関する記事：著者は、特定の一般クラスからの新しいタスクを解決するために、以前の経験と少量の新しい情報を組み合わせてモデルに教えることを望んでいます。

著者が達成したいことを明確にするために、モデルの評価方法を説明します。

分類のベンチマークとして、2つのデータセット OmniglotとminiImagenetが使用されます。最初に、いくつかのアルファベットからの手書き文字は合計で約1600クラスで、クラスごとに20の例があります。 Imagenetの 2番目の100クラス-クラスごとに600枚の写真。 RLに関するセクションもありますが、私は見ていません。

トレーニングの前に、すべてのクラスは互いに素なセットtrain

、 validation

およびtest

分けられます。検証のために、たとえば、 test

クラス（トレーニング中にモデルに表示されなかった）から、5つのランダムクラス（ 5-way learning ）が選択されます。選択されたクラスのそれぞれについて、いくつかの例がサンプリングされ、ラベルは長さ5のワンホットベクトルによってエンコードされます。各クラスのさらなる例は、 A

とB

2つの部分に分割されますB

A

例は回答のあるモデルを示し、 B

例は分類の正確性を検証するために使用されます。したがって、 タスクが形成されます。著者はaccuracy

見accuracy

。

したがって、数回の反復/新しい例で、新しいタスク（クラスの新しいセット）に適応するようにモデルを教える必要があります。

テストでRNNまたはノンパラメトリックメソッドを使用した機能埋め込み（k最近傍など）を使用しようとした以前の作品とは異なり、著者は、勾配モデルによってトレーニングされている場合、標準モデルのパラメーターを構成できるアプローチを提案しています。

重要なアイデア：新しいタスクで最良の結果が得られるようにモデルの重みを更新する。

直感：モデル内で、データセットのすべてのクラスの入力データの普遍的な表現を取得します。これにより、モデルは新しいタスクにすばやく適応できます。

一番下の行は次のとおりです。モデルF(x, p)

に1回の反復で新しいタスクF(x, p)

学習させます（ 1ショット 学習）。次に、トレーニングのために、テストと同じタスクをトレーニングクラスから準備する必要があります。さらに、パートA

の例では、 loss

とその勾配を考慮し、トレーニングを1回繰り返します。その結果、中間の更新された重みp' = p - a*grad

とモデルの新しいバージョンF(x, p')

を取得します。 B

F(x, p')

のloss

を考慮し、初期重みp

に関してそれを最小化します。実際の新しい重み、つまり反復の終わりを取得します。勾配からの勾配xxibitがカウントされると、2次導関数が表示されます。

実際、複数のタスクが一度に生成され、メタバッチに統合されます。それぞれに対して、独自のp'

あり、独自のloss

が考慮されます。次に、これらのtotal_loss

はすべてtotal_loss

で合計されtotal_loss

。これは、 p

に関してすでに最小化されています。

著者は、以前の作品（小さな畳み込みネットワークと完全に接続されたネットワーク）の基本モデルにアプローチを適用し、両方のデータセットでSOTAを受け取りました。

同時に、メタトレーニング用の追加パラメーターなしで最終モデルが取得されます。ただし、2次導関数を含むなど、多数の計算が使用されます。著者は、 miniImagenetに 2番目の派生物をドロップしようとしました 。同時に、 accuracy

はほぼ同じままで、計算は33％加速しました。おそらくこれは、 ReLU

が区分線形関数であり、その2次導関数がほとんど常にゼロであるという事実によるものです。

Tensorflow作成者コード。そこでは、内部勾配ステップは手動で行われ、外部勾配ステップはAdamOptimizerを使用して行われます。

yuli_semenovaを編集していただきありがとうございます。

「あなたのために記事を読む」という見出し。 2017年8月

1.ノイズに合わせる、または何もしない：市場での機械学習

2.翻訳で学んだ：文脈化された単語ベクトル

3. AIを使用してアニメキャラクターを作成します。

4. LiveMaps：地図画像をインタラクティブな地図に変換

5.ランダム消去データの増強

6. YellowFinと運動量調整の芸術

7.悪魔はデコーダーの中にあります

8. Generic Data Augmentationを使用した深層学習の改善

9.効率的なニューラルネットワークの重みと接続の両方を学習する

10.高密度オブジェクト検出の焦点損失

11.富から宝物を借りる：選択的共同微調整によるディープトランスファー学習

12.ディープネットワークの高速適応のためのモデルに依存しないメタ学習

More articles: