ネットワークは過去12時間トレーニングされています。すべてが良好に見えました。勾配は安定しており、損失関数は減少しました。しかし、その結果、すべてゼロ、1つの背景、何も認識されませんでした。「私は何を間違えたのですか？」、私はコンピューターに尋ねました。

ニューラルネットワークがガベージを生成するのはなぜですか（たとえば、すべての結果の平均や、精度が非常に低いのですか）。チェックを開始する場所

ネットワークは、いくつかの理由でトレーニングされていない場合があります。多くのデバッグセッションの結果、私はしばしば同じチェックを行うことに気付きました。ここでは、同僚の最高のアイデアとともに、自分の経験を便利なリストにまとめました。このリストがお役に立てば幸いです。

内容

0.このマニュアルの使用方法は？

I.データセットの問題

II。 データの正規化/拡張の問題

III。 実装の問題

IV。 学習の問題

0.このマニュアルの使用方法は？

多くのことがうまくいかないことがあります。しかし、いくつかの問題は他の問題よりも一般的です。私は通常、緊急キットとしてこの小さなリストから始めます。

このデータタイプに対して正確に機能する単純なモデルから始めます（例：画像のVGG）。可能であれば、標準の損失関数を使用します。
データの正規化や増強など、すべての錯覚を無効にします。
モデルを微調整する場合は、前処理を再確認して、元のモデルのトレーニングに一致させます。
入力が正しいことを確認してください。
本当に小さなデータセット（2〜20サンプル）から始めます。次に、それを展開し、新しいデータを徐々に追加します。
省略されたすべてのフラグメントを徐々に追加し始めます：増強/正則化、カスタム損失関数、より複雑なモデルを試してください。

他のすべてが失敗した場合、この長いリストの読み取りを開始し、各項目を確認します。

I.データセットの問題

_{出典： http : //dilbert.com/strip/2014-05-07}

1.入力を確認します

入力が適切であることを確認します。たとえば、画像の高さと幅を繰り返し組み合わせて1つの束にしました。時々、間違ってすべてのゼロをニューラルネットワークに与えました。または、同じバッチを何度も使用しました。したがって、入力と計画出力のいくつかのバッチを印刷/確認します。すべてが正常であることを確認してください。

2.ランダムな入力値を試す

実際のデータの代わりに乱数を渡して、同じエラーが残るかどうかを確認してください。もしそうなら、これはある時点であなたのネットワークがデータをゴミに変えるという確かな兆候です。レイヤーごとのデバッグ（操作ごとの操作）を試行し、障害が発生した場所を確認します。

3.データローダーを確認する

すべてがデータの順序どおりである可能性があり、ニューラルネットワークの入力データを送信するコードにエラーがあります。操作を開始する前に、最初のレイヤーの入力データを印刷して確認します。

4.入力が出力に接続されていることを確認します。

複数の入力サンプルが正しいラベルでラベル付けされていることを確認します。また、入力サンプルの交換も出力ラベルに影響することを確認してください。

5.入力と出力の関係はランダムすぎますか？

たぶん、入り口と出口の間の関係の非ランダムな部分は、ランダムな部分に比べて小さすぎます（誰かが取引所の引用であると言うかもしれません）。つまり、入力と出力が十分に接続されていません。ランダム性の尺度はデータのタイプに依存するため、普遍的な方法はありません。

6.データセットのノイズが多すぎますか？

かつて、サイトから食べ物の画像のセットを取り出したときに私に起こりました。そこには非常に多くの悪い点があり、ネットワークを訓練できませんでした。一連のサンプル入力値を手動で確認し、すべてのラベルが適切に配置されていることを確認します。

この作業は、MNISTに基づいて50％を超える損傷タグの精度が50％を超えることを示しているため、個別の議論に値します。

7.データセットをシャッフルする

データが混合されておらず、特定の順序（タグでソート）で配置されていない場合、学習に悪影響を与える可能性があります。データセットをシャッフルします。入力とラベルの両方を必ず混ぜてください。

8.クラスの不均衡を減らす

クラスBの画像ごとに、データセットにクラスAの画像が1000個あるのでしょうか？次に、損失関数のバランスを取るか、不均衡を解消するために他のアプローチを試す必要があります。

9.トレーニングに十分なサンプルはありますか？

ネットワークをゼロからトレーニングする（つまり、構成しない）場合、大量のデータが必要になる場合があります。たとえば、画像を分類するには、各クラスごとに1000枚以上の画像が必要です。

10.単一のラベルを持つバッチがないことを確認します

これは、ソートされたデータセットで発生します（つまり、最初の1万個のサンプルには同じクラスが含まれます）。データセットをシャッフルすることで簡単に修正できます。

11.バッチサイズを縮小する

この作業は、大きすぎるバッチはモデルの一般化能力を低下させる可能性があることを示しています。

追加1.標準データセット（mnist、cifar10など）を使用します

hengcherkengに感謝します：

新しいネットワークアーキテクチャをテストするとき、または新しいコードを記述するときは、最初に標準データセットではなく標準データセットを使用します。 それらにはすでに多くの結果があり、「解決可能」であることが保証されているためです。 ラベルのノイズ、トレーニング/テストの分布の違い、データセットの複雑さの問題などはありません。

II。データの正規化/拡張の問題

12.症状を調整する

入力をゼロ平均と単位分散に調整しましたか？

13.データ増強は強すぎますか？

増強には正則化効果があります。強すぎる場合、これは他の形式の正則化（L2正則化、ドロップアウトなど）とともに、ニューラルネットワークの教育不足につながる可能性があります。

14.事前学習済みモデルの前処理を確認する

準備済みのモデルを使用する場合は、トレーニングしているモデルと同じ正規化と前処理を使用してください。たとえば、ピクセルは[0、1]、[-1、1]、または[0、255]の範囲にありますか？

15.トレーニング/検証/テストキットの前処理を検証する

CS231nは典型的なトラップを指しています：

「...前処理の統計（データの平均など）は、トレーニング用のデータで計算し、検証/テストデータに適用する必要があります。 例えば、データセット全体の平均を計算して各画像からそれを減算し、トレーニング/検証/テストのためにデータをフラグメントに分割するのは間違いです。

また、各サンプルとバッチの異なる前処理を確認します。

III。実装の問題

_{ソース： https : //xkcd.com/1838/}

16.問題のより単純なバージョンを解決してみてください

これは、問題の場所を特定するのに役立ちます。たとえば、ターゲット出力がオブジェクトクラスと座標の場合、予測をオブジェクトクラスのみに制限してみてください。

17.「確率で」正しい損失関数を探します

再び、無比のCS231nから： 正規化せずに小さなパラメーターで初期化します。 たとえば、10個のクラスがある場合、「確率」は、正しいクラスがケースの10％で決定されることを意味し、Softmax損失関数は正しいクラスの確率の逆対数である、つまり、

$-ln（0.1）= $ 2.30$

その後、正則化強度を上げてみてください。これにより、損失関数が増えるはずです。

18.損失関数を確認します

独自に実装した場合は、バグを確認し、単体テストを追加してください。わずかに不正確な損失関数がネットワークパフォーマンスをわずかに損なうことがよくありました。

19.損失関数の入力を確認します

フレームワークから損失関数を使用する場合、必要なものを必ず渡すようにしてください。たとえば、PyTorchでは、NLLLossとCrossEntropyLossを混合します。これは、1つ目はsoftmax入力を必要とし、2つ目はそうではないためです。

20.減量機能を調整する

損失関数が複数の関数で構成されている場合は、相互の関係を確認してください。これには、さまざまな比率でのテストが必要になる場合があります。

21.他のインジケーターを追跡する

損失関数は、ニューラルネットワークのトレーニングの最適な予測因子ではない場合があります。可能であれば、精度などの他のインジケータを使用します。

22.各カスタムレイヤーを確認する

ネットワーク層を個別に実装しましたか？期待どおりに機能していることを再確認してください。

23.欠落している「レイヤー」または変数がないか確認する

見てください、たぶんあなたはいくつかのレイヤー/変数の勾配更新を誤ってオフにしました。

24.ネットワークサイズを増やす

おそらく、ネットワークの表現力では目的関数を吸収するには不十分です。完全に接続されたレイヤーにレイヤーまたは非表示のユニットを追加してみてください。

25.隠れた測定エラーを探す

入力が次のように見える場合

（ 、 、 ） （ 、 、 ）

$（k、H、W）=（64、64、64）$ 、誤った測定に関連するエラーを簡単にスキップできます。異常な数値を使用して入力データを測定し（たとえば、測定ごとに異なる素数）、それらがネットワーク全体にどのように広がるかを確認します。

26.勾配チェックを調べる

自分でグラデーションディセントを実装した場合は、グラデーションチェックを使用して、正しいフィードバックを確認できます。追加情報： 1、2、3 。

IV。学習の問題

_{ソース： http : //carlvondrick.com/ihog/}

27.本当に小さなデータセットの問題を解決する

小さなデータセットでネットワークを再トレーニングし、それが機能することを確認します 。たとえば、ほんの1〜2つの例で彼女を訓練し、ネットワークがオブジェクトを区別できるかどうかを確認します。各クラスのサンプルをご覧ください。

28.天びんの初期化を確認します

不明な場合は、 XavierまたはXe初期化を使用します。さらに、初期化を行うとローカルの最小値が低下する可能性があるため、別の初期化を試してください。

29.ハイパーパラメーターを変更する

たぶん、あなたは貧弱なハイパーパラメータのセットを使用しています。可能であれば、グリッド検索を試してください。

30.正則化を減らす

正則化が多すぎるため、ネットワークは特に訓練されていない可能性があります。ドロップアウト、バッチノルム、L2正規化の重み/バイアスなどの正規化を減らします。優れたコース「プログラマー向けの実践的な深層学習」で、ジェレミーハワードはまず教育不足を解消することを推奨します。つまり、ソースデータでネットワークを再トレーニングし、再トレーニングと戦うだけで十分です。

31.時間を与える

ネットワークが意味のある予測を始める前に、学習するのにより多くの時間を必要とするかもしれません。損失関数が着実に減少している場合は、少し長く学習させてください。

32.トレーニングモードからテストモードに切り替える

一部のフレームワークでは、バッチノルム、ドロップアウト、およびその他のレイヤーは、トレーニングおよびテスト中に異なる動作をします。適切なモードに切り替えると、ネットワークが適切な予測を行うのに役立ちます。

33.トレーニングを視覚化する

各レイヤーのアクティベーション、ウェイト、更新を追跡します。それらの比率が一致することを確認してください。たとえば、パラメーター（重みとオフセット）の更新量の比率は1e-3である必要があります。
TensorboardやCrayonなどの視覚化ライブラリを検討してください。最後の手段として、単純に重み/シフト/アクティベーションの値を印刷できます。
平均がゼロよりはるかに大きいネットワークのアクティベーションには注意してください。 Batch NormまたはELUを試してください。
Deeplearning4jは、重みとシフトのヒストグラムで何を見るべきかを示しました。

「重みについては、しばらくすると、これらのヒストグラムはほぼガウス（正規）分布になるはずです。 シフトヒストグラムは通常ゼロから始まり、通常ガウス分布程度で終わります（唯一の例外はLSTMです）。 プラス/マイナスの無限大に逸脱するパラメーターに注意してください。 大きくなりすぎるシフトに注意してください。 クラスの分布が不均衡すぎる場合、分類の出力層でこれが発生することがあります。

レイヤーの更新を確認してください。それらには正規分布が必要です。

34.別のオプティマイザーを試す

オプティマイザーの選択は、特に不適切なハイパーパラメーターを選択していない限り、ニューラルネットワークの学習を妨げるべきではありません。しかし、タスクに最適なオプティマイザーを使用すると、最短時間で可能な限り最高のトレーニングを受けることができます。使用するアルゴリズムを説明する科学記事には、オプティマイザーも記載する必要があります。そうでない場合は、AdamまたはプレーンSGDを使用することを好みます。

勾配降下オプティマイザーの詳細については、 Sebastian Ruderの優れた記事をご覧ください。

35.勾配の爆発/消失

非常に大きな値は勾配のバーストを示す可能性があるため、レイヤーの更新を確認してください。勾配クリッピングが役立つ場合があります。
レイヤーのアクティブ化を確認します。 Deeplearning4jは、優れたアドバイスを提供します。 「アクティベーションの標準偏差は、0.5〜2.0程度です。 これを超える重要なステップは、アクティベーションの爆発または消失を示す場合があります。

36.トレーニングのスピードアップ/スローダウン

学習速度が遅いと、モデルの収束が非常に遅くなります。

学習速度が速いと、最初に損失関数がすぐに減少し、その後、適切な解決策を見つけることが難しくなります。

学習速度を10倍速くしたり遅くしたりして、実験してください。

37. NaN条件の除去

非数値（NaN）状態は、RNNを学習するときにはるかに一般的です（私が聞いた限り）。それらを解決するいくつかの方法：

特に最初の100回の繰り返しでNaNが表示される場合は、学習速度を下げます。
ゼロまたは自然数の自然対数を取るゼロによる除算により、非数値が発生する可能性があります。
ラッセルスチュワートは、NaNが発生した場合の対処方法についての良いヒントを提供します。
ネットワークをレイヤーごとに評価し、NaNが表示される場所を確認してください。

ソース

cs231n.github.io/neural-networks-3

russellsstewart.com/notes/0.html

stackoverflow.com/questions/41488279/neural-network-always-predicts-the-same-class

deeplearning4j.org/visualization

www.reddit.com/r/MachineLearning/comments/46b8dz/what_does_debugging_a_deep_net_look_like

www.researchgate.net/post/why_the_prediction_or_the_output_of_neural_network_does_not_change_during_the_test_phase

book.caltech.edu/bookforum/showthread.php?t=4113

gab41.lab41.org/some-tips-for-debugging-deep-learning-3f69e56ea134

www.quora.com/How-do-I-debug-an-artificial-neural-network-algorithm

ニューラルネットワークが機能しない37の理由

内容