🐤 🕵️ 😯 年末年始の深層学習とカフェ 🔋 🥠 🕺🏼

やる気

この記事では、実際にディープラーニングを使用する方法を学習します。 SVHN データセットのCaffeフレームワークが使用されます。

深層学習この話題の言葉は長い間耳に響いていましたが、実際に試してみることはできませんでした。それを修正する良い機会を見つけました！年末年始には、画像解析コースの一環として家番号を認識するためにカグルコンテストが認められました。

よく知られているSVHNサンプルの一部が提供されました。これは、トレーニングの73257イメージとテスト（未割り当て）サンプルの26032イメージで構成されています。 1桁につき10クラスのみ。画像はRGB色空間で32x32です。ベンチマークが示すように、ディープラーニングに基づく方法は、人の精度よりも高い精度を示します-2％の誤差に対して1.92％！

SVMとNaive Bayesに基づく機械学習アルゴリズムの経験がありました。既知の方法を適用するのは退屈なので、ディープラーニングの何か、つまり畳み込みニューラルネットワークを使用することにしました。

カフェの選択

ディープニューラルネットワークを操作するためのさまざまなライブラリとフレームワークがあります。私の基準は次のとおりです。

チュートリアル
開発のしやすさ
展開の容易さ
アクティブなコミュニティ。

Caffeはそれらを完璧に歩きました。

良いチュートリアルが彼らのサイトにあります。 Caffe Summer Bootcampからの講義を個別にお勧めします。クイックスタートとして、ニューラルネットワークの基礎について、次にCaffeについて読むことができます。
Caffeを使い始めるのにプログラミング言語も必要ありません。 Caffeは、構成ファイルを使用して構成され、コマンドラインから起動されます。
デプロイ用にchef-cookbookとdocker-imagesがあります。
githubでは積極的な開発が進行中です。Googleグループでは、フレームワークの使用について質問することができます。

さらに、Caffeは非常に高速です。 GPUを使用します（ただし、CPUで対応できます）。

設置

最初に、ドッカーを使用してラップトップにCaffeをインストールし、CPUモードで実行しました。ニューラルネットワークのトレーニングは非常に遅かったが、比較できるものはなく、これは正常であるように思われた。

次に、 25ドルのAmazonクーポンを見つけて、NVIDIA GPUとCUDAをサポートするAWS g2.2xlargeを試してみることにしました。そこでChefで Caffeをデプロイしました。その結果、41倍高速になりました-CPUでは100回の反復に290秒かかりましたが、GPUでは7秒でCUDAを使用できました。

ニューラルネットワークアーキテクチャ

機械学習アルゴリズムで許容可能な品質を得るために特徴の良いベクトルを形成する必要があった場合、これは畳み込みニューラルネットワークでは必要ありません。主なことは、優れたネットワークアーキテクチャを考案することです。

次の表記法を紹介します。

input-入力レイヤー。通常、これらは画像ピクセルです。
conv-畳み込み層[ 1 ]、
プール-サブサンプルレイヤー[ 2 ]、
完全に接続-完全に接続された層[ 3 ]、
output-出力レイヤー。目的の画像クラスを生成します。

画像分類の主要なアーキテクチャは、次のNSアーキテクチャです。

input -> conv -> pool -> conv -> pool -> fully-conn -> fully-conn -> output

レイヤーの数（conv-> pool）は異なる場合がありますが、通常は2倍以上です。完全な接続の数は1日以上です。

このコンテストの一環として、いくつかのアーキテクチャが試されました。私は次のもので最も正確になりました：

  input -> conv -> pool -> conv -> pool -> conv -> pool -> fully-conn -> fully-conn -> output

Caffeアーキテクチャの実装

Caffeは、Protobufファイルを使用して構成されます。コンテストのアーキテクチャの実装はこちらです。各レイヤーの構成における重要なポイントを考慮してください。

入力層

入力層の構成

 name: "WinnyNet-F" layers { name: "svhn-rgb" type: IMAGE_DATA top: "data" top: "label" image_data_param { source: "/home/deploy/opt/SVHN/train-rgb-b.txt" batch_size: 128 shuffle: true } transform_param { mean_file: "/home/deploy/opt/SVHN/svhn/winny_net5/mean.binaryproto" } include: { phase: TRAIN } } layers { name: "svhn-rgb" type: IMAGE_DATA top: "data" top: "label" image_data_param { source: "/home/deploy/opt/SVHN/test-rgb-b.txt" batch_size: 120 } transform_param { mean_file: "/home/deploy/opt/SVHN/svhn/winny_net5/mean.binaryproto" } include: { phase: TEST } } ...

最初の2つのレイヤー（トレーニングおよびテストフェーズ用）のタイプはIMAGE_DATA、つまり入力ネットワークは画像を受け入れます。画像はテキストファイルにリストされます。1列は画像へのパス、2列はクラスです。テキストファイルへのパスは、image_data_param属性で指定されます。

画像に加えて、 HDF5 、LevelDB、およびlmbdからデータを入力できます。最後の2つのオプションは、作業速度が重要な場合に特に関連します。したがって、Caffeは画像だけでなく、あらゆるデータを扱うことができます。最も簡単な作業方法はIMAGE_DATAを使用することです。このため、コンテストに選ばれました。

入力レイヤーには、transform_param属性を含めることもできます。入力データが受けなければならない変換を示します。通常、画像をニューラルネットワークに送信する前に、画像は正規化されるか、たとえばLocal Contrast Normalizationのようなトリッキーな操作が実行されます。この場合、mean_fileが指定されました-入力から「平均」画像を減算します。

Caffeはバッチ勾配降下法を使用します。入力レイヤーにはbatch_sizeパラメーターが含まれています。 1回の反復で、サンプル要素のbatch_sizeがニューラルネットワークの入力に到達します。

畳み込みとサブサンプリングの層（conv、pool）

畳み込み層とサブサンプリング層を構成する

  ... layers { bottom: "data" top: "conv1/5x5_s1" name: "conv1/5x5_s1" type: CONVOLUTION blobs_lr: 1 blobs_lr: 2 convolution_param { num_output: 64 kernel_size: 5 stride: 1 pad: 2 weight_filler { type: "xavier" std: 0.0001 } } } layers { bottom: "conv1/5x5_s1" top: "conv1/5x5_s1" name: "conv1/relu_5x5" type: RELU } layers { bottom: "conv1/5x5_s1" top: "pool1/3x3_s2" name: "pool1/3x3_s2" type: POOLING pooling_param { pool: MAX kernel_size: 3 stride: 2 } } layers { bottom: "pool1/3x3_s2" top: "conv2/5x5_s1" name: "conv2/5x5_s1" type: CONVOLUTION blobs_lr: 1 blobs_lr: 2 convolution_param { num_output: 64 kernel_size: 5 stride: 1 pad: 2 weight_filler { type: "xavier" std: 0.01 } } } layers { bottom: "conv2/5x5_s1" top: "conv2/5x5_s1" name: "conv2/relu_5x5" type: RELU } layers { bottom: "conv2/5x5_s1" top: "pool2/3x3_s2" name: "pool2/3x3_s2" type: POOLING pooling_param { pool: MAX kernel_size: 3 stride: 2 } } layers { bottom: "pool2/3x3_s2" top: "conv3/5x5_s1" name: "conv3/5x5_s1" type: CONVOLUTION blobs_lr: 1 blobs_lr: 2 convolution_param { num_output: 128 kernel_size: 5 stride: 1 pad: 2 weight_filler { type: "xavier" std: 0.01 } } } layers { bottom: "conv3/5x5_s1" top: "conv3/5x5_s1" name: "conv3/relu_5x5" type: RELU } layers { bottom: "conv3/5x5_s1" top: "pool3/3x3_s2" name: "pool3/3x3_s2" type: POOLING pooling_param { pool: MAX kernel_size: 3 stride: 2 } } ...

3mは、タイプがCONVOLUTIONの畳み込み層です。以下は、アクティブ化関数cタイプの表示です：RELU。 4番目のレイヤーは、タイプがPOOLのサブサンプルレイヤーです。次の2回は、conv、poolレイヤーの繰り返しですが、パラメーターは異なります。

これらのレイヤーのパラメーターの選択は経験的です。

完全に接続された出力層（完全接続、出力）

完全に接続されたレイヤーと出力レイヤーの構成

  ... layers { bottom: "pool3/3x3_s2" top: "ip1/3072" name: "ip1/3072" type: INNER_PRODUCT blobs_lr: 1 blobs_lr: 2 inner_product_param { num_output: 3072 weight_filler { type: "gaussian" std: 0.001 } bias_filler { type: "constant" } } } layers { bottom: "ip1/3072" top: "ip1/3072" name: "ip1/relu_5x5" type: RELU } layers { bottom: "ip1/3072" top: "ip2/2048" name: "ip2/2048" type: INNER_PRODUCT blobs_lr: 1 blobs_lr: 2 inner_product_param { num_output: 2048 weight_filler { type: "xavier" std: 0.001 } bias_filler { type: "constant" } } } layers { bottom: "ip2/2048" top: "ip2/2048" name: "ip2/relu_5x5" type: RELU } layers { bottom: "ip2/2048" top: "ip3/10" name: "ip3/10" type: INNER_PRODUCT blobs_lr: 1 blobs_lr: 2 inner_product_param { num_output: 10 weight_filler { type: "xavier" std: 0.1 } } } layers { name: "accuracy" type: ACCURACY bottom: "ip3/10" bottom: "label" top: "accuracy" include: { phase: TEST } } layers { name: "loss" type: SOFTMAX_LOSS bottom: "ip3/10" bottom: "label" top: "loss" }

完全に接続されたレイヤーのタイプはINNER_PRODUCTです。出力層は、損失関数（タイプ：SOFTMAX_LOSS）と精度層（タイプ：ACCURACY）によって層に接続されます。精度レイヤーはテスト段階でのみ機能し、検証サンプルで正しく分類された画像の割合を示します。

weight_filler属性を指定することが重要です。大きい場合、損失関数は最初の反復でNaNを返すことができます。この場合、weight_filler属性のstdパラメーターを減らす必要があります。

トレーニングオプション

学習構成

  net: "/home/deploy/opt/SVHN/svhn/winny-f/winny_f_svhn.prototxt" test_iter: 1 test_interval: 700 base_lr: 0.01 momentum: 0.9 weight_decay: 0.004 lr_policy: "inv" gamma: 0.0001 power: 0.75 solver_type: NESTEROV display: 100 max_iter: 77000 snapshot: 700 snapshot_prefix: "/mnt/home/deploy/opt/SVHN/svhn/snapshots/winny_net/winny-F" solver_mode: GPU

十分に訓練されたニューラルネットワークを取得するには、学習パラメーターを設定する必要があります。 Caffeでは、トレーニングパラメーターはprotobuf構成ファイルを介して設定されます。このコンテストの設定ファイルはこちらです。多くのパラメーターがありますが、そのうちのいくつかをより詳細に検討します。

net-国会議事堂のアーキテクチャの構成へのパス、
test_interval-NSがテストされる反復回数（フェーズ：テスト）、
スナップショット-NSの学習状態が保持される反復回数。

Caffeでは、トレーニングを一時停止して再開できます。

トレーニングとテスト

NSのトレーニングを開始するには、トレーニングファイルが設定されている構成ファイルでcaffe trainコマンドを実行する必要があります。

 > caffe train --solver=/home/deploy/winny-f/winny_f_svhn_solver.prototxt

簡単なトレーニングログ

  ....................... I0109 18:12:17.035543 12864 solver.cpp:160] Solving WinnyNet-F I0109 18:12:17.035578 12864 solver.cpp:247] Iteration 0, Testing net (#0) I0109 18:12:17.077910 12864 solver.cpp:298] Test net output #0: accuracy = 0.0666667 I0109 18:12:17.077997 12864 solver.cpp:298] Test net output #1: loss = 2.3027 (* 1 = 2.3027 loss) I0109 18:12:17.107712 12864 solver.cpp:191] Iteration 0, loss = 2.30359 I0109 18:12:17.107795 12864 solver.cpp:206] Train net output #0: loss = 2.30359 (* 1 = 2.30359 loss) I0109 18:12:17.107817 12864 solver.cpp:516] Iteration 0, lr = 0.01 ....................... I0109 18:13:17.960325 12864 solver.cpp:247] Iteration 700, Testing net (#0) I0109 18:13:18.045385 12864 solver.cpp:298] Test net output #0: accuracy = 0.841667 I0109 18:13:18.045462 12864 solver.cpp:298] Test net output #1: loss = 0.675567 (* 1 = 0.675567 loss) I0109 18:13:18.072872 12864 solver.cpp:191] Iteration 700, loss = 0.383181 I0109 18:13:18.072949 12864 solver.cpp:206] Train net output #0: loss = 0.383181 (* 1 = 0.383181 loss) ....................... I0109 20:08:50.567730 26450 solver.cpp:247] Iteration 77000, Testing net (#0) I0109 20:08:50.610496 26450 solver.cpp:298] Test net output #0: accuracy = 0.916667 I0109 20:08:50.610571 26450 solver.cpp:298] Test net output #1: loss = 0.734139 (* 1 = 0.734139 loss) I0109 20:08:50.640389 26450 solver.cpp:191] Iteration 77000, loss = 0.0050708 I0109 20:08:50.640470 26450 solver.cpp:206] Train net output #0: loss = 0.0050708 (* 1 = 0.0050708 loss) I0109 20:08:50.640494 26450 solver.cpp:516] Iteration 77000, lr = 0.00197406 ....................... I0109 20:52:32.236827 30453 solver.cpp:247] Iteration 103600, Testing net (#0) I0109 20:52:32.263108 30453 solver.cpp:298] Test net output #0: accuracy = 0.883333 I0109 20:52:32.263183 30453 solver.cpp:298] Test net output #1: loss = 0.901031 (* 1 = 0.901031 loss) I0109 20:52:32.290550 30453 solver.cpp:191] Iteration 103600, loss = 0.00463345 I0109 20:52:32.290627 30453 solver.cpp:206] Train net output #0: loss = 0.00463345 (* 1 = 0.00463345 loss) I0109 20:52:32.290644 30453 solver.cpp:516] Iteration 103600, lr = 0.00161609

1つの時代は（73257-120）/ 128〜= 571反復です。 1時代よりもわずかに多く、700回の繰り返しで、検証サンプルのネットワーク精度は84％です。 134時代には、精度はすでに91％です。 181エポック-88％。たとえば、1000年など、より多くの時代のネットワークをトレーニングすると、精度が安定し、より高くなります。このコンテストでは、トレーニングは181エポックで中止されました。

Caffeでは、--snapshotオプションを追加することにより、スナップショットからネットワークトレーニングを再開できます。

 > caffe train --solver=/home/deploy/winny-f/winny_f_svhn_solver.prototxt --snapshot=winny_net/winny-F_snapshot_77000.solverstate

未割り当て画像のテスト

NSをテストするには、ネットワークアーキテクチャの展開構成を作成する必要があります。これでは、前の構成とは異なり、精度レイヤーがなく、入力レイヤーが単純化されています。

26032イメージで構成されるテストサンプルは、マークアップなしで実行されます。そのため、コンテストのテスト選択の精度を評価するには、いくつかのコードを記述する必要があります。 CaffeにはPythonとMatlabのインターフェースがあります。

Caffeには、さまざまな時代のネットワークをテストするためのスナップショットがあります。 134時代のネットワークは88.7％の精度（kaggleでのプライベートスコア）を示し、181時代のネットワークは87.6％でした。

精密なアイデア

修士論文によると、実装されたアーキテクチャの精度は96％に達する可能性があります。

得られた精度88.7％を高めるにはどうすればよいですか

ネットワークをより多くの時代に向けてトレーニングします。たとえば、顔のキーポイント検出のディープラーニングチュートリアルでは、ネットワークは1000の時代を教えました。
期待値が0で分散が1になるようにデータを標準化します。これを行うには、HDF5またはLevelDb / lmdbを使用してデータを保存します。
学習オプションを操作します。たとえば、100時代ごとにlearning_rateを減らします。
ドロップアウトレイヤーを使用することもできますが、このためには1000年よりもさらに多くの時代をネットワークでトレーニングする必要があります。
SVHNデータセットには、追加の600,000個のタグ付き画像が含まれています。それらは研究で使用されますが、コンテストの一環として、それらの使用は不公平になります。この場合、使用可能なデータに基づいて新しいデータを生成できます。

おわりに

実現された畳み込みニューラルネットワークの精度は88.9％でした。これは最良の結果ではありませんが、最初のパンケーキにとっては悪くありません。最大96％の精度向上の可能性があります。

Caffeフレームワークのおかげで、ディープラーニングに没頭してもそれほど難しくありません。いくつかの構成ファイルを作成し、1つのコマンドで学習プロセスを開始するだけで十分です。もちろん、人工ニューラルネットワークの理論の基礎知識も必要です。この記事のクイックスタートのために、（資料へのリンクの形で）これとその他の情報を提供しようとしました。

年末年始の深層学習とカフェ

やる気