👲🏽 🙅 🎍 Colaboratory CloudのGoogleの無料のテンソルプロセッサ 🍉 🦌 🚞

Googleは最近、共同研究クラウドベースの機械学習プラットフォームで、そのテンソル処理ユニット（TPU）への無料アクセスを提供しました。テンソルプロセッサは、TensorFlowライブラリを使用した機械学習タスク用にGoogleが開発した専用の集積回路（ASIC）です。私は、CIFAR-10画像内のオブジェクトを認識するKerasでTPU畳み込みネットワークの学習を試みることにしました。完全なソリューションコードは、ラップトップで表示および実行できます。

写真cloud.google.com

テンソルプロセッサ

Habréについては、TPUの配置方法（こちら、こちら、こちら）、およびTPUがニューラルネットワークのトレーニングに適している理由をすでに書いています。したがって、TPUアーキテクチャの詳細を掘り下げることはせず、ニューラルネットワークをトレーニングするときに考慮する必要がある機能のみを検討します。

現在、3世代のテンソルプロセッサがあり、最後および第3世代のTPUパフォーマンスは420 TFlops（1秒間に数兆回の浮動小数点演算）で、128 GBの高帯域幅メモリが含まれています。ただし、Colaboratoryでは、180 TFlopsのパフォーマンスと64 GBのメモリを備えた第2世代のTPUのみが利用可能です。将来、これらのTPUを検討します。

テンソルプロセッサは4つのチップで構成され、各チップには2つのコアが含まれ、合計8つのコアがTPUに含まれています。 TPUトレーニングは、レプリケーションを使用してすべてのコアで並行して実行されます。データボリュームの8分の1を持つTensorFlowグラフのコピーが各コアで実行されます。

テンソルプロセッサの基盤は、マトリックスユニット（MXU）です。行列を使用した操作の効率的な実装のために、128x128のシストリック配列を持つunningなデータ構造を使用します。したがって、TPU機器リソースの使用を最大化するには、ミニサンプルまたはフィーチャの寸法が128の倍数（ source ）でなければなりません。また、TPUメモリシステムの性質により、ミニサンプルとフィーチャの寸法は8の倍数であることが望ましいです。

共同プラットフォーム

Colaboratoryは、機械学習テクノロジーを進化させるためのGoogleのクラウドプラットフォームです。その上で、人気のあるライブラリTensorFlow、Keras、sklearn、pandasなどを備えた無料の仮想マシンを入手できます。最も便利なことは、共同研究室でJupyterに似たラップトップを実行できることです。ノートパソコンはGoogleドライブに保存されており、ノートパソコンを配布したり、コラボレーションを整理したりできます。これはラップトップがColaboratoryでどのように見えるかです（ 写真はクリック可能です ）：

コードをラップトップのブラウザで記述し、Google Cloudの仮想マシンで実行します。車は12時間発行され、その後停止します。ただし、別の仮想マシンを起動し、さらに12時間動作することを妨げるものはありません。仮想マシンが停止すると、仮想マシンのすべてのデータが削除されることに注意してください。したがって、必要なデータをコンピューターまたはGoogleドライブに保存することを忘れないでください。仮想マシンを再起動した後、再度ダウンロードしてください。

共同プラットフォームでの作業の詳細な手順は、こちら、こちら、こちらです。

テンソルプロセッサをColaboratoryに接続します

デフォルトでは、ColaboratoryはGPUまたはTPU計算アクセラレーターを使用しません。ランタイム->ランタイムタイプの変更->ハードウェアアクセラレータのメニューで接続できます。表示されるリストで、「TPU」を選択します。

アクセラレータのタイプを選択すると、Colaboratoryラップトップが接続されている仮想マシンが再起動し、TPUが利用可能になります。

仮想マシンにデータをダウンロードした場合、再起動プロセス中に削除されます。データを再度ダウンロードする必要があります。

CIFAR-10認識用のKerasニューラルネットワーク

例として、 TIFでKerasニューラルネットワークをトレーニングしてみましょう。これは、 CIFAR-10データセットから画像を認識します。これは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックの10クラスのオブジェクトの小さな画像を含む一般的なデータセットです。クラスは交差しません。画像内の各オブジェクトは1つのクラスにのみ属します。

Kerasを使用してCIFAR-10データセットをダウンロードします。

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

ニューラルネットワークを作成するために、別の関数を取得しました。同じモデルを2回作成します。最初のバージョンのTPUモデルでトレーニングを行い、2番目のモデルでCPUのオブジェクトを認識します。

 def create_model(): input_layer = Input(shape=(32, 32, 3), dtype=tf.float32, name='Input') x = BatchNormalization()(input_layer) x = Conv2D(32, (3, 3), padding='same', activation='relu')(x) x = Conv2D(32, (3, 3), activation='relu', padding='same')(x) x = MaxPooling2D(pool_size=(2, 2))(x) x = Dropout(0.25)(x) x = BatchNormalization()(x) x = Conv2D(64, (3, 3), padding='same', activation='relu')(x) x = Conv2D(64, (3, 3), activation='relu')(x) x = MaxPooling2D(pool_size=(2, 2))(x) x = Dropout(0.25)(x) x = Flatten()(x) x = Dense(512, activation='relu')(x) x = Dropout(0.5)(x) output_layer = Dense(10, activation='softmax')(x) model = Model(inputs=[input_layer], outputs=[output_layer]) model.compile( optimizer=tf.train.AdamOptimizer(0.001), loss=tf.keras.losses.sparse_categorical_crossentropy, metrics=['sparse_categorical_accuracy']) return model

これまでのところ、KerasオプティマイザーはTPUで使用できないため、モデルのコンパイル時にTensorFlowのオプティマイザーが指定されます。

CPUのKerasモデルを作成します。これは、次のステップでTPUのモデルに変換されます。

 cpu_model = create_model()

KerasニューラルネットワークをTPUモデルに変換する

KerasおよびTensorFlowのモデルは、変更なしでGPUでトレーニングできます。 TPUではまだこれを行うことができないため、作成したモデルをTPUのモデルに変換する必要があります。

まず、利用可能なTPUの場所を確認する必要があります。共同プラットフォームでは、これは次のコマンドで実行できます。

 TPU_WORKER = 'grpc://' + os.environ['COLAB_TPU_ADDR']

私の場合、TPUアドレスは次のようになりましたgrpc://10.102.233.146:8470

。打ち上げごとにアドレスは異なりました。

これで、 keras_to_tpu_model

関数を使用してTPUのモデルを取得できます。

 tf.logging.set_verbosity(tf.logging.INFO) tpu_model = tf.contrib.tpu.keras_to_tpu_model( cpu_model, strategy=tf.contrib.tpu.TPUDistributionStrategy( tf.contrib.cluster_resolver.TPUClusterResolver(TPU_WORKER)))

最初の行には、情報レベルでのロギングが含まれます。モデル変換ログは次のとおりです。

INFO:tensorflow:Querying Tensorflow master (b'grpc://10.102.233.146:8470') for TPU system metadata. 
      

        
        
        
      

     INFO:tensorflow:Found TPU system: 
      

        
        
        
      

     INFO:tensorflow:*** Num TPU Cores: 8 
      

        
        
        
      

     INFO:tensorflow:*** Num TPU Workers: 1 
      

        
        
        
      

     INFO:tensorflow:*** Num TPU Cores Per Worker: 8 
      

        
        
        
      

     ... 
      

        
        
        
      

     WARNING:tensorflow:tpu_model (from tensorflow.contrib.tpu.python.tpu.keras_support) is experimental and may change or be removed at any time, and without warning.

先ほど指定したアドレスでTPUが見つかったことがわかります。8コアです。また、 tpu_model

は実験的であり、いつでも変更または削除される可能性があるという警告がtpu_model

されます。時間をかけて、変換せずにKerasモデルをTPUで直接トレーニングできることを願っています。

TPUでモデルをトレーニングします

TPUのモデルは、 fit

メソッドを呼び出すことでKerasの通常の方法でトレーニングできます。

 history = tpu_model.fit(x_train, y_train, batch_size=128*8, epochs=50, verbose=2)

ここの機能は何ですか。 TPUを効果的に使用するには、ミニサンプルサイズが128の倍数である必要があります。さらに、ミニサンプルのすべてのデータの8分の1を使用して各TPUコアでトレーニングが実行されます。したがって、トレーニング中のミニサンプルのサイズを128 * 8に設定し、各TPUコアに対して128枚の画像を取得します。 256または512などのより大きなサイズを使用でき、パフォーマンスが向上します。

私の場合、1つの時代の訓練には平均6秒かかります。

50世紀の教育の質：

Epoch 50/50 
      

        
        
        
      

     - 6s - loss: 0.2727 - sparse_categorical_accuracy: 0.9006

トレーニング用データに対する正解の割合は90.06％でした。 TPUを使用してテストデータの品質をチェックします。

 scores = tpu_model.evaluate(x_test, y_test, verbose=0, batch_size=batch_size * 8) print("     : %.2f%%" % (scores[1]*100))

: 80.79%

ここで、学習済みモデルの重みを保存します。

 tpu_model.save_weights("cifar10_model.h5")

TensorFlowは、重みがTPUからCPUに転送されるというメッセージを提供します。

INFO:tensorflow:Copying TPU weights to the CPU

訓練されたネットワークの重みは、共同研究仮想マシンのディスクに保存されたことに注意してください。仮想マシンが停止すると、その仮想マシンからのすべてのデータが消去されます。訓練された重量を失いたくない場合は、コンピューターに保存します。

 from google.colab import files files.download("cifar10_model.h5")

CPU上のオブジェクトを認識する

CPUを使用して画像内のオブジェクトを認識するために、TPUでトレーニングされたモデルを使用してみましょう。これを行うには、モデルを再度作成し、TPUでトレーニングされたウェイトをモデルにロードします。

 model = create_model() model.load_weights("cifar10_model.h5")

モデルは中央処理装置で使用する準備ができています。 CIFAR-10テストスイートの画像の1つをその助けを借りて認識してみましょう。

 index=111 plt.imshow(toimage(x_test[index])) plt.show()

写真は小さいですが、これは飛行機であることを理解できます。認識を開始します。

 #      CIFAR-10 classes=['', '', '', '', '', '', '', '', '', ''] x = x_test[index] #  , .. Keras    x = np.expand_dims(x, axis=0) #   prediction = model.predict(x) #       print(prediction) #     prediction = np.argmax(prediction) print(classes[prediction])

ニューロンの出力値のリストを取得します。プレーンに対応する最初の値を除き、ほとんどすべてのニューロンはゼロに近い値です。

[[9.81738389e-01 2.91262069e-07 1.82225723e-02 9.78524668e-07 
      

        
        
        
      

     5.89265142e-07 6.76223244e-10 1.03252004e-10 9.23009047e-09 
      

        
        
        
      

     3.71878523e-05 3.16599618e-08]]

認識に成功しました！

まとめ

ColaboratoryプラットフォームでTPUの操作性を実証することが可能でした。Kerasのニューラルネットワークのトレーニングに使用できます。ただし、CIFAR-10データセットは小さすぎるため、TPUリソースを完全にロードするには不十分です。 GPUと比較した加速は小さいことが判明しました（TPUの代わりにGPUをアクセラレーターとして選択し、モデルを再度トレーニングすることで確認できます）。

Habréには、ResNet-50ネットワークのトレーニングに関するTPUおよびGPU V100のパフォーマンスを測定した記事があります。このタスクで、TPUは4つのV100 GPUと同じパフォーマンスを示しました。 Googleがこのような強力なニューラルネットワーク学習アクセラレータを無料で提供しているのはすばらしいことです。

TPUでのKerasニューラルネットワークトレーニングを示すビデオ。

Colaboratory CloudのGoogleの無料のテンソルプロセッサ