💥 🙇🏾 👨‍👨‍👧‍👧 IntelとFacebookが共同でCaffe2ライブラリのパフォーマンスを向上 🌩️ 💇🏻 👧🏼

私たちを取り巻く世界は日々、テキスト、グラフィック、マルチメディアなど、より多くの情報を生成しています。近年、人工知能とディープラーニングテクノロジーは、人々がこの情報をよりよく理解し、音声、ビデオ、画像認識機能、および推奨機能を充実させるのに役立つ多くのアプリケーションを改善することができました。

過去1年間、Intelはいくつかの詳細な調査フレームワークにCPUハードウェアサポートを追加し、分析ベースのアプリケーションを最適化しました。これらの最適化の基礎は、 Intel Math Kernel Library（Intel MKL）です。これは、 Intel Advanced Vector Extension（Intel AVX-512）命令を使用して、ディープラーニング機能の拡張サポートを提供します。

Caffe2は、Facebookによって作成されたオープンソースの深層学習フレームワークであり、高速でモジュール式の実行が可能です。 Caffe2は、研究者が大規模な機械学習モデルをトレーニングし、モバイルデバイス向けのAIを開発できるように設計されています。

インテルとFacebookは、最適な出力パフォーマンスのためにCaffe2にインテルMKL機能を統合します。次の表に、結論を得る速度を示します

インテルMKLおよびEigen BLASライブラリーを使用。テーブルOMP_NUM_THREADSは、使用されている物理コアの数を示します。結果は、プロセッサの観点からCaffe2を最適化できることを示しています。小さい負荷パッケージの場合、各負荷に独自のプロセッサコアを使用し、それらを並列で実行することをお勧めします。

	OMP_NUM_THREADS = 44		OMP_NUM_THREADS = 1
パッケージサイズ	インテルMKL （画像/秒）	固有BLAS （画像/秒）	インテルMKL （画像/秒）	固有BLAS （画像/秒）
1	173.4	5.2	28.6	5.1
32	1500.2	29.3	64.6	15.4
64	1596.3	35.3	66.0	15.5
256	1735.2	44.9	67.3	16.2

今年初め、新世代のIntel Xeonプロセッサ（コードネームSkylake）が発売されました。新しいSkylake製品の1つは、Intel AVX-512ベクトルセットの一部としての512ビットFMA（Fused Multiply Add）命令です。これは、トレーニングモデルと結論の計算の両方で、以前の256ビットAVX2命令と比較して大幅なパフォーマンス向上を提供します。 512ビットFMA機能は、FLOPSプロセッサで達成されるリーチを2倍にし、畳み込みおよびリカレントニューラルネットワークで使用される単精度マトリックス演算を大幅に加速します。ピン数は十分に並列化されており、新しいプロセッサのコア数の増加から恩恵を受けます。さらに、メモリ周波数とコアごとの中間レベルキャッシュ（MLC）キャッシュのサイズを増やすと、作業速度に有益な効果があります。

IntelとFacebookが共同でCaffe2ライブラリのパフォーマンスを向上

More articles: