IntelとFacebookが共同でCaffe2ライブラリのパフォーマンスを向上







私たちを取り巻く世界は日々、テキスト、グラフィック、マルチメディアなど、より多くの情報を生成しています。 近年、人工知能とディープラーニングテクノロジーは、人々がこの情報をよりよく理解し、音声、ビデオ、画像認識機能、および推奨機能を充実させるのに役立つ多くのアプリケーションを改善することができました。



過去1年間、Intelはいくつかの詳細な調査フレームワークにCPUハードウェアサポートを追加し、分析ベースのアプリケーションを最適化しました。 これらの最適化の基礎は、 Intel Math Kernel Library(Intel MKL)です 。これは、 Intel Advanced Vector Extension(Intel AVX-512)命令を使用して、ディープラーニング機能の拡張サポートを提供します。



Caffe2は、Facebookによって作成されたオープンソースの深層学習フレームワークであり、高速でモジュール式の実行が可能です。 Caffe2は、研究者が大規模な機械学習モデルをトレーニングし、モバイルデバイス向けのAIを開発できるように設計されています。



インテルとFacebookは、最適な出力パフォーマンスのためにCaffe2にインテルMKL機能を統合します。 次の表に、結論を得る速度を示します

インテルMKLおよびEigen BLASライブラリーを使用。 テーブルOMP_NUM_THREADSは、使用されている物理コアの数を示します。 結果は、プロセッサの観点からCaffe2を最適化できることを示しています。 小さい負荷パッケージの場合、各負荷に独自のプロセッサコアを使用し、それらを並列で実行することをお勧めします。

OMP_NUM_THREADS = 44 OMP_NUM_THREADS = 1
パッケージサイズ インテルMKL

(画像/秒)
固有BLAS

(画像/秒)
インテルMKL

(画像/秒)
固有BLAS

(画像/秒)
1 173.4 5.2 28.6 5.1
32 1500.2 29.3 64.6 15.4
64 1596.3 35.3 66.0 15.5
256 1735.2 44.9 67.3 16.2
今年初め、新世代のIntel Xeonプロセッサ(コードネームSkylake)が発売されました。 新しいSkylake製品の1つは、Intel AVX-512ベクトルセットの一部としての512ビットFMA(Fused Multiply Add)命令です。これは、トレーニングモデルと結論の計算の両方で、以前の256ビットAVX2命令と比較して大幅なパフォーマンス向上を提供します。 512ビットFMA機能は、FLOPSプロセッサで達成されるリーチを2倍にし、畳み込みおよびリカレントニューラルネットワークで使用される単精度マトリックス演算を大幅に加速します。 ピン数は十分に並列化されており、新しいプロセッサのコア数の増加から恩恵を受けます。 さらに、メモリ周波数とコアごとの中間レベルキャッシュ(MLC)キャッシュのサイズを増やすと、作業速度に有益な効果があります。



All Articles