👶🏽 🧚🏻 🎫 インテルC ++コンパイラーによる段階的な最適化 👖 🙇🏿 🕰️

遅かれ早かれ、各開発者はアプリケーションを最適化するという問題に直面し、生産性の面で最小限の労力と最大限の利益でこれを実現したいと考えています。この点については、コンパイラーが助けになりますが、今日では多くのことを自動的に行うことができます。キーを使用してコンパイラーについて伝える必要があります。最適化の種類だけでなく、多くのコンパイルオプションがあったため、Intelコンパイラを使用した段階的なアプリケーション最適化に関するブログを書くことにしました。

そのため、アプリケーションのコンパイルと最適化の厄介な道は、7つのステップに分けることができます。行こう！

ステップ1.最適化なしでコードを収集しますか？

そうです、最初のステップでこの質問に答えたいと思います。コンパイラーのすべてを無効にすることで、最適化プロセスを開始することがよくあります。なんで？まあ、まず、コンパイラとその独創的な変換からの介入なしに、私のコードが正しく動作することを確認したいと思います。 -O0スイッチ （Windows / Od ）を使用して最適化をオフにし、コードを収集してアプリケーションを実行します。はい。最適化されていないコードのデバッグは簡単です。

ステップ2.「より簡単に」接続できるものは何ですか？

「基本」オプションから始めます。

-O1 / -Os

コンパイラーが自動ベクトル化を行わない、つまり試行もしない、最適化の最初の基本レベル。この場合、データフローの分析、コードの移動、運用コストの削減、変数の有効期間の分析、コマンドの実行の計画が実行されます。多くの場合、アプリケーションのサイズを制限するために使用され、最適化がわずかにカットされます。オプションO1が有効な場合、Osも暗黙的に有効になります。

-O2

デフォルトで有効になっている最適化レベルは、アプリケーションの実行速度に重点を置いています。このレベルから開始して、サイクルのベクトル化が含まれます。さらに、ループ、インライン化、IP（ファイル内手続き間）最適化など、多くの基本的な最適化が実行されます。

-O3

この最大レベルの最適化では、O2で行われたことに加えて、ループを使用したより積極的な変換が多数含まれています。たとえば、外側のループを展開して内側のループを融合し、ブロックをブロックに分割（ブロック）し、IF条件を組み合わせます。最適化自体の非常に優れた概要をここに示します。アプリケーションで数値結果（科学計算など）を保持することが重要な場合は、このオプションの使用に注意する必要があります。多くの場合、数値は「浮動」しており、 -O2に戻って-fp-modelオプションを使用して、最適化を制限する必要があります。一般的に、 -O2でコンパイルした後、 -O3を試して何が起こるかを確認することを制限する人はいません。理論的には、アプリケーションはより高速に実行されるはずです。

-no-prec-div

IEEE準拠の除算操作は非常に労働集約的です。計算の精度を多少犠牲にすることもできますが、このオプションを使用して計算を高速化できます。たとえば、コンパイラーはA / Bの形式の式をA *（1 / B）に置き換えます。

-ansi-alias

このオプションは、ISO C標準に従ってコードを記述するときに厳密なエイリアスルールに従うことをコンパイラに指示します。これらのルールを観察するとき、異なるタイプのオブジェクトへのポインタを逆参照するとき、同じメモリ位置に戻ることはありません。これにより、コンパイラが最適化を実行する余地が増えます。エイリアシングの詳細については、この記事をご覧ください。

Intelコンパイラバージョン15.0（Intel Parallel Studio XE 2015 Composer Edition）以降では、このオプションがデフォルトで有効になっていることに注意することが重要です。ただし、以前のバージョンで作成する場合は、忘れないでください。

ステップ3.「鉄」の詳細を使用します

-x'code 'オプションを使用して、Intelプロセッサー固有の最適化を有効にできます。彼女は、コンパイラーに、生成できる命令セットなど、使用できるプロセッサー機能を伝えます。 「コード」は、 SSE2、SSE3、SSSE3、SSE3_ATOM、SSSE3_ATOM、ATOM_SSSE3、ATOM_SSE4.2、SSE4.1、SSE4.2、AVX、CORE-AVX-I、CORE-AVX2、CORE-AVX512、MIC-AVX512に設定できます、COMMON-AVX512 。

結果のアプリケーションは、生成された命令をサポートするIntelプロセッサーを搭載したシステムでのみ実行できることは明らかです。

デフォルトでは、 -xSSE2スイッチが使用されます 。これは、たとえば、ベクトル化中にSSE2命令を使用する必要があることをコンパイラーに通知します。ほとんどの場合（Pentium 4以降）、これによりアプリケーションの実行が保証されます。

Atomで記述し、アプリケーションがAtomでのみ実行されることが確実にわかっている場合、最高のパフォーマンスを得るために-xSSSE3_ATOMを使用できます。 Silvermontアーキテクチャの場合、 -xATOM_SSE4.2を指定する必要があります。

特に怠laな人は-xHostオプションを使用できます。この場合、コードを収集するハードウェアに対して最適化が行われます。

ところで、 -ax'code 'スイッチを使用して、特定の命令セットだけでなく、一度に複数の命令セットを指定することができます。

同時に、オートサンプラー（ディスパッチャー）がコードに追加され、アプリケーションの起動中に（ CPUIDによって）CPUを決定し、サポートする命令セットに応じて、実行が正しい方向に進みます。もちろん、これによりアプリケーションのサイズが大きくなりますが、柔軟性は非常に高くなります。 'code'を介して明示的に指定された命令セットに加えて、SSE2のデフォルトバージョンが常に作成されます。たとえば、 -axAVXを指定すると、SSE2の1つのデフォルトバージョンと、AVXの別バージョンが取得されます。

さらに、 -axオプションで複数の命令セットを一度にコンマで区切って指定できます。たとえば、 -axSSE4.2の場合、AVXはコンパイラにSSE4.2、AVXのバージョンを生成するように指示し、デフォルト（SSE2）ブランチを忘れないでください。 -axに加えて-x オプションを使用して明示的に指定することもできます。たとえば、 -axSSE4.2スイッチを指定すると、AVX -xSSE4.1スイッチはデフォルトでSSE4.1になります。

Intelプロセッサに固有ではない最適化には、 -mスイッチを使用します。

たとえば、Quark SoC X1000の場合、オプション-mia32 （IA-32アーキテクチャ用のコードを生成します）および-falign-stack = assume-4-byteを指定できます。これにより、コンパイラーは、スタックが4バイトでアライメントされていると言うことができます。必要に応じて、コンパイラは16バイトに調整できます。これにより、関数の呼び出しに必要なデータのサイズを削減できます。

ステップ4. IPO

いいえ、証券取引所で株式を売るつもりはありません。 IPO（プロシージャー間の最適化）-コンパイラーがコードに対して行うプロシージャー間の分析と最適化。 -ipoオプションで接続されており、ソースコードを含む1つの別個のファイルではなく、すべてのソースに対して同時に最適化できます。この場合、コンパイラはより多くのことを知り、より多くの結論を導き、それに応じて変換/最適化を行うことができます。このブログは、IPOのすべての複雑さを理解するのに役立ちます。作業の詳細は、 -ipoでコンパイルする場合、変更に使用されるコンパイルとリンクの順序、およびオブジェクトファイルにパックされた内部表現が含まれるため、標準（Linux）リンカーldおよびユーティリティarはIntel xiarおよびxildに置き換える必要があります。 IPOを使用したコンパイルプロセス自体は、特に「大規模な」アプリケーションの場合、大幅に時間がかかることを忘れないでください。

ステップ5.または「プロファイル」ですか？

アプリケーション自体を起動する以上の情報をコンパイラーに与えることはできません。彼のおかげで、どのブランチに行ったか、もっと時間を費やした場所、キャッシュにアクセスできなかった頻度などを正確に知ることができます。当然のことながら、アプリケーションのプロファイリングは最適化に大きく役立つという結論に至ります。

コンパイラには、アプリケーションのプロファイルを作成し、収集されたデータに基づいて最適化を実行できるオプションがあります-PGO（プロファイルに基づく最適化）。

ワークプロセスはいくつかのステップで構成されており、それに応じてコンパイラキーも含まれています。

まず、 -prof-genスイッチでコンパイルしてアプリケーションをインストルメントする必要があります。次に、拡張子が.dynの別の情報ファイルにさまざまな統計（プロファイル）を収集しながら、アプリケーションを実行する必要があります。最後に、 -prof-useスイッチを使用して最終コンパイル中にこのデータを使用します。このスイッチでは、コンパイラーは最も計算コストの高いコードブランチを最適化しようとします。

場合によっては、アプリケーションの結果を含むファイルを配置する場所を指定する必要があります。これは、フォルダーへのパスを指定して、 -prof-dir = 'val'オプションで実行できます。したがって、あるマシンでコードを収集し、別のマシンでプロファイルを作成し、最初のマシンで最終コンパイルを再度実行できます。 dynファイルを取得して、システム上のパパに配置し、そこでコードを収集し、 -prof-dirを介してパスを指定します。

プロファイルをコンパイルするには、アプリケーションを正常に終了して終了する必要があります。

アプリケーションが無限に実行される場合（たとえば、組み込みシステムでよくあるケース）、さらにいくつかのジェスチャーを行う必要があります。

1.アプリケーションから出口点を追加します

2. PGO API _PGOPTI_Prof_Dump_All（）への呼び出しを追加します

3.環境変数を使用して、ダンプ間隔をマイクロ秒単位で制御できます。

INTEL_PROF_DUMP_INTERVAL 5000をエクスポート

INTEL_PROF_DUMP_CUMULATIVEをエクスポート1

ステップ6.ベクトルを使用したゲーム

ベクトル化はデフォルトで有効になっていますが（ -O2オプションを使用）、ベクトル化に焦点を絞ることにし、命令セットは既に説明した-x 、 -axなどによって制御されます。しかし、インテル®コンパイラーのパフォーマンスについて話すときは、アプリケーションの速度を最大限に高めることができるため、ベクトル化に関して正確に注意を払う必要があります。コンパイラのハードワークを支援する方法に関する対応する投稿を読みます。さて、一連の更新されたオプション-opr-reportが役立ちます。

ステップ7.自動的に並列化する！

インテル®コンパイラーには、最も興味深いオプション-parallelがあり、コンパイラーを自動モードで使用してOpenMPを使用してループを並列化できます。明らかに、すべてのループが同等にうまく並列するわけではなく、コンパイラーは常にこれを行うことができるとはほど遠い。ただし、このオプションを試してみる価値はあります。これによって何かが失われることはほとんどありません。

その結果、パフォーマンスを向上させるためにコードをコンパイルするときに試す価値のある一連のオプションがあります。

-O2 / O3 -no-prec-div -x'code '-ipo -prof-gen / -prof-use -prof-dir =' val '-parallel

ところで、怠け者のために、これらのキーのほとんどを含む-fastオプションを思い付きました： ipo、-O3、-no-prec-div、-static、-fp-model fast = 2、および-xHost 。

さて、オプションに加えて、優れたIntel®Vtune Amplifier XEプロファイラーは常に役立ちますが、それは別の話です。

練習する

理論的な考慮事項に加えて、Pi番号の計算の例にリストされているオプションをいじって、簡単ではあるがアプリケーションの速度にどのように影響するかを示したいと思います。「理論」では、Linuxのキーを指定しました。Windowsの場合、キーはほとんど同じで、先頭に文字Qが追加されています（ほとんどの場合）。 Windowsでサンプルを収集して、対応するオプションを示します。 Intel C ++コンパイラバージョン15.0（15.0.2.179ビルド20150121）を使用しました。

そこで、意図的にコードを2つのファイルに分割しました（IPOからの影響があったためです）。

pi.c：

#define N 1000000000 double f( double x ); main() { double sum, pi, x, h; clock_t start, stop; int i; h = (double)1.0/(double)N; sum = 0.0; start = clock(); for ( i=0; i<N ; i++ ){ x = h*(i-0.5); sum = sum + f(x); } stop = clock(); // print value of pi to be sure multiplication is correct pi = h*sum; printf(" pi is approximately : %f \n", pi); // print elapsed time printf("Elapsed time = %lf seconds\n",((double)(stop - start)) / CLOCKS_PER_SEC); }

別のファイルfx.cで、関数fが定義されます。

 double f(double x){ double ret; ret = 4.0 / (x*x + 1.0); return ret; }

stdioおよびtimeライブラリを含めることは言及しませんでした。

そのため、さまざまなオプションを使用してこのコードを収集し、結果の加速を確認します。

まず、最適化なしでコンパイルします。

 icl /Od pi.c fx.c /o Od_pi.exe

Od_pi.exeを実行します。

 pi is approximately : 3.141593 Elapsed time = 22.828000 seconds

少し長く、次のレベルのO1が提供するものを見てみましょう。

 icl /O1 pi.c fx.c /o O1_pi.exe pi is approximately : 3.141593 Elapsed time = 4.963000 seconds

興味深いことに、最適化レベルをO2とO3に上げると、速度が向上しなくなります。

コードは非常に単純であり、ループ内の別のファイルで定義された関数呼び出しのためにベクトル化されていないため、これは非常に論理的です。したがって、IPOが役立つはずです。

 icl /O2 pi.c fx.c /Qipo ipo_pi.exe pi is approximately : 3.141593 Elapsed time = 2.562000 seconds

同時に、サイクルがベクトル化されました。 IPOなしで、同じシリーズのキーQxAVX 、 QxSSE2などを使用してコードを収集する場合、速度の違いにも気付かないでしょう。繰り返しますが、ベクトル化は機能しないため、非常に論理的です。

 icl /O2 /QxAVX pi.c fx.c /o xAVX_pi.exe Elapsed time = 5.065000 seconds icl /O2 /QxSSE2 pi.c fx.c /o xSSE2_pi.exe Elapsed time = 5.093000 seconds

コードをコンパイルし、Haswellでアプリケーションを実行するため、 / QxHostオプションとIPOを使用します。

 icl /O2 /QxHost /Qipo pi.c fx.c /o xHost_ipo_pi.exe Elapsed time = 2.718000 seconds

/ fastオプションでも同じ結果が得られます。

 icl /fast /Qvec-report2 pi.c fx.c /o fast_pi.exe Elapsed time = 2.718000 seconds

プロファイリングを使用すると、最適化に関してもう少し絞ることができます。

 icl /Qprof-gen pi.c fx.c /o pgen_pi.exe

アプリケーションを起動し、再度コンパイルします。

 icl /Qprof-use /O2 /Qipo pi.c fx.c /o puse_pi.exe Elapsed time = 2.578000 seconds

さて、自動並列化で最大を得ます：

 icl /Qparallel /Qpar-report2 /Qvec-report2 /Qipo pi.c fx.c /o par_ipo_pi.exe Elapsed time = 1.447000 seconds

したがって、この方法では、多くの労力をかけることなく、大幅に加速しました。簡単なゲームオプション、いわば。

インテルC ++コンパイラーによる段階的な最適化

More articles: