🧙🏻 🏇🏻 👼🏾 CUDAを使用した並行プログラミング。パート1：はじめに 👩🏽‍💻 😔 🍩

別のCUDA記事-なぜですか？

Habréには、CUDAに関する良い記事がすでにたくさんありました。ただし、「CUDA scan 」の組み合わせの検索では、最も基本的なアルゴリズムの1つであるGPUのスキャンアルゴリズムとはまったく関係のない2つの記事のみが返されました。そのため、最近見たUdacity- 並列プログラミング入門のコースに触発されて、CUDAに関する記事のより完全なシリーズを書くことにしました。このシリーズはこの特定のコースに基づいていることをすぐに言わなければなりません。時間がある場合は、それを通過する方がはるかに便利です。

内容

現在、次の記事が予定されています。

パート1：はじめに。

パート2：GPUハードウェアと並列通信パターン。

パート3：基本的なGPUアルゴリズム：削減、スキャン、およびヒストグラム。

パート4：基本的なGPUアルゴリズム：コンパクトなセグメントスキャン、並べ替え。いくつかのアルゴリズムの実用化。

パート5：GPUプログラムの最適化。

パート6：逐次アルゴリズムの並列化の例。

パート7：並列プログラミング、動的並列処理の追加トピック。

遅延と帯域幅

GPUを使用して問題を解決する前に誰もが最初に尋ねるべき質問は、GPUが何に適しているか、いつ使用すべきかということです。答えるには、2つの概念を定義する必要があります。

レイテンシー-1つの命令/操作を完了するのにかかる時間。

スループット -単位時間あたりに実行される命令/操作の数。

簡単な例：速度が90 km / hで容量が4人の乗用車と、速度が60 km / hで容量が20人のバスがあります。操作のために1キロメートルあたり1人の動きをとると、車の遅延-3600/90 = 40秒-1秒で1人が1キロメートルの距離を乗り越えるので、車のスループットは4/40 = 0.1操作/秒です。バス遅延-3600/60 = 60秒、バススループット-20/60 = 0.3（3）操作/秒。

したがって、CPUは自動車であり、GPUはバスです。大きな遅延がありますが、帯域幅も大きくなります。タスクで特定の各操作の遅延が1秒あたりのこれらの操作の数ほど重要でない場合は、GPUの使用を検討する価値があります。

CUDAの基本概念と用語

それでは、CUDAの用語を扱いましょう。

デバイス -GPU 「従属」の役割を果たします-CPUが彼に伝えることだけを行います。
ホスト（ホスト） -CPU。制御ロールを実行します-デバイスでタスクを起動し、デバイスにメモリを割り当て、デバイスとの間でメモリを移動します。はい、CUDAを使用する場合、デバイスとホストの両方に独自のメモリがあることを前提としています。
カーネルは、デバイス上のホストによって起動されるタスクです。

CUDAを使用する場合、お気に入りのプログラミング言語（CおよびC ++を除くサポートされている言語のリスト）でコードを記述するだけで、その後、CUDAコンパイラーはホスト用とデバイス用に別々にコードを生成します。小さな警告：デバイスのコードは、いくつかの「CUDA拡張機能」を使用してCでのみ記述する必要があります。

CUDAプログラムの主な段階

ホストは、デバイスに必要な量のメモリを割り当てます。
ホストはメモリからデバイスのメモリにデータをコピーします。
ホストはデバイス上の特定のコアの実行を開始します。
デバイスはカーネルを実行します。
ホストは、結果をデバイスメモリからメモリにコピーします。

当然、GPUを最も効率的に使用するには、コアの作業に費やされる時間とメモリの割り当てとデータの移動に費やされる時間の比率をできるだけ大きくする必要があります。

カーネル

カーネルとその起動用のコードを記述するプロセスをより詳細に検討しましょう。重要な原則は、 カーネルが（実際には）通常のシーケンシャルプログラムとして記述されていることです。つまり、カーネル自体のコードにスレッドの作成と開始は表示されません。代わりに、並列コンピューティングを編成するために、 GPUは異なるスレッドで同じカーネルの多数のコピーを起動します -または、自分で起動するスレッドの数を自分で言います。そして、はい、GPUを使用する効率の問題に戻ります-開始するスレッドが多いほど（すべてのスレッドが有用な仕事をするという条件で）-より良いです。

このような場合、カーネルのコードは通常のシーケンシャルコードとは異なります。

カーネル内部では、「識別子」、またはより簡単に、現在実行中のスレッドの位置を見つける機会があります。この位置を使用して、実行中のスレッドに応じて同じコアが異なるデータで動作するようにします。ちなみに、このような並列コンピューティングの組織は、 SIMD （単一命令複数データ）と呼ばれます -複数のプロセッサが異なるデータに対して同じ操作を同時に実行する場合。
場合によっては、カーネルコードでさまざまな同期方法を使用する必要があります。

カーネルを起動するスレッドの数をどのように設定しますか？ GPUは依然としてグラフィック処理ユニットであるため、これは当然、CUDAモデル、つまりスレッド数の設定方法に影響を与えます。

最初に、いわゆるグリッドの寸法が3D座標で設定されます： grid_x、grid_y、grid_z 。その結果、グリッドはgrid_x * grid_y * grid_zブロックで構成されます。
次に、ブロックサイズが3D座標で設定されます： block_x、block_y、block_z 。その結果、ブロックはblock_x * block_y * block_zスレッドで構成されます。合計で、 grid_x * grid_y * grid_z * block_x * block_y * block_zフローがあります。重要な注意-1ブロック内のスレッドの最大数は制限され、GPUモデルに依存します-典型的な値は512（古いモデル）と1024（新しいモデル）です。
カーネル内では、 threadIdx変数とblockIdx変数はフィールドx、y、zで使用できます。これらには、それぞれブロック内のストリームとグリッド内のブロックの3D座標が含まれています。同じフィールドを持つBlockDim変数とgridDim変数も使用できます（それぞれブロックサイズとグリッドサイズ）。

ご覧のとおり、このストリームトリガー方法は2Dおよび3D画像の処理に本当に適しています。たとえば、2Dまたは3D画像の各ピクセルを特定の方法で処理する必要がある場合、ブロックサイズ（画像サイズ、処理方法、GPUモデルに依存）、グリッドサイズを選択した後画像の大きさがブロックの大きさで完全に分割されていない場合、おそらく余剰で画像全体が覆われるように選択されます。

CUDAで最初のプログラムを作成しています

十分な理論、コードを書く時間。さまざまなオペレーティングシステム用のCUDAのインストールと構成の手順-docs.nvidia.com/cuda/index.html また、画像ファイルの操作を簡単にするために、 OpenCVを使用し、CPUとGPUのパフォーマンスを比較するためにOpenMPを使用します。

タスクは非常に簡単です。カラー画像をグレーの濃淡に変換します。このため、グレースケールのpixピクセルの輝度は次の式に従って計算されます： Y = 0.299 * pix.R + 0.587 * pix.G + 0.114 *pix.B。

まず、プログラムのスケルトンを記述します。

main.cpp

#include <chrono> #include <iostream> #include <cstring> #include <string> #include <opencv2/core/core.hpp> #include <opencv2/highgui/highgui.hpp> #include <opencv2/opencv.hpp> #include <vector_types.h> #include "openMP.hpp" #include "CUDA_wrappers.hpp" #include "common/image_helpers.hpp" using namespace cv; using namespace std; int main( int argc, char** argv ) { using namespace std::chrono; if( argc != 2) { cout <<" Usage: convert_to_grayscale imagefile" << endl; return -1; } Mat image, imageGray; uchar4 *imageArray; unsigned char *imageGrayArray; prepareImagePointers(argv[1], image, &imageArray, imageGray, &imageGrayArray, CV_8UC1); int numRows = image.rows, numCols = image.cols; auto start = system_clock::now(); RGBtoGrayscaleOpenMP(imageArray, imageGrayArray, numRows, numCols); auto duration = duration_cast<milliseconds>(system_clock::now() - start); cout<<"OpenMP time (ms):" << duration.count() << endl; memset(imageGrayArray, 0, sizeof(unsigned char)*numRows*numCols); RGBtoGrayscaleCUDA(imageArray, imageGrayArray, numRows, numCols); return 0; }

ここではすべてが明らかです-画像ファイルを読み取り、カラーおよびグレースケール画像へのポインタを準備し、オプションを実行します

OpenMPとCUDAのオプションを使用して、時間を測定します。 prepareImagePointers関数の形式は次のとおりです。

prepareImagePointers

 template <class T1, class T2> void prepareImagePointers(const char * const inputImageFileName, cv::Mat& inputImage, T1** inputImageArray, cv::Mat& outputImage, T2** outputImageArray, const int outputImageType) { using namespace std; using namespace cv; inputImage = imread(inputImageFileName, IMREAD_COLOR); if (inputImage.empty()) { cerr << "Couldn't open input file." << endl; exit(1); } //allocate memory for the output outputImage.create(inputImage.rows, inputImage.cols, outputImageType); cvtColor(inputImage, inputImage, cv::COLOR_BGR2BGRA); *inputImageArray = (T1*)inputImage.ptr<char>(0); *outputImageArray = (T2*)outputImage.ptr<char>(0); }

私はちょっとしたトリックに行きました：実際には、画像の各ピクセルに対してほとんど作業を行わないということです-つまり、CUDAオプションでは、上記の問題は、有用な操作の実行時間とメモリ割り当ておよびデータコピーの時間の比率、および結果として合計時間に発生しますCUDAバージョンはOpenMPバージョンよりも大きくなりますが、CUDAの方が高速であることを示したいと思います:)したがって、CUDAの場合、実際の画像変換の実行に費やされた時間のみが測定されます（メモリ操作を除く）。私の弁護では、タスクの大規模なクラスの場合、耐用年数が依然として支配的であり、メモリ操作を考慮してもCUDAはより高速になると言います。

次に、OpenMPバージョンのコードを記述します。

openMP.hpp

 #include <stdio.h> #include <omp.h> #include <vector_types.h> void RGBtoGrayscaleOpenMP(uchar4 *imageArray, unsigned char *imageGrayArray, int numRows, int numCols) { #pragma omp parallel for collapse(2) for (int i = 0; i < numRows; ++i) { for (int j = 0; j < numCols; ++j) { const uchar4 pixel = imageArray[i*numCols+j]; imageGrayArray[i*numCols+j] = 0.299f*pixel.x + 0.587f*pixel.y+0.114f*pixel.z; } } }

すべてが非常に簡単です-omp parallel forディレクティブをシングルスレッドコードに追加しただけです-これがOpenMPの美しさとパワーです。 スケジュールパラメータをいじってみましたが、 スケジュールパラメータがない場合よりも悪い結果になりました。

最後に、CUDAに進みます。ここでさらに詳しく説明します。まず、入力用のメモリを割り当て、それらをCPUからGPUに移動して、出力用のメモリを割り当てる必要があります。

非表示のテキスト

 void RGBtoGrayscaleCUDA(const uchar4 * const h_imageRGBA, unsigned char* const h_imageGray, size_t numRows, size_t numCols) { uchar4 *d_imageRGBA; unsigned char *d_imageGray; const size_t numPixels = numRows * numCols; cudaSetDevice(0); checkCudaErrors(cudaGetLastError()); //allocate memory on the device for both input and output checkCudaErrors(cudaMalloc(&d_imageRGBA, sizeof(uchar4) * numPixels)); checkCudaErrors(cudaMalloc(&d_imageGray, sizeof(unsigned char) * numPixels)); //copy input array to the GPU checkCudaErrors(cudaMemcpy(d_imageRGBA, h_imageRGBA, sizeof(uchar4) * numPixels, cudaMemcpyHostToDevice));

CPU上のデータはh_ （ h ost）で始まり、データとGPUはd_ （ d evice）で始まる-CUDAの変数の命名基準に注意を払う価値があります。 checkCudaErrors-コースUdacity githubリポジトリから取得したマクロ。次の形式があります。

非表示のテキスト

 #include <cuda.h> #define checkCudaErrors(val) check( (val), #val, __FILE__, __LINE__) template<typename T> void check(T err, const char* const func, const char* const file, const int line) { if (err != cudaSuccess) { std::cerr << "CUDA error at: " << file << ":" << line << std::endl; std::cerr << cudaGetErrorString(err) << " " << func << std::endl; exit(1); } }

cudaMalloc -GPUのmallocの類似体、 cudaMemcpy - memcpyの類似体には、コピーのタイプを示す列挙型の追加パラメーターがあります：cudaMemcpyHostToDevice、cudaMemcpyDeviceToHost、cudaMemcpyDeviceToDevice。

次に、時間の測定を忘れずに、グリッドとブロックの次元を設定し、カーネルを呼び出す必要があります。

非表示のテキスト

  dim3 blockSize; dim3 gridSize; int threadNum; cudaEvent_t start, stop; cudaEventCreate(&start); cudaEventCreate(&stop); threadNum = 1024; blockSize = dim3(threadNum, 1, 1); gridSize = dim3(numCols/threadNum+1, numRows, 1); cudaEventRecord(start); rgba_to_grayscale_simple<<<gridSize, blockSize>>>(d_imageRGBA, d_imageGray, numRows, numCols); cudaEventRecord(stop); cudaEventSynchronize(stop); cudaDeviceSynchronize(); checkCudaErrors(cudaGetLastError()); float milliseconds = 0; cudaEventElapsedTime(&milliseconds, start, stop); std::cout << "CUDA time simple (ms): " << milliseconds << std::endl;

カーネル呼び出し形式-kernel_name <<< gridSize、blockSize >>>に注意してください。カーネルコード自体もそれほど複雑ではありません。

rgba_to_grayscale_simple

 __global__ void rgba_to_grayscale_simple(const uchar4* const d_imageRGBA, unsigned char* const d_imageGray, int numRows, int numCols) { int y = blockDim.y*blockIdx.y + threadIdx.y; int x = blockDim.x*blockIdx.x + threadIdx.x; if (x>=numCols || y>=numRows) return; const int offset = y*numCols+x; const uchar4 pixel = d_imageRGBA[offset]; d_imageGray[offset] = 0.299f*pixel.x + 0.587f*pixel.y+0.114f*pixel.z; }

ここで、前述の変数threadIdx 、 blockIdx 、 blockDimを使用して、処理されたピクセルのy座標とx座標を計算し、変換を行います。 （x> = numCols || y> = numRows）のチェックに注意してください-画像のサイズは必ずしもブロックのサイズで完全に分割されるとは限らないため、一部のブロックは画像の「範囲を超える」ことがあります。したがって、このチェックが必要です。また、カーネル関数は__global__指定子でマークする必要があります。

最後のステップは、結果をGPUからCPUにコピーして、割り当てられたメモリを解放することです。

非表示のテキスト

  checkCudaErrors(cudaMemcpy(h_imageGray, d_imageGray, sizeof(unsigned char) * numPixels, cudaMemcpyDeviceToHost)); cudaFree(d_imageGray); cudaFree(d_imageRGBA);

ところで、CUDAを使用すると、ホストコードにC ++コンパイラを使用できます。したがって、自動的にメモリを解放するラッパーを簡単に作成できます。

それで、測定を開始します（入力画像のサイズは10.109×4.542です）：

 OpenMP time (ms):45 CUDA time simple (ms): 43.1941

テストが実行されたマシンの構成：

非表示のテキスト

プロセッサー：Intel®Core（TM）i7-3615QM CPU @ 2.30GHz。

GPU：NVIDIA GeForce GT 650M、1024 MB、900 MHz。

RAM：DD3、2x4GB、1600 MHz。

OS：OS X 10.9.5。

コンパイラ：g ++（GCC）4.9.2 20141029。

CUDAコンパイラ：Cudaコンパイルツール、リリース6.0、V6.0.1。

サポートされているOpenMPのバージョン：OpenMP 4.0。

どういうわけかあまり印象的ではありませんでした:)しかし、問題は同じです-各ピクセルで行われる作業が少なすぎる-数千のスレッドを実行し、それぞれがほぼ瞬時に動作します。 CPUの場合、この問題は発生しません-OpenMPは比較的少数のスレッド（私の場合は8）を起動し、スレッド間で均等に作業を分割します-このようにして、プロセッサはほぼ100％占有されますが、GPUでは実際に、そのすべての力を使用しないでください。解決策はかなり明白です-カーネル内のいくつかのピクセルを処理します。新しい、最適化されたカーネルは次のようになります。

rgba_to_grayscale_optimized

 #define WARP_SIZE 32 __global__ void rgba_to_grayscale_optimized(const uchar4* const d_imageRGBA, unsigned char* const d_imageGray, int numRows, int numCols, int elemsPerThread) { int y = blockDim.y*blockIdx.y + threadIdx.y; int x = blockDim.x*blockIdx.x + threadIdx.x; const int loop_start = (x/WARP_SIZE * WARP_SIZE)*(elemsPerThread-1)+x; for (int i=loop_start, j=0; j<elemsPerThread && i<numCols; i+=WARP_SIZE, ++j) { const int offset = y*numCols+i; const uchar4 pixel = d_imageRGBA[offset]; d_imageGray[offset] = 0.299f*pixel.x + 0.587f*pixel.y+0.114f*pixel.z; } }

すべてが以前のカーネルほど簡単ではありません。 ご覧のとおり 、各スレッドはelemsPerThreadピクセルを処理し、連続ではなく、それらの間のWARP_SIZEの距離で処理します。 WARP_SIZEとは何か、32である理由、ピクセルを自由な方法で処理する必要がある理由については、次の部分でさらに詳しく説明します。メモリでより効率的な作業を行うことができます。各スレッドはelemsPerThreadピクセルをWARP_SIZEの距離で処理するようになったため、ブロック内の位置に基づくこのスレッドの最初のピクセルのx座標は、以前よりもやや複雑な数式を使用して計算されるようになりました。

このカーネルは次のように起動します。

非表示のテキスト

  threadNum=128; const int elemsPerThread = 16; blockSize = dim3(threadNum, 1, 1); gridSize = dim3(numCols / (threadNum*elemsPerThread) + 1, numRows, 1); cudaEventRecord(start); rgba_to_grayscale_optimized<<<gridSize, blockSize>>>(d_imageRGBA, d_imageGray, numRows, numCols, elemsPerThread); cudaEventRecord(stop); cudaEventSynchronize(stop); cudaDeviceSynchronize(); checkCudaErrors(cudaGetLastError()); milliseconds = 0; cudaEventElapsedTime(&milliseconds, start, stop); std::cout << "CUDA time optimized (ms): " << milliseconds << std::endl;

x座標によるブロック数は、 numCols / threadNum + 1ではなくnumCols /（threadNum * elemsPerThread）+ 1として計算されるようになりました。そうでなければ、すべてが同じままでした。

以下を開始します。

 OpenMP time (ms):44 CUDA time simple (ms): 53.1625 CUDA time optimized (ms): 15.9273

速度が2.76倍になりました（ここでも、メモリ操作の時間を考慮していません）-このような単純な問題の場合、これはかなり良いです。はい、このタスクは単純すぎます-CPUも非常にうまく対処します。 2番目のテストからわかるように、GPUでの単純な実装でも、CPUでの実装速度が低下する可能性があります。

今日はこれで終わりです。次のパートでは、GPUハードウェアと基本的な並列通信パターンについて説明します。

すべてのソースコードはbitbucketで入手できます。

CUDAを使用した並行プログラミング。 パート1：はじめに

別のCUDA記事-なぜですか？

内容

遅延と帯域幅

CUDAの基本概念と用語

CUDAプログラムの主な段階

カーネル

CUDAで最初のプログラムを作成しています

More articles:

CUDAを使用した並行プログラミング。パート1：はじめに