💯 🐁 🙅 Unity3Dの計算シェーダーを使用したGPU物理シミュレーション 🧘🏾 🤾🏽 👐

このチュートリアルでは、ヘアモデルの例を使用して、計算シェーダーを使用してビデオカードに計算を実装する方法を示します。

Unity3Dのプロジェクトを次に示します。このガイドの作成に関する説明があります。 Unityでダウンロードして開く必要があります。

Unityプロジェクトリンク

誰がこのガイドを理解しますか？ Unity3Dを使用するか、少なくともC＃またはC ++を知っている人。シェーダーはHLSLで記述されています。HLSLは、C ++の密接な構文関連です。

このガイドの恩恵を受けるのは誰ですか？ GPUをコンピューティングに使用する方法を学びたい経験豊富なプログラマー。しかし、経験の浅い勤勉なプログラマーでも、すべてを簡単に理解できます。

コンピューティングにグラフィックカードを使用する理由並列タスクの場合、そのパフォーマンスはプロセッサのパフォーマンスの10〜100倍です。つまり、コンピューターの全員が便利なAPIを備えた小さなスーパーコンピューターを持っているので、適切な場合に使用するのが理にかなっています。

この巨大なパフォーマンスは本当に必要ですか？はい、プロセッサの速度は多くの場合制限要因です。たとえば、大きなデータセットで同じ操作を実行する必要がある場合。しかし、正確にそのようなタスクは簡単に並列化されます。さらに、多くの場合、開発者は計算能力のために決定を拒否し、アルゴリズム空間の全領域は未踏のままです。たとえば、GPUを適切にロードすると、ゲームで最もクールな物理学を行うことができます。

そして、ビデオカードを使用すると、ブルートフォースで問題を簡単に解決できます。最適化の要求は、鉄の性能に依存しません。効率の悪いコードをしっかりとロードできないようなスーパーコンピューターはありません。

シェーダーを正確に計算する理由なぜopenclまたはcudaでないのですか？ Cudaはnvidiaハードウェアでのみ動作し、openclを知りません。 Unityは、openglコアを含む任意のAPIでビルドできます。 MacやAndroidコンピューターでは、シェーダーが動作しますが、Linuxでも動作するようです（試したことはありませんが）。ただし、各APIには考慮すべき制限があります。たとえば、Metalでは、1つの軸に沿って256を超えるスレッドを作成できません（DX10-1024）。また、Android APIは、カーネルごとに4つを超えるバッファーを使用できません（DX10-8、DX11-さらにそれ以上）。

なぜ物理シミュレーションなのか？これは計算集約的なタスクであり、並列計算に適しています。さらに、タスクは需要があります。ゲーム開発者はゲームに興味深い物理学を実装でき、学生は学期末レポート用の実験モデルを作成でき、エンジニアと科学者はモデルの計算を行うことができます。

そして、なぜ正確に髪のモデルですか？私は単純なパズルを取りたかったが、同時に主要な問題をカバーした。

このマニュアルの使用方法ソースコードをダウンロードし、開いて、マニュアルを進めながら読んでください。すべての主要な行を詳細に説明しますが、すべての行を完全に説明するわけではありませんが、ほとんどの行の意味は明らかです。テキストには複雑なアルゴリズムはありません。GPUコンピューティングを提供するクラスのインターフェースのみを使用しています。シェーダーコードの側では、データを読み取り、それらに対して簡単な数学演算を実行し、結果を記録する以外に何もありません。しかし、何かはっきりしないことがあれば、必ず尋ねてください。

そして今、計算シェーダーの使用について全く知らない人のために、私は一歩踏み出し、コンピューターシェーダーの使用の基本に専念する非常に簡単なガイドに進むことをお勧めします。本質をよりよく理解し、GPUコンピューティングの実践に非常に簡単な例で慣れるために、まず始めることをお勧めします。そして、ここに戻って続行します。そして、少なくともコンピューターシェーダーにある程度精通している人は、大胆に読み進めてください。

GPUで最初から計算される物理モデルを作成する場合、このタスクは4つの部分に分けることができます。

-現象の数学モデル

-モデルの並列計算のアルゴリズム

-シェーダーコード

-ユニット内のシェーダーの準備と起動

数学モデル

ビデオカードの長所は、1つの操作を多くのオブジェクトに同時に適用できることです。したがって、髪のモデルは、それぞれが2つの隣接するドットと相互作用する一連のドットとして作成できます。点間の相互作用は、ばねの原理に基づいています：k *（S0-S）^ n、ここでS0は平衡距離、Sは現在の距離です。現実には、髪の毛はばねのように見えず、伸びないように感じられます。これは、モデルのスプリングを十分に硬くする必要があることを意味します。次数は平衡の近くで曲線の曲率を大きくし、バックラッシュを減らし、髪の「ゴム」の効果を減らすので、nを増やすことでスプリングの剛性を増やすことをお勧めします。 n = 2を取りました。以下で係数kの値について説明します。

ポイント間の弾性力に加えて、相対速度または一次元粘性の拡散が実現されます。接線速度成分の交換は、動的引張強度、および通常の速度特性-動的曲げ抵抗の交換をモデル化します。一緒に、これは髪に沿った外乱の伝達を加速し、ダイナミクスを改善し、髪を視覚的によりつなぎ、弾力性を減らします。

さらに、まっすぐになる静的な傾向もあります。各ポイントは、髪の折り目を補正しようとします。ポイントにベンドがある場合、ベンド値に比例し、ベンド値を減少させる方向に向けられた力がポイントに作用します。ベンドポイントに隣接する2つのポイントには、反対方向の半分の力がかかります。

これらの相互作用は、髪の物理学をシミュレートするのに十分ですが、それに限定されません。ヘアとソリッドオブジェクトの相互作用を追加する必要があります。これは実用的です。ポイントは、物理モデルが原則として、液体と固体などの異なる並列シミュレーションエンティティ間の相互作用を含むことだけではありません。しかし、実際のタスク、たとえばゲームでは、GPUシミュレーションはCPU側で計算されたオブジェクトとリアルタイムで相互作用する必要があるという事実にもあります。ですから、私はそのような相互作用に注意を払うしかありませんでした。私たちの髪は固体と相互作用し、その情報は各メジャーでビデオメモリに送信されます。

簡単にするために、丸いオブジェクトでのみ作業します。 CPU側には、標準の2Dユニット物理学からのいくつかのサークルコライダーがあります。相互作用のルールは次のようになります。髪のポイントがソリッドの内側にある場合、それは外側に転送され、体に向かう部分はそのようなポイントの速度から差し引かれ、同じ部分が体に転送されます。簡単にするために、体の絶対速度は考慮しません。

アルゴリズム、コード、シェーダーの準備

これらの3つのポイントは、それらを別々に議論するにはあまりにも関連しすぎています。

多くのヘアが作られるポイントを説明するために、次の構造を使用します。

struct hairNode{ float x; //     float y; // float vx; //  float vy; // int dvx; //   -      int dvy; // int dummy1; //       128  int dummy2; // }

この構造は、CPU側とGPU側で2回宣言されます。便宜上。 CPU側では、初期データを書き込み、GPUバッファーにコピーしてから、そこで処理されます。ただし、初期データを送信する必要がない場合は、GPU側でのみこの構造を説明できました。

パラメーターについては、dummy1およびdummy2 nvidiaのエンジニアが書いた記事で、ビデオメモリバッファのデータを128ビットの倍数で保持する方が良いことを読みました。これにより、オフセットの計算に必要な操作の数が減ります。

残りのパラメーターの値は明確だと思います。しかし、注意深い読者は尋ねるかもしれません：なぜ速度はフロートの一種であり、速度の変化はintですか？簡単な答え：速度の変更は並列スレッドによって同時に変更されるため、計算のエラーを回避するには、安全なレコードを使用する必要があります。また、保護された書き込み関数は整数変数でのみ機能します。これについては、以下で詳しく説明します。

髪のモデル化には多くのポイントがあります。すべてのポイントのデータはビデオメモリに保存され、バッファインターフェイスを介してアクセスできます。

 RWStructuredBuffer<hairNode> hairNodesBuffer;

シェーダーコードでは、その名前とデータ型のみを決定し、そのサイズは、プロセッサで実行されるコードの側から外部で設定されます。

コンピューターシェーダーコードはどのように構造化されていますか？コードはカーネルで構成されています。これはメソッドと同じですが、各カーネルは複数のコアで並行して実行されます。したがって、それぞれについて、フローの数は3次元構造の形で示されます。

これは、空のカーネルのように見えるもので、コードはなく、必要な外部情報のみがあります。

 #pragma kernel kernelName [numthreads(8,4,1)] void kernelName (uint3 id : SV_DispatchThreadID){ //     }

カーネルには、ストリームの3次元インデックスを格納する入力パラメーターidがあります。これは非常に便利です。各スレッドは独自のインデックスを知っているため、独自の個別のデータユニットで作業できます。

プロセッサ側では、カーネルは次のように呼び出されます。

 shaderInstance.Dispatch(kernelIndex, 2, 2, 1);

これらの3桁の「2、2、1」は、対応するカーネルの前の行に接続されています。

 [numthreads(8,4,1)]

これらの2桁の数字は、スレッドの数、つまり並列カーネルインスタンスの数を決定します。あなたはそれらを掛ける必要があります：8 * 4 * 1 * 2 * 2 * 1 = 128スレッド。

アドレス指定フローは各軸にあります。この場合、x軸は8 * 2 = 16単位になります。 y軸では、4 * 2 = 8単位です。つまり、カーネルが次のように呼び出された場合：

 ComputeShader.Dispatch(kernelIndex, X, Y, Z);

シェーダー側では、スレッドの数は次のように設定されます。

 [numthreads(x,y,z)]

次に、（X * x）*（Y * y）*（Z * z）スレッドを作成します

たとえば、256 x 256テクスチャの各ピクセルを処理する必要があり、各ピクセルを個別のストリームで処理する必要があるとします。したがって、スレッドの数は次のように決定できます。

 Dispatch(kernelIndex, 16, 16, 1);

そしてシェーダー側で：

 [numthreads(16,16,1)]

カーネル内では、パラメーターid.xは同じパラメーターid.yの範囲[0、255]の値を取ります。

したがって、次のような行があります。

 texture[id.xy]=float4(1, 1, 1, 1);

テクスチャの65536ピクセルのそれぞれを白色にします

id.xyはuint2と同じです（id.x、id.y）

スレッドの数に関連するこの部分が誰にも不明な場合は、前述の簡単なマニュアルを参照し、実際にこれらすべてを使用して最も単純なシェーダーを使用してマンデルブロフラクタルを描画する方法を確認することをお勧めします。

検討しているモデルのシェーダーテキストには、いくつかのカーネルが含まれており、これらのカーネルはUpdate（）メソッドでCPU側で起動されます。次に、各カーネルのテキストを確認し、最初に各カーネルの機能について簡単に説明します。

calc-粒子間の相互作用の接線方向と法線方向の力が計算されます。「ばね」張力は粒子をそれらの間の線に沿って押し、「曲げ剛性」は粒子を隣接する粒子間の線に垂直に押します。計算された力は各粒子に対して保存されます

velShare-粒子は相対速度を交換します。接線および完全に包括的-個別。フルスピードの交換がまだあるのに、なぜ接線を強調するのですか？接線速度の交換は、通常よりもはるかに強く、より高い係数を持つ必要があるため、区別する必要がありました。次に、なぜ2番目のケースで、純粋な通常のコンポーネントを使用せず、フルスピードを使用するのですか？計算を保存します。速度の変化は、前のカーネルと同様に、力の形で記録されます。

interactWithColliders-各ポイントはコライダーと相互作用し、各サイクルで更新されるバッファーに含まれる情報

calcApply-以前のカーネルで計算された力が速度に追加され、速度が点の座標を変更します

visInternodeLines-ポイント間で、ラインは1024 x 1024の長さの特別なバッファに描画されます（まだテクスチャ上にありません）

pixelsToTexture-ここで、前述の値は、サイズ[1024、1024]のテクスチャ上のピクセルの色に既に変換されています

clearPixels-中間バッファー（ラインを描画した）のすべての値がリセットされます

clearTexture-テクスチャがクリアされます

oneThreadAction-このカーネルは単一のスレッドで実行されます。マウスでドラッグした場所にヘアシステム全体をスムーズに移動する必要があります。システムが突然の動きから急激に移動しないようにするために、滑らかさが必要です（覚えているように、このモデルでは、粒子間の力は粒子間の距離の2乗に比例します）。

CPU側

次に、これらのカーネルがCPUコードの側面からどのように起動されるかを示します。しかし、最初に、起動のためにシェーダーを準備する方法。

変数を宣言する：

 ComputeShader _shader;

シェーダーテキストを含むファイルを指定して初期化します。

 _shader = Resources.Load<ComputeShader>("shader");

GPU側で便利な定数を設定します

 //  nodesPerHair  nHairs   _shader.SetInt("nNodsPerHair", nodesPerHair); _shader.SetInt("nHairs", nHairs);

モデル化されたポイントのデータを格納する配列と、ビデオメモリへのデータの読み書きが可能なインターフェイスを介してバッファの変数を宣言します

 hairNode[] hairNodesArray; ComputeBuffer hairNodesBuffer;

バッファを初期化し、配列データをビデオメモリに書き込みます

 // hairNodesArray   hairNodesBuffer = new ComputeBuffer(hairNodesArray.Length, 4 * 8); hairNodesBuffer.SetData(hairNodesArray);

カーネルごとに、使用されているバッファを設定して、カーネルがこのバッファに対してデータを読み書きできるようにします

 kiCalc = _shader.FindKernel("calc"); _shader.SetBuffer(kiCalc, "hairNodesBuffer", hairNodesBuffer);

すべてのシェーダーカーネルに必要なバッファーがすべて作成およびインストールされたら、カーネルを実行できます。

すべてのカーネルは、Update（）から起動されます。グラフィックパイプラインはUpdate（）と同期しているため、FixedUpdate（）からは開始しないでください（強く遅れます）。

カーネルは次の順序で起動されます（Update（）で呼び出される「doShaderStuff」メソッドのコード全体を引用します）。

 void doShaderStuff(){ int i, nHairThreadGroups, nNodesThreadGroups; nHairThreadGroups = (nHairs - 1) / 16 + 1; nNodesThreadGroups = (nodesPerHair - 1) / 8 + 1; _shader.SetFloats("pivotDestination", pivotPosition); circleCollidersBuffer.SetData(circleCollidersArray); i = 0; while (i < 40) { _shader.Dispatch(kiVelShare, nHairThreadGroups, nNodesThreadGroups, 1); _shader.Dispatch(kiCalc, nHairThreadGroups, nNodesThreadGroups, 1); _shader.Dispatch(kiInteractionWithColliders, nHairThreadGroups, nNodesThreadGroups, 1); _shader.Dispatch(kiCalcApply, nHairThreadGroups, nNodesThreadGroups, 1); _shader.Dispatch(kiOneThreadAction, 1, 1, 1); i++; } circleCollidersBuffer.GetData(circleCollidersArray); _shader.Dispatch(kiVisInternodeLines, nHairThreadGroups, nNodesThreadGroups, 1); _shader.Dispatch(kiClearTexture, 32, 32, 1); _shader.Dispatch(kiPixelsToTexture, 32, 32, 1); _shader.Dispatch(kiClearPixels, 32, 32, 1); }

複数のカーネルが更新ごとに40回実行されることがすぐにわかります。なんで？そのため、小さな時間ステップで、シミュレーションはリアルタイムで迅速に機能します。そして、なぜ時間ステップを小さくする必要があるのでしょうか？サンプリングエラーを減らすため、つまりシステムの安定性のため。そして、どのように、そしてなぜ不安定が生じるのですか？ステップが大きく、ポイントに大きな力が作用すると、あるステップではポイントが飛び去り、戻り力はさらに大きくなり、次のステップではポイントはさらに他の方向に飛びます。結果：システムは行商を行い、すべてのポイントが振幅を増やしながら前後に飛行します。また、小さなステップでは、すべての力と速度曲線が非常に滑らかになります。これは、時間ステップが減少するにつれて誤差が大幅に減少するためです。

そのため、システムは1つの大きなステップではなく、各サイクルで40個の小さなステップを実行します。これにより、計算の精度が高くなります。その高い精度により、安定性を損なうことなく大きな相互作用力で作業することが可能です。そして、大きな強さは、モデルにたるんだ、弾力のあるパスタがぶらぶらしていないこと、突然の動きから爆発しようとしていること、そして耐久性のある髪が元気に回転することを意味します。

ヘアをモデル化するポイントのデータは、1次元配列の形式でビデオメモリに格納され、バッファインターフェイスを介してアクセスします。

1次元のバッファーを使用するため、フローは次のようにインデックス付けされます。（x軸：髪の数*軸y：髪のポイントの数）。つまり、ストリームの2次元配列があり、それぞれがストリームインデックスによってそのポイントを認識します。

覚えているように、カーネルが実行されるスレッドの数は、Dispatch（）メソッドのパラメーターとシェーダーコードの[numthreads（）]ディレクティブのパラメーターの積によって決まります。

この例では、ヘアドットで動作するすべてのカーネルの前に[numthreads（16.8.1）]ディレクティブがあります。したがって、Dispatch（）メソッドのパラメーターは、ポイントの配列全体を処理するのに必要な数以上のスレッド数を製品が提供するようにする必要があります。コードでは、Dispatch（）メソッドのxおよびyパラメーターを計算します。

 nHairThreadGroups = (nHairs - 1) / 16 + 1; nNodesThreadGroups = (nodesPerHair - 1) / 8 + 1;

パラメーター[numthreads（）]とDispatch（）の関係は、グラフィックコンピューターのアーキテクチャに由来します。最初は、グループ内のスレッドの数です。 2番目は、スレッドグループの数です。それらの比率は作業速度に影響します。 x軸に沿って1024ストリームが必要な場合、1024ストリームの1グループよりも32ストリームの32グループを作成することをお勧めします。なんで？この質問に答えるには、GPUのアーキテクチャについて多くのことを話す必要があります。この深すぎるトピックについては触れません。

GPUの詳細

そのため、40回の更新で、ポイントの速度の変化を計算し、速度と座標を変更するカーネルを順番に起動します。各カーネルのコードを見てみましょう。ここではすべてが非常にシンプルで、特定の機能をいくつか学習するだけです。

カーネル計算は、ポイントの速度の変化を計算します。 hairNodesBufferバッファー内のポイントは順番に配置され、最初は最初の髪の最初のポイント、次に2番目の髪、最後に続きます。その後、すぐに2番目の髪の最初のポイントなど、すべての髪を通り、バッファーの最後まで続きます。カーネルにはidパラメーターがあり、id.xはヘアの番号を示し、id.yはポイント番号を示していることを覚えています。次に、データポイントにアクセスする方法を示します。

 int nodeIndex, nodeIndex2; hairNode node, node2; nodeIndex = id.x * nNodesPerHair + id.y; nodeIndex2 = nodeIndex + 1; node = hairNodesBuffer[nodeIndex]; node2 = hairNodesBuffer[nodeIndex2];

ここで、値nNodesPerHairは、シェーダーを初期化するときにCPU側で設定した定数です。バッファ内のデータへのアクセスは、ローカル変数へのアクセスよりも多くのカーネルサイクルを必要とする可能性があるため、バッファからのデータはローカル変数nodeおよびnode2にコピーされます。アルゴリズム自体は次のとおりです。各ポイントについて、髪の最後ではない場合、次のポイントとの間に作用する力を計算します。この力に基づいて、各ポイントで速度の変化を記録します。

並列計算の重要な機能は次のとおりです。各ストリームは現在と次の2つのポイントを変更します。つまり、2つの並列ストリームが各ポイントを変更します。並列スレッドに共通の変数への保護されていない書き込みには、データ損失が伴います。通常の増分を使用する場合：

 variable += value;

この場合、最初のストリームが元の値をコピーして1を追加しますが、値をメモリセルに書き戻す前に、2番目のストリームが元の値を取得します。次に、最初のスレッドは1ずつ増加した値を書き込みます。その後、2番目のスレッドがそのユニットを追加し、増加した値を書き戻します。結果：2つのスレッドが1つずつ追加されましたが、変数は1ユニットだけ増加しました。この状況を回避するには、安全な記録を使用してください。 HLSLには、汎用変数を安全に変更するためのいくつかの機能があります。データが失われないこと、および各ストリームの寄与が考慮されることを保証します。

小さな問題は、これらの関数が整数変数でのみ機能することです。そして、それがポイントの状態を記述する構造で、int型のdvxおよびdvyパラメータを使用する理由です。保護された機能を使用してそれらに書き込むことができ、データを失わないこと。ただし、丸めの精度が失われないようにするために、事前に要因を決定しました。 1つはフロートをintに変換し、もう1つは逆に変換します。そのため、int-valuesの全範囲を使用し、精度を失いません（もちろん失いますが、無視できます）。

保護されたレコードは次のようになります。

 InterlockedAdd(hairNodesBuffer[nodeIndex].dvx, (int)(F_TO_I * (dv.x + 2 * dvFlex.x))); InterlockedAdd(hairNodesBuffer[nodeIndex].dvy, (int)(F_TO_I * (dv.y + 2 * dvFlex.y))); InterlockedAdd(hairNodesBuffer[nodeIndex2].dvx, (int)(F_TO_I * (-dv.x - dvFlex.x))); InterlockedAdd(hairNodesBuffer[nodeIndex2].dvy, (int)(F_TO_I * (-dv.y - dvFlex.y)));

ここで、F_TO_Iはintでのfloatの投影に関する前述の係数です。dvは、スプリング接続を介した最初のパーティクルへの2番目のパーティクルの影響の力ベクトルです。また、dvFlexは整流力です。 InterlockedAdd（）はintおよびuint型に対してオーバーロードされ、デフォルトでfloatはuintとして解釈されるため、「（int）」を追加する必要があります。

velShare Kernelは以前のものと似ていますが、2つの隣接するポイントのdvxおよびdvyパラメーターも変更しますが、力を計算する代わりに、相対速度の拡散が計算されます。

InteractionWithCollidersカーネルでは、ポイントは相互に作用しません。ここでは、各ポイントはソリッドバッファーのすべてのコライダーを通過します（各更新で更新されます）。つまり、各スレッドは1つのパーティクルのみに書き込むため、同時記録の危険はないため、InterlockedAdd（）の代わりに、パーティクルの速度を直接変更できます。しかし同時に、我々のモデルは、ポイントがコライダーに運動量を伝達することを暗示しています。これは、並列ストリームが同じコライダーの勢いを同時に変更できることを意味します。つまり、保護された記録オプションを使用します。

ここでのみ理解する必要があります。intにfloatを投影すると、整数部分と小数部分が競合します。精度はさまざまな規模と競合します。点の相互作用の場合、値の十分な広がりを認める係数を選択し、残りは精度のために許可されました。ただし、この係数は、運動量をコライダーに転送するのには適していません。同時に、数百のポイントが一方向に運動量を追加できるため、多数を収容するために精度を犠牲にする必要があります。したがって、保護されたレコードでは、係数F_TO_Iを使用せず、より小さい係数を使用します。

ポイントのすべての相互作用が計算された後、calcApplyカーネルで速度に運動量を追加し、座標に速度を追加します。さらに、このカーネルでは、ヘアの各ルート（最初の行）のポイントは、ヘアシステム全体の現在の位置を基準にして特定の場所に固定されています。このカーネルでも、重力の寄与が垂直速度成分に追加されます。さらに、空気について「ブレーキング」が実現されます。つまり、各ポイントの速度の絶対値に1よりわずかに小さい係数が乗算されます。

calcApplyカーネルでは、速度がdPosRate係数を介して座標に影響することに注意してください。シミュレーションステップのサイズを決定します。この係数はCPU側で設定され、「simulationSpeed」と呼ばれる変数に格納されます。このパラメータが大きいほど、システムは時間の経過とともに速く進化します。ただし、計算の精度は低くなります。繰り返しますが、計算の精度は力の大きさを制限します。大きな力と低い精度の場合、誤差の大きさが非常に大きいため、モデルの動作が決定されるためです。シミュレーション速度をかなり遅くしました。これにより精度が向上したため、より大きな力をかけることができ、より現実的なモデルの動作を意味します。

力の大きさには、速度に対するパルスの影響に関連する係数「dVelRate」があります。この係数は大きく、CPU側で設定され、「strengthOfForces」と呼ばれます。

前述のすべてのカーネルで、スレッドの数はポイントの数に等しく、1つのスレッドが1つのポイントを処理することを繰り返します。そして、これは良い習慣です。スレッドの数には何も支払いません。スレッドの数はいくつでもかまいません（シェーダーモデル5.0では、x軸とy軸に沿って1024以下、z軸に沿って64以下）。並列コンピューティングの伝統では、ループを使用して複数のデータユニットに関連する1つのスレッドで単一の操作を実行することを避けた方がよいでしょう。

CPUコード側のdoShaderStuff（）メソッドに戻ります。ヘアモデルを計算する40ステップのサイクルを完了した後、コライダーのデータを読み取ります。

 circleCollidersBuffer.GetData(circleCollidersArray);

GPU側では、ヘア側からのパルスがコライダーのデータとともにバッファーに記録され、CPU側でそれらを使用して剛体に力を加えることを思い出してください。剛体にかかる力は、物理と同期しているため、FixedUpdate（）メソッドで適用されることに注意してください。この場合、更新（）でパルスデータが更新されます。したがって、さまざまな要因の影響下で、1つのUpdate（）で複数のFixedUpdate（）およびその逆が発生する可能性があります。つまり、コライダーでの髪の効果に絶対的な精度はなく、データの一部は影響を受ける前に上書きでき、他のデータは2回影響を受ける可能性があります。これを防ぐための手段を講じることはできますが、これらの手段は検討中のプログラムでは行われません。

また、GetData（）メソッドがグラフィックスパイプラインを一時停止するため、顕著な速度低下が発生することにも注意してください。残念ながら、ユニット内のこのメソッドの非同期バージョンはまだ実装されていませんが、噂によると、2018年に登場する予定です。それまでの間、GPUからCPUにデータをコピーする必要があるタスクの場合、プログラムの動作が20〜30％遅くなることを理解する必要があります。同時に、SetData（）メソッドにはそのような効果はなく、すぐに動作します。

可視化

doShaderStuff（）メソッドで起動された残りのカーネルは、ヘアシステムの視覚化のみに関連付けられています。

視覚化に関連するすべてを考慮してください。

CPU側では、RenderTexture変数を宣言し、enableRandomWrite = trueを設定することを忘れずに、Image UIコンポーネントのマテリアルでmainTextureとして使用します。

そして、このテクスチャに書き込む必要のあるカーネルごとに、SetTexture（）メソッドを呼び出して、RenderTextureオブジェクトをシェーダー側の変数にバインドします。

 RenderTexture renderTexture; renderTexture = new RenderTexture(1024, 1024, 32); renderTexture.enableRandomWrite = true; renderTexture.Create(); GameObject.Find("canvas/image").GetComponent<UnityEngine.UI.Image>().material.mainTexture = renderTexture; _shader.SetTexture(kiPixelsToTexture, "renderTexture", renderTexture);

シェーダー側では、RWTexture2D型の変数を宣言しました。これを使用して、テクスチャピクセルの色を設定します。

 RWTexture2D<float4> renderTexture;

次に、カラーピクセルを書き込む前に呼び出されるテクスチャクリーニングカーネルを検討します。

 #pragma kernel clearTexture [numthreads(32,32,1)] void clearTexture (uint3 id : SV_DispatchThreadID){ renderTexture[id.xy] = float4(0, 0, 0, 0); }

このカーネルは次のように実行されます。

 _shader.Dispatch(kiClearTexture, 32, 32, 1);

ストリームごとのピクセルごとに、1024 x 1024のストリームがあることがわかります。どちらが便利か：id.xyパラメーターを使用してピクセルをアドレス指定するだけです。

髪はどのくらい正確に描かれていますか？髪が半透明になるように決めました。交差するときに色がより飽和します。これは、既に考慮されているカーネルのように、すべてのポイントが同時に実行されるため、同じピクセルに2本の線を同時に描画できるため、安全な記録を使用する必要があることを意味しますポイントの数に等しいスレッドの数で。描画自体は簡単です。各ポイントから次のポイントまで線を引きます。線でスイープされた正方形ピクセルのセットを選択するための特別なアルゴリズムがありますが、私は単純な方法を採用することにしました。線は、2点間の線に沿って小さなステップで移動して描画されます。

増分が使用されるため、テクスチャではなくバッファにカラーデータを書き込みます。何らかの理由でテクスチャは読みにくいですが、それは当然のようです。

visInternodeLinesカーネルがすべての線を描画した後、ピクセルをバッファーからテクスチャにコピーします。色は使用せず、グレーのグラデーションのみを描画します。 RWStructuredBufferバッファーの代わりに色が必要な場合は、RWStructuredBufferを使用するか、4つの色パラメーターを1つのuintに書き込むことができます。

ところで、RenderTextureを使用したこのメソッドはポピーでは機能せず、フォーラムで「なぜ」という質問に対する答えを得ることができませんでした。

計算シェーダーからのデータを視覚化する他の方法がありますが、私はまだそれらを研究していないことを告白しなければなりません。

「pixelsToTexture」カーネルがテクスチャを変更した後、飛んでいる髪の画像が画面に表示されます。

GPUコンピューティングに関するすべてのコードについて話しました。マニュアルには多くの情報があり、一度に把握するのは難しい場合があります。この分野で実験する予定がある場合は、実践を通じて知識を統合するために、ゼロから簡単なプログラムを作成することをお勧めします。宿題と考えてください。実行は簡単で便利です。

1つのカーネルが大きな配列のすべての数値を二乗するシェーダーを作成します。CPU側で、配列を準備し、それをシェーダーバッファーに書き込み、カーネルを起動してから、ビデオメモリから情報を取得し、数値が2乗しているかどうかを確認します。

Unity3Dの計算シェーダーを使用したGPU物理シミュレーション

数学モデル

アルゴリズム、コード、シェーダーの準備

CPU側

GPUの詳細

可視化

More articles: