🔌 🤫 🦔 ダイナミックRAMのパフォーマンスと、それを増やす方法のとんでもないアイデア 🤙🏿 🏢 🌵

ちょっとした歴史

コンピューティングテクノロジーのAt明期に、動的メモリはプロセッサ周波数で動作しました。私の最初のコンピューターエクスペリエンスは、ZX Spectrumコンピュータークローンでした。 Z80プロセッサは1演算あたり平均4クロックサイクルで命令を処理しましたが、2クロックサイクルを使用して動的メモリを再生成しました。これにより、3.5 MHzの周波数で毎秒875,000演算以下になります。

ただし、しばらくすると、動的メモリが負荷に対応できなくなると、プロセッサの周波数はそのようなレベルに達しました。これを補うために、キャッシュメモリの形で中間リンクが導入されました。これにより、少量のデータに対して実行される操作によるプロセッサとメインメモリの速度の差を滑らかにすることができました。

コンピューターのRAMが何であるか、そしてコンピューターシステムの速度を上げるために何ができるかを見てみましょう。

静的および動的メモリについて簡単に説明します

メモリは、行と列で構成されるテーブルの形式で構築されます。テーブルの各セルには情報ビットがあります（ただし、半導体メモリについて説明しますが、他の多くの実装も同じ原理に基づいています）。このようなテーブルはそれぞれ「バンク」と呼ばれます。チップ/モジュールは複数のバンクに対応できます。メモリモジュールのセットは、個々の要素のビット深度に応じて、プロセッサの線形アドレス空間に投影されます。

静的メモリセルはトリガーに基づいて構築されます。トリガーは通常、安定状態「A」または「B」のいずれかです（A =！B）。 1つのセルのトランジスタの最小数は6個ですが、セルのトレースの複雑さにより、1ギガのスタティックメモリモジュールを8ギガバイトの通常のモジュールの価格で製造することはできません。

ダイナミックメモリセルは、情報を格納する1つのコンデンサと、データバスからコンデンサを分離する1つのトランジスタで構成されます。この場合、電解液はコンデンサとして使用されませんが、「基板」とトランジスタ電極間の接合部の寄生容量pn（特にこれらの目的のために増加します。通常は除去しようとします）。コンデンサの欠点は漏れ電流です（リーク電流とキートランジスタの両方）。これを取り除くのは非常に困難であり、さらに、温度が上昇すると増加し、保存された情報が歪む可能性があります。信頼性を維持するために、動的メモリでは「再生」が使用されます。これは、少なくとも情報が信頼できる値を保持する特定の期間、保存された情報を定期的に更新することです。通常の再生成期間は8ミリ秒であり、より頻繁に情報を更新できますが、あまり頻繁ではありません。

それ以外の場合、動作の原理は同じであり、次のもので構成されます。

-メモリ行の最初の選択は、バッファ行に配置されたすべてのコンテンツへのアクセスにつながり、さらに作業が行われるか、列へのアクセスの乗算が発生します（古い、遅いアプローチ）。

-要求されたデータがホストデバイス（通常はCPU）に送信されるか、指定されたセルが書き込み操作中に変更されます（わずかな違いがあり、選択された行セルを静的メモリで直接変更でき、バッファラインが動的メモリで変更されてから、書き戻されます）特別なループ内の行全体の内容）;

-メモリ行のクローズと変更は、メモリの種類によっても異なります。静的の場合、データが変更されていない場合はすぐに行を変更できます。動的メモリの場合は、バッファ行の内容を所定の場所に書き込む必要があり、その後のみ別の行を選択できます。

コンピューティングの夜明けに、各読み取りまたは書き込み操作が完全なメモリサイクルで完了した場合：

-行の選択。

-セルからの読み取り/書き込み操作。

-行の変更/再選択。

「同期メモリa DDRX」チップの最新の動作は次のとおりです。

-行の選択。

-4〜8ビット/ワードのグループの行のセルの読み取り/書き込み（同じ行内の複数のアクセスが許可されます）。

-情報を記録した状態で行を閉じます。

-行の変更/再選択。

このソリューションにより、セル「1」から値を読み取った後、同じ行にあるセル「2、3、4、または7」にアクセスする必要がある場合、または読み取り操作の直後に変更した値を書き戻す必要がある場合に、データアクセス時間を節約できます。

キャッシュと連動した動的メモリの操作の詳細を読む

メモリコントローラー（チップセット内またはプロセッサに内蔵）は、マイクロチップ/メモリモジュールのブロックアドレスと行番号（ブロックアドレスの上部）を設定します。対応するブロックが選択され（1つのブロックのフレームワーク内でのさらなる作業が考慮されます）、結果の「2進数」が文字列の位置アドレスにデコードされ、その後情報がバッファに転送されます。この操作に必要なサイクルの時間はtRCDと呼ばれ、スキーム「9-9-9 / 9-9-9-2-2」の2番目に表示されます。

行がアクティブになった後、このための「列」にアクセスでき、メモリコントローラーは行のセルのアドレスを送信し、しばらくして「CL」（上記の指定スキーム「xxxx」で1桁で示されます）、メモリチップからデータが送信され始めますキャッシュラインで4〜8ビット（シングルチップ）のパケットの形式でプロセッサに（なぜ複数のキャッシュが干渉するのか）（サイズはプロセッサによって異なりますが、64バイトの一般的な値は64ビットの8ワードですが、その他の意味）。データパケットの転送に必要な特定のクロックサイクル数の後、選択した行の他のセルからデータを読み取る次のリクエストを作成するか、「xxxx -...」の3番目のパラメーターとして指定されたtRPとして表されるラインを閉じるコマンドを発行できます「。行が閉じられると、バッファからのデータはブロックの行に書き戻されます。記録の終了後、このブロック内の別の行を選択できます。これらの3つのパラメーターに加えて、回線をアクティブにする必要がある最小時間「tRAS」、および回線をアクティブにする2つのコマンドを分離する回線で動作するフルサイクルの最小時間があります（ランダムアクセスに影響します）。

総計2016年4月19日12:40

CL-CASレイテンシ、tRCD-RASからCASへの遅延、tRP-行のプリチャージ、CAS-列アドレスストローブ、RAS-行アドレスストローブ。

半導体技術の速度は、回路要素の遅延によって決まります。出力で信頼できる情報を取得するには、すべての要素が定常状態になるまで一定の時間待機する必要があります。メモリバンクの現在の状態に応じて、データアクセス時間は変化しますが、一般に、次の遷移を特徴付けることができます。

ブロックが停止している（アクティブな行がない）場合、コントローラーは行選択コマンドを発行します。その結果、バイナリ行番号が位置番号に変換され、「tRCD」時間中に行の内容が読み取られます。

文字列の内容がバッファゾーンに読み込まれた後、列選択コマンドを発行できます。これに応じて、列の2進数が「CL」時間中に位置番号に変換されますが、下位アドレスのアライメントによっては、ビット送信の順序が変わる場合があります。

読み取り中に情報が実際に破壊されたため、行を変更または閉じる前に、データを所定の場所に書き込む必要があります。文字列「tRP」の情報を復元するのに必要な時間。

動的メモリの完全な仕様によれば、制御信号の変化のシーケンスと遅延を決定する多くの時間パラメータがあります。これらの1つはtRCminです。これは、ライン選択、データアクセス、およびライトバックを含む、ラインサイクル全体の最小時間を定義します。

RAS信号は、文字列アドレスを発行する事実を決定します。

CAS信号は、列アドレスが発行されたかどうかを判断します。

以前にすべての制御がメモリコントローラーの側にシフトされ、これらの信号によって制御されていた場合、コマンドがモジュール/マイクロ回路に発行され、しばらくしてからデータが転送されるコマンドモードがあります。 DDR4など、標準の仕様を詳しく知ることをお勧めします。

一般的なドラムの操作について話すと、大衆読書中は通常次のようになります：

回線のアドレスを設定し、

RASを設定（およびビートによって削除）

tRCDを待った、

読み込む列のアドレスを設定します（次の各メジャーでは次の列番号を設定します）。

CASを入れて、

CLを待機し、データの読み取りを開始し、

CASを削除し、残りのデータ（別のCLクロック）を読み取ります。

遷移中、次の行はプリチャージ（RAS + WE）ではなく、tRPが予想され、RASはラインセットのアドレスで実行され、その後、前述のように読み取りが実行されます。

ランダムセルの読み取りのレイテンシは、上記のtRP + tRCD + CLから自然に続きます。

実際には、アクセスされている「メモリバンク」の以前の状態に依存します。

DDR RAMには2つの周波数があることに注意してください。

-コマンドとタイミングの伝送速度を決定するメインクロック周波数。

-有効なデータ転送周波数（メモリモジュールをマークするダブルクロック周波数）。

メモリコントローラーの統合により、中間伝送リンクが拒否されるため、メモリサブシステムのパフォーマンスが向上しました。メモリチャネルを増やすには、アプリケーション側でこれを考慮する必要があります。たとえば、特定のファイルの場所での4チャネルモードでは、パフォーマンスが向上しません（構成12および14）。

異なるステップ（1ステップ= 16バイト）で単一のリンクリストアイテムを処理する

今少し数学

プロセッサー：プロセッサーの動作周波数は5 GHzに達しました。製造業者によると、回路ソリューション（コンベア、予測、その他のトリック）により、サイクルごとに1つの命令を実行できます。計算を終了するために、4 GHzのクロック周波数の値を取得します。これにより、0.25 nsで1つの操作が得られます。

RAM：たとえば、15-15-15のタイミングの新しいDDR4-2133形式のRAMを使用します。

与えられた：

プロセッサ

事実= 4 GHz

タクト= 0.25 ns（同時に、1つの操作の実行時間は「条件付き」です）

RAM DDR4-2133

事実= 1066 MHz

Fdate = 2133 MHz

ttact = 0.94 ns

tdate = 0.47 ns

SPDmax = 2133 MHz * 64 = 17064 MB / s（データ転送速度）

tRCmin = 50 ns（2行のアクティブ化間の最小時間）

データ取得時間

レジスタとキャッシュから、作業サイクル中（レジスタ、レベル1キャッシュ）にデータを提供するか、2番目と3番目のレベルのキャッシュに数プロセッササイクルの遅延をかけてデータを提供できます。

RAMの場合、状況はさらに悪化します。

-行選択時間：15 clk * 0.94 ns = 14 ns

-列選択コマンドからデータを受信するまでの時間：15 clk * 0.94 ns = 14 ns

-行のクローズ時間：15 clk * 0.94 ns = 14 ns（誰が考えていたでしょうか）

コマンドがメモリセルからデータを要求するまでの時間（キャッシュに入らなかった場合）は変化する可能性があります。

14 ns-データはすでに選択された行にあります。

28 ns-前の行が既に閉じられている（アイドル状態のブロック）場合、データは選択されていない行にあります。

42〜50 ns-データは別の行にありますが、現在の行は閉じる必要があります。

この間にプロセッサ（上記）が実行できる操作の数は、56（14 ns）から200（50 nsの改行）です。それとは別に、列選択コマンドからデータパケット全体を受信するまでの間に、キャッシュラインロード遅延が追加されることに注意してください：8パケットビット* 0.47 ns = 3.76 ns。キャッシュラインをロードした後にのみ「プログラム」がデータを使用できる状況の場合（プロセッサの開発者が何をどのように使い果たしたか、メモリが必要なデータを先に指定できることを知っている）、最大15クロックサイクルが失われます。

1つの作業の一環として、メモリの速度の調査を行いました。結果は、メモリアクセス帯域幅をシーケンシャルメモリアクセス操作でのみ完全に「利用」できることを示しました。ランダムアクセスの場合、処理時間が増加します（例として32ビットポインターからのリンクリストを使用） 3つのダブルワード。そのうちの1つは更新され、4〜10（シーケンシャルアクセス）から60〜120 ns（改行）になり、処理速度に12〜15倍の差が生じます。

データ処理速度

選択したモジュールのピークスループットは17064 MB / sです。周波数が4 GHzの場合、1サイクルあたり32ビットワード（17064 MB / 4000 MHz = 4.266バイト/サイクル）を処理できます。ここでは次の制限が適用されます。

-キャッシュのロードを明示的に計画しないと、プロセッサは強制的にアイドル状態になります（頻度が高くなるほど、カーネルはデータを待機するだけになります）。

-サイクル「読み取り、変更、書き込み」では、処理速度が半分に低下します。

-マルチコアプロセッサはコア間でメモリバス帯域幅を共有します。競合する要求がある場合（縮退した場合）、メモリパフォーマンスは「200倍（改行）* Xコア」に低下する場合があります。

計算：

17064 MB / s / 8コア=最適な場合のコアあたり2133 MB / s

17064 MB / s /（8コア* 200回の操作の失敗）=縮退した場合のコアあたり10 MB / s

演算に変換すると、8コアプロセッサが得られます。データバイトを処理する場合は15〜400演算、32ビットワードを処理する場合は60〜1600演算/クロックです。

私の意見では、どういうわけかゆっくり。フルサイクルタイムは約50 nsですが、タイミングが異なるDDR3-1333 9-9-9メモリと比較して：

-データアクセス時間は13.5 ns（1.5 ns * 9サイクル）に短縮されました。

-8ワードのパケットの送信時間は6 ns（3.75 nsではなく0.75 * 8）であり、メモリへのランダムアクセスにより、データ転送速度の差は実質的になくなります。

-ピーク速度は10 664 MB / sです。

そんなに遠くない。この状況は、メモリモジュールに「バンク」が存在することでわずかに軽減されます。各「バンク」は、個別にアクセスできる個別のメモリテーブルです。これにより、ダウンタイムを短縮することで、最適化された状況でデータバスを眼球に「詰まらせる」ことができるため、1つのバンクの行を変更しながら別の行のデータを読み書きできます。

実際、とんでもないアイデアがここに行きました

メモリテーブルには、512、1024、2048ビットに等しい列数が含まれています。 50 nsの行をアクティブにするサイクル時間を考えると、現在の17 064 MB / s（163 840および163の代わりに、「1 / 0.00000005 s * 512列* 64ビットワード= 81 920 MB / s」）の潜在的なデータ交換レートを取得します。 1,024および2,048列の行の場合は327,680 MB / s）。「わずか5倍（4.8）倍高速」と答えます。「これは、競合するすべての要求が同じメモリバンクに宛てられ、使用可能な帯域幅がバンクの数に比例して増加し、各テーブルの行の長さが増加するときの為替レートです（動作ラインの長さを長くする必要があります）、これは主にデータバスの速度に依存します。

データ交換モードを変更するには、ラインのコンテンツ全体を下位レベルのキャッシュに転送する必要があります。そのためには、速度だけでなく、ラインキャッシュのサイズによってキャッシュレベルを分離する必要があります。したがって、たとえば、Nレベルキャッシュラインの「長さ」を（512列* 64ワードサイズ）32,768ビットで実装することにより、比較操作の数を減らしてキャッシュラインの総数を増やし、それに応じて最大サイズを増やすことができます。ただし、このサイズのキャッシュにパラレルバスを作成すると、指定された「ジャンボ」キャッシュラインを最上部のキャッシュラインの長さに沿ってブロックに分割し、小さな部分と交換する場合、操作の頻度を減らすことができます。アクセス遅延を複数の段階に分割することにより、動作の頻度を維持できます。キャッシュラインを検索し、見つかったラインで目的の「ワード」をフェッチします。

キャッシュとメインメモリ間の直接交換に関しては、1つのバンクのラインへのアクセスレートでデータを転送するか、異なるバンクにリクエストを分散するための一定のマージンを持たせる必要があります。さらに、行のさまざまな領域にあるデータへのアクセスの時間の経過に伴う困難があります。順次送信の場合、行のフェッチに関連する初期遅延に加えて、「パケット内」のデータ量と送信速度に応じてデータの送信に遅延があります。ラムバスのアプローチでさえ、増加した負荷に対処できません。状況は、シリアルバス（おそらく差動）に切り替えることで節約できます。データのビット深度をさらに減らすことで、チャネルの帯域幅を増やし、データの最初と最後のビットの送信間の時間を短縮し、文字列の送信を複数のチャネルに分割できます。これにより、1つのチャネルの低いクロック周波数を使用できます。

そのようなチャネルの速度を推定しましょう：

1 / 0.00000005 ns = 20 MHz（1ブロック内のライン変更周波数）

20 MHz * 32,768ビット= 655 360 Mbps

同じデータバスサイズの差動伝送の場合、次のようになります。

655 360 Mbit / s / 32チャネル=チャネルあたり20 480 Mbit / s。

この速度は電気信号には許容できるように見えます（15メートルの同期が組み込まれた信号の場合は10ギガビット/秒、1メートルの外部同期で20 GB /秒を超えることはできません）、ただし、伝送速度をさらに上げて伝送遅延を低減する必要があります情報の最初と最後のビットは、光伝送チャネルを統合するために帯域幅を増やす必要がありますが、これはすでに回路設計者にとって疑問であり、私はそのような周波数の経験がほとんどありません。

そしてOstapは苦しみました

「メインメモリを中間の超高速ブロックストレージとして使用する」ためにキャッシュをメインメモリに投影するという概念を変更することにより、ロードデータの予測をコントローラー回路から処理アルゴリズムにシフトできます次に、パフォーマンスを犠牲にすることなく、外部レベルキャッシュのボリュームを増やすことができます。

さらに進むと、プロセッサアーキテクチャの方向を「アクチュエータのコンテキストの切り替え」から「プログラムの作業環境」に変更することができます。このような変更により、プログラムを個々のプロシージャの指定されたエントリポイント、処理用のデータを配置するためのアクセス可能な領域、および他のプロセスから関数を呼び出す可能性のハードウェア制御の可能性がある関数のセットとして定義することにより、コードのセキュリティを大幅に改善できますこのような変更により、一部のスレッドのコンテキストスイッチを削除することでマルチコアプロセッサをより効率的に使用できるようになり、「プロセス」のアクセス可能な環境内でイベントを使用して別のスレッドを使用できるようになり、100以上の核システムをより効率的に使用できるようになります。

PS：登録商標または特許のランダムな使用はランダムです。オリジナルのアイデアはすべて、ant hillライセンス契約の下で使用できます。

ダイナミックRAMのパフォーマンスと、それを増やす方法のとんでもないアイデア