同僚との一連の会話または少しの経験から:DC Edgeの設計

昨日、旧友と話をしました。彼は大規模なデータセンターの近代化プロジェクトの完了について話しました。ゼロからのネットワーク設計、リーフ/スパイン、TOR、新しい機器、フォールトトレランス、すべてが美しく新鮮です。 スロットあたり40ギガビット/秒がいくぶん超越的であるように見えたとき、実際、私たちの専門道路は、ある有名なメーカーの線形カードでの内部のオーバーサブスクリプション、アーキテクチャ、およびトラフィック転送の機能を研究する背景にしっかりと収束して以来、お互いを知っています。 したがって、友人が「なぜ私があなたに電話をかけているのか知っていますか?」と尋ねたとき、私は何の考えもせずに答えました-「また、落ちますか?」



肯定的な回答を受け取ったので、私はそのような状況で彼らが見つけようとしているものを見つけようとしました-トラフィックマトリックスとプロファイル、スイッチモデル、容量比のアップ/ダウン、アクティブサーバーの数の順序、ポートタイプとすべてのジャズ。 私が公に聞いたことの詳細を作ることはできませんが、私の友人が扱っているスイッチはBroadcomのTrident-2に基づいていると言うのは間違いではありません。つまり、以下で説明する問題はある程度一意ではありません特定のメーカー向け。 このメモは、内部アーキテクチャに関するものではなく、外部デザイン全体に関するものである可能性が高くなります。 そのため、データセンターを外部の世界とサービスデバイスに接続するように設計されたリーフスイッチのペアが不満を抱いていることがわかりました。



画像



ボーダーリーフスイッチのペアでは、「ワイド」LAGがより高レベルのWANエッジルーターに向かって組み立てられていることが判明しました。 データセンターのトラフィックには通常、着信帯域と発信帯域に関して非対称性があります。ドロップが観察される境界リーフ-WANの方向に関心があります。 一方では、リーフへの複数の40Gポートがあり、もう一方では、さらに容量の大きい10GポートLAGがあります。 同時に、ミドルバンドは可能性の半分にも達しません。 もう一度、サーバーが接続しているポートの種類を友人に確認しましたが、すべてのTORのアクセスポートに10Gがあることがわかりました。 次に、このネットワークを古き良きTDMと考えることを提案しました.WANへのLAGの各ポートは、工場の残りの部分が完全にブロックされていないと仮定すると、1つのタイムスロットで表すことができます。 特定のサーバーがストリームの送信を開始するとすぐに、タイムスロットの1つがこれらのニーズ専用に使用されます。 このような仮定を立てた後、WANへのアクセスポートとLAGのポートのチャネル速度は一致し、サーバーは常にネットワークカードのチャネル速度でネットワークにデータを「ダンプ」するため、真実からそれほど遠くはありません。 TCPプロトコルについて話している場合、タイムスロットは、バイトサイズをTCPウィンドウに転送するために必要な時間のために予約されています。 LAGの「幅」に関係なく、データセンター内のサーバーの数はポート内のポートの数を明らかに超えているため、2つ(実際にはそれ以上)のスレッドがバッファーメモリ(TDMからイーサネットネットワークに戻った)で1つが送信されるのを待っている場合がありますと同じポート。



画像



アクセスポートのチャネル速度でWANを備えたデータセンターとのインターフェイスを構築するのは正しいですか? このアプローチは、スイッチのバッファメモリ容量がトラフィックのインキャストバーストに対応できる場合に機能する可能性がありますが、Broadcomチップではこの焦点が機能しないことがよくあります。 標準TORスイッチの48ポート用の9-12MbのSoCバッファメモリにより、9Mb / 1250Mb / s = 0.0072sの持続時間で2つのソースからのバーストを平滑化できます。1250は10Gポートに毎秒転送されるデータ量です。 同時ソースの数はサーバーの数と等しくなく、各データセンターについて、観測されたトラフィックを考慮に入れた独自の評価が必要ですが、いずれの場合も2つ以上です。 この場合、Broadcomチップ上のTORはトラフィックの観点から「展開」され、彼にとってまったく珍しいビジネスに従事せざるを得ませんでした。 低速およびポートからのトラフィックを受け入れて高速に送信する代わりに、バッファメモリの消費を最小限に抑える代わりに、チップは反対の動作を強制されます。



問題の解決策を考え出すために、設計に戻りましょう。それらのいくつかは、手っ取り早いものです。



  1. Border LeafスイッチをBroadcomに置き換え、ディープバッファーを備えたスイッチに置き換えます。 多くのメーカーは、この種のアプリケーションに特化した独自のチップ上にモデルを構築しています。
  2. WANへのLAGポートのリンク速度を上げて、この速度がアクセスポートのリンク速度を超えるようにします。
  3. このテクノロジーがデータセンターに到着したら、Flex Ethernetに切り替えます。


ご覧のとおり、最初の2つのオプションではハードウェアコンポーネントを更新する必要があります。実行中のプロジェクトでは通常これは歓迎されず、3番目のオプションは完全にエキゾチックです。 さらに、各実装には詳細が必要です。 そして、この問題は今ここで解決する必要があったので、スケールアウトパスに進むことを提案しました。 データセンターの多くは何ですか? TORスイッチはもちろん-スペアパーツのセットがあり、拡張用があります。 偶数のボーダーリーフを追加し、それらにLAGポートを再配布すると、競合するスレッドの数が減り、表示されるバッファーメモリに沿って再配布されます。 私の意見では、問題の迅速な解決策としては悪くはありませんが、正しい道の第1番に話を戻します。



All Articles