高可用性光リング

こんにちは、Habrausers様。

モスクワのクラウド間に高可用性の光リングを構築するためにエンジニアが実施したプロジェクトについてお話ししたいと思います。









損傷が発生した場合に制御と操作性を維持できるフォールトトレラントシステムを構築する場合、クラウドプロバイダーはトポロジに対して特に高い要求を行う必要があります。 このようなフォールトトレラントシステムは、FOCLを使用して2つ以上のデータセンター(DC)と企業ネットワークの接続を提供します。これにより、ストレージシステムコンポーネントをある場所から別の場所に転送してデータのコピーを作成できなくなります。

DCを企業の光ネットワークに接続するための2つの主要な競合トポロジは、スターとリングです。 「リング」のノード(またはケーブルシステムの一部)に障害が発生した場合、ネットワークの全体的なパフォーマンスが維持されます。 さらに、リングトポロジは接続数が冗長であるため、より高価です。 その代わりに、「スター」は、ローカルネットワークで通常行われている集中サービスを提供するために、わずかにより良く適合しています。 実際、ローカルエリアネットワーク(LAN)には、ほとんどの場合、ネットワークが通常構築されるアクセス用のサーバーまたはルーターがあります。 リングトポロジとスタートポロジの比較特性を表に示します。



スター型トポロジーとリング型トポロジーの比較





クラウドに配置された顧客情報システムの継続的な運用を確保することは、クラウドホスティングプロバイダーが自ら設定する必要がある主な目標です。つまり、SLAレベルを上げることが主なタスクになります。

独自の高可用性光リングを作成することで、そのスキームを次の図に示しますが、SLAのレベルを大幅に高めることができました。これはお客様に保証されています。







光リングは、モスクワの物理的にTier 3 DCにある2つのクラウドとスイッチングノードM9およびM10の間に構築されます。 DC間の距離は最大100 kmで、この場合は約15 kmです。 リングの主な機能は、単一の(重大な)障害点がないことです。 光チャネルは完全に複製されており、さまざまなルートに沿って、さまざまなオペレータによって敷設されています。 このソリューションのおかげで、チャネルの問題が原因でクラウド内のサービスにアクセスできなくなります。 1つの光チャネルに障害が発生した場合でも、すべての作業は別の回線に沿って続行され、中断することはありません。 光チャネルに加えて、すべてのスイッチとルーターが複製されます。これにより、ルーターまたはスイッチのいずれかに障害が発生した場合に、ワークループに自動的に切り替えられます。 チャネルの問題に加えて、このスキームは、何らかの理由で光ファイバーリンクが存在する場所で正確に実行される土工作業による損傷を排除します。

光リングの合計帯域幅は180 Gbit / sで、そのうち120 Gbit / sはDC間の帯域幅、20 Gbit / s-最初のDCとスイッチングノードM10の間、20 Gbit / s-スイッチングノードM10とM9および20 Gbitの間です/ s-スイッチングノードM9と2番目のDCの間。 各ルートは、物理的に互いに独立したファイバーペアで構成され、ルートルーター上の共通チャネルに集約されます。

ネットワーク全体が物理的に内部と外部に分割され、異なるサーバーインターフェイスが異なるスイッチに接続され、異なるネットワークで動作します。 外部ネットワークでは、サーバーはインターネットと通信し、内部ネットワークでは、すべてのサーバーが相互に通信します。 サーバーはL2およびL3レベルスイッチに接続され、これらのスイッチは少なくとも2つの10ギガビットリンクによって集約スイッチスタックに接続されます。 各リンクは、スタック内の個別のスイッチに行きます。



光リングは、SummitシリーズExtremeスイッチで作成されています。





標準のイーサネットテクノロジーのサポートに基づく基本機能に加えて、SummitスイッチはRPR(Resilient Packet Ring)テクノロジーを実装しています。 この技術により、スイッチはリングトポロジを形成し、50 ms未満で回復を提供し、リング構造で帯域幅を効率的に使用できます。

Summitスイッチには、1000Base-Xインターフェイスモジュールをインストールするための最大24個のミニGBICスロット、4つの10/100 / 1000Base-Tポート、および10GBase-Xインターフェイスモジュール(XENPAK)をインストールするための2つのスロットを含めることができます。 スイッチングマトリックスの帯域幅は160ギガビット/秒、L3のスループットは6,500万パケット/秒です。 スイッチは、RIPv1 / 2、OSPF、BGP-4、PIM-SM、IGMPプロトコル、L1〜L4上のさまざまなQoSテクノロジーをサポートします。 64 Kbit / s(10 Gbit / sチャネルで1 Mbit / s)の増分での帯域幅制限、各ポートで8つのハードウェアサービスキュー。 冗長電源を提供し、外部電源を接続し、メモリーバンクをバックアップして、ExtremeWare XOSオペレーティングシステムの構成とイメージを保存します。

このソリューションは、集約ノードの光インターフェースを介してトランクリングの各ノードに接続する機能を提供します。 光インターフェイスを介した各集約スイッチは、アクセススイッチを接続してユーザーを接続できます。

RPRテクノロジーは、RAD Data Communicationsのアルゴリズムによって補完される、第2(チャネル)レベルのイーサネットスイッチングの標準メカニズムに基づいています。 後者は、リングのすべてのノードがネットワークの状態に関する情報を受信できるようにし、事故や緊急事態の場合、トラフィックを別のルートにすばやく転送します。







RPRリングノードは、第2層で通常のスイッチとして機能するネットワークデバイスです。 各ノードには、リングを介してトラフィックを送信するための2つのトランクポート、トラフィックがリングに導入されるアクセスポート、および特定のサービスにトラフィックを配信するためのユーザーポートがあります。 通常モードでは、すべてのRPRノードが特別なサービスメッセージを交換します。 各ノードは、一定の間隔で、両方のトランクポートを介してリンク状態メッセージを送信します。 リングの状態に関するメッセージがない場合でも、ノードは「キープアライブ」メッセージを送信する必要があります。これは、隣接ノードに対してすべてが正常であることを意味します。 ノードは、ネイバーもそのようなメッセージを受信したことを示すサービスメッセージを受信すると、リングが正常に機能すると見なします。 ノードが対応するメッセージを受信する場合、またはノードが30ミリ秒以内にサービスメッセージをまったく受信しない場合、チャネルは緊急と見なされます。 この場合、トラフィックは反対方向に開始し、緊急セクションをバイパスします。 このアルゴリズムにより、従来のスイッチングの単純さと、障害発生時にトラフィックを迅速に再ルーティングする機能を組み合わせることができます。



結果:



したがって、高可用性の光リングにより、クラウド(SLA)のサービス可用性のレベルを99.99%以上に高めることができます。 これは、クラウドサービスのSLAレベルを個々の顧客や業界の要件に適応させるユニークな機会があることを意味し、これは大きな競争上の優位性です。 適応可能なSLAのおかげで、クラウドプロバイダーは、自分自身と顧客の両方にとって有益な差別化方法を備えています。 すべてのお客様が同様に高い稼働率の保証を必要とするわけではありません。 たとえば、クラウドを使用してアプリケーションをテストする顧客の場合、ほとんどの場合、クラウドでミッションクリティカルなシステムをホストする顧客と同じ高いSLAは必要ありません。 この事実を理解することで、顧客はITコストを大幅に削減でき、クラウドプロバイダーは、選択したSLAのレベルに応じて、必要なレベルのサービスと特別価格を顧客に提供できます。



Ps。すべてのhabrayuzerは、引き続きクラウドへの無料のテストアクセスを提供します。



All Articles