メガデータセンター-イノベーションの先駆者



最新のEMCの調査によると、2012年に生成されたデータ量は2.8ゼタバイト(10 ^ 21バイト)であり、2020年までにこの数値は40ゼタバイトに達し、以前の予測を14%超えます。 すでに「大規模なデータの洪水」に遭遇しており、これに対する答えの1つは、しばしば「メガデータセンター」と呼ばれる最大のデータセンターのシェアの増加です。 。



たとえば、F1レースのように、異常な指標が必要な場所でイノベーションが発生しますが、まもなくこれらのイノベーションの多くは通常のプロダクションカーに実装されます。 また、メガデータセンターは、情報技術の主要なイノベーションセンターの1つです。 多くの企業は、「ビッグデータ」、プライベートクラウド、およびコンピューティングクラスターを処理するためのソリューションで超大規模データセンターの例を使用しています。 Mega-DPCは、スケーリング、効率性、費用対効果の向上のための最先端ソリューションのテスト場です。





ほとんどの場合、データ処理のメガセンターはApple、Google、Facebookなどの巨大企業(より興味深い珍しい例はTencentやBaiduなどの中国企業)によって構築されているため、これらのデータセンターは高度に専門化されていません。 これらのデータセンターのサーバーは、データストレージ、DBMSの保守、Webサーバーの提供、および企業向けのより具体的なタスク(検索、検索クエリの分析、分析など)に従事しています。







このようなDCの規模は驚くべきものです。通常、最大10百万台のドライブがインストールされた200,000〜1,000,000のサーバーが含まれています。 サーバーのタスクに応じて、重要なデータ用のブート可能なディスク、保護されていないディスク、または保護されたRAIDアレイのみが含まれる場合があります。 多くの場合、ディスクサブシステムの作業を高速化するために、フラッシュメモリに基づくハイブリッドソリューションが使用されます。たとえば、以前の記事[link]ですでに書いたLSI Nytroなどです。



サーバーは通常、約200〜2,000ノードでクラスター化されます。 このようなクラスターは、障害が発生した場合に問題のあるノードをすばやく切断し、残りのノード間で負荷を再分散できるように設計されています。 これは通常、ソフトウェアレベルで行われます。







メガデータセンターでは、1つのアプリケーションが数千から数十万のノードで実行されることが多いため、ノード間の情報転送速度が非常に重要になります。 これらの問題を克服するために、大規模なデータセンターは10 GbEおよび40 GbEテクノロジーを使用しています。 メガデータセンターネットワークは通常静的であるため(トランザクション処理時間の短縮にも役立ちます)、ソフトウェア構成ネットワーク(SDN)がよく使用されます。



主にイメージの実装と複製を簡素化するために、仮想化が使用されることはほとんどありません。 ほとんどの場合オープンソースであるソフトウェアは、それをさらに細かく調整およびカスタマイズすることができます(メガデータセンターは通常、特定の企業の特定の目的のために作成された部分的な現象です)。



そのようなデータセンターでは、余分な(もちろん、一定の限度まで)すべてを拒否することで運用コストを削減するという問題は非常に深刻です。 最適化の目標は、たとえ無料のソリューションであっても最初はさらなる運用コストにつながる可能性があるため、「無料」になったとしても、メインタスクに属さないすべてのものを廃止することです。 簡単な例:不要なLEDを各サーバーに追加し、200,000台のサーバーがある場合、LEDのコストは約10,000ドルになり、これらのLEDが「無料」であっても、エネルギー消費は約20 kW増加します。







メガデータセンターの問題



一般的に、問題の点では、そのようなデータセンターは「弟」に似ています。最大速度で重いアプリケーションを実行する機能も提供する必要があり、スケーリングとコストの最適化も重要です。 唯一の例外は、サイズが原因で、エラー、問題、または非効率性が大幅に高くなることです。



そのような問題の1つはディスク障害です。 交換の低コストにもかかわらず、大規模な障害は、個々のクラスター、時にはデータセンター全体の動作に重大な誤動作を引き起こす重大な問題です。 この問題を解決するために通常使用されるアーカイブストレージは、それらの情報があまり使用されない場合でも、多くの電力やその他のリソースを消費します。 これは、ペタバイト単位ではなくエクサバイト単位で計算されるデータ量の増加で特に顕著です。







メガデータセンターからの教訓



上で書いたように、超大規模データセンターの多くのアーキテクチャソリューションは、使用されるリソースと計算能力の比で信じられないほどの効率を達成できるため、小規模データセンターの中でその位置を見つけます。 これらの原則は何ですか?



最初の、そしておそらく主なものは、インフラストラクチャを可能な限り均質にする(均質にする)必要性です。 このようなインフラストラクチャは、保守と拡張がはるかに簡単です。 重要ではないコスト最適化により、たとえば、最小限の介入でメンテナンスを実行できるような、より高度なアーキテクチャソリューションに投資する必要がある資金を解放できます。



2番目の原則は、「ファイブナイン」のレベルでも信頼性を維持しようとすることです。大規模なデータセンターの場合、費用がかかり、一般に非現実的です。 代わりに、サブシステムが障害を受けやすいようにインフラストラクチャを設計する必要がありますが、システム全体は引き続き機能します。 必要なソフトウェアおよびハードウェアソリューションはすでに市場で入手可能ですが、これまでのところ、それらは企業システムでは一般的ではありません。



All Articles