アゼルバイジャンと英国でサーバーファームがクラッシュする

データセンターの停止は非常に高価な喜びであり、数秒のダウンタイムは深刻な財政的および評判の損失につながる可能性があります。 何度も発生した事故がこれを証明しました。 2つの大規模サーバーファームが影響を受けました。1つは英国に、もう1つはアゼルバイジャンにあります。







アゼルバイジャンのほぼ全人口がインターネットへのアクセスを失いました



Delta Telecomのデータセンターの1つで火災が発生しました。 ダウンタイムは8時間続きました。 この事件の後、インターネットサービスへのアクセスは、地元のモバイルオペレーターBackcellとAzerfonのチャネルを使用してのみ可能になりました。



シャットダウンの理由は、Delta TelecomサーバーファームのBakuでの火災でした。 この会社の代表者の公式声明によると、いくつかのケーブルが古いデータセンターで発火しました。 消火と緊急サービスは、消火のプロセスに関与していました。 事故のために、銀行の仕事はほとんど麻痺していることが判明しました-操作は行われず、ATMと支払い端末の仕事は停止しました。 多くの地域では、モバイル通信は利用できませんでした。



シャットダウンは11月16日午後4時に行われました。 このようなインターネットに関連した大きな事故は、アゼルバイジャンで初めて発生しました。 結果を排除するのに5時間かかりました。 ユーザーサービスは現地時間の真夜中近くにのみ復元されました。







インターネット接続を監視しているRenesysによると、アゼルバイジャンのネットワークの78%がダウンタイムになり、これは数百のネットワークよりも6多い。 これらのネットワークは、Delta TelecomとTelecom Italia Sparkle間の主要な接続を使用しました。 ルネシスの専門家によると、アゼルバイジャンは、国と外部のトラフィック交換ノードを接続するネットワークの数が少ないため、インターネットを切断するリスクが高い国の1つです。 同様の状況は、現在、イラン、ジョージア、アルメニア、サウジアラビアなどの多くの近隣州の特徴です。



近年、アゼルバイジャンは、石油とガスの販売からの収益のおかげで、電気通信インフラストラクチャを積極的に開発していますが、トランスユーラシア情報ハイウェイ(TASIM)の創設にも参加しています。



TelecityコロケーションプロバイダーのデータセンターとUPSの問題



多くの調査の結果によると、データセンターの計画外ダウンタイムの65〜85%は、UPSシステムの誤動作が原因です。 そのため、これらのデータセンターインフラストラクチャ要素の定期的な監視、およびバッテリーのタイムリーなメンテナンスと交換に定期的に注意を払う必要があります。



おそらく、欧州のコロケーションプロバイダーであるTelecity Groupのエンジニアは、無停電電源装置にあまり注意を払っていないでしょう。 ほぼ2週間前、同社はロンドンにある同社の商業データセンターのホール内に建物を借りた顧客を2回「動揺」させました。 ソブリンハウスデータセンターでの2つの停電は次々に続き、ロンドンインターネットエクスチェンジやAWSダイレクトコネクト(サードパーティ企業がプライベートネットワーク接続を介してAmazonクラウドに接続できるようにするサービス)を含む多数のテナントの不満につながりました。 。







そして、共同サービスに対する責任。 ロンドン中心部の東のドックランズ地域にあり、英国のインターネットトラフィックの約10%にサービスを提供しているデータセンターの問題は、その障害のために正確に始まりました。 中央電力網の最初の障害後、データセンターのインフラストラクチャは自動的にスタンバイ発電機に切り替えることができませんでした。 その後、ネットワーク電源がしばらく復旧し、その後、UPSシステムの修理が水曜日の午前中に始まりました。 しかし、その後、電力は再び消滅し、データセンターインフラストラクチャは再びDGUに自動的に切り替わりませんでした。 データセンターの運用上の問題は、英国のビジネスマンや、VoIPサービスやウェブホスティング、AWSプラットフォームの運用に問題があると苦情を申し立てている一般ユーザーに気付かれることはありませんでした。



サーバーファームのクラッシュについて



多くの中間レベルの専門家は舞台裏で話をする準備ができていますが、原則として、データセンターのリーダーシップによって何が起こったのかについての議論には厳格な禁止が課されています。



市場で3〜5年間働いており、少なくとも1回の事故に耐えられていないデータセンターは、おそらく唯一のものです。 事故はどこでも起こりますが、唯一の違いは結果です。 欧米市場では、彼はすでに困難を克服した経験があり、将来のクラッシュを防ぐためにより慎重でやる気があるので、クラッシュを生き延びたサーバーファームの責任者の価値は増加しています。 私たちの市場では、ほとんどの場合、マネージャーは最後まで立ち向かう準備ができており、事件に関する情報を一般に公開することはありませんが、結果は難しく、顧客のサービスの停止を何らかの方法で隠すことは不可能です。 データセンターのインシデントデータベースは、一部の国際組織によって収集されていることがわかりました。 確かに、それらへのアクセスは、閉鎖されたクラブの会員を通じてのみ提供され、そこでさえ、彼らは非常に貴重な情報を共有する準備ができていません。







サーバーファームの障害の主な原因を分析すると、2つのタイプのエラーが「主要」です。それは、人的要因とハードウェアコンポーネントの障害に関連するエラーです。 障害が発生した場合のバックアップ機器またはエンジニアリングシステムの使用を含む高い信頼性要件を考慮しても、人的エラーまたは設計段階、または障害機器の状態での操作に起因する事故に対しても、プロジェクトは保証されません。 わずかな間違い、短時間の仕事の中断、事故が会社に何十億ドルもの損害を与える可能性があることが知られています。 したがって、自尊心と顧客を尊重する多くの企業は、建設の開始前に文書の独立したエンジニアリング試験を実施して、重大な障害点を特定し、早期排除のための解決策を考え出します。 包括的な運用前テストのフェーズもあります。



Trinity Group of Companiesのシステム統合部門の責任者であるI. Schwartzは、事故の原因について説明しました(既存のデータセンターの例が取り上げられました) (I. Schwartzによる記事:データセンターインフラストラクチャのセキュリティ(Security Algorithm magazine No. 3、2015.)

80%のケースで、サーバールームの冷却が困難である、何かが過熱している、または電源で何かが起こっているという苦情を耳にします。 ケースの1つを次に示します。



容量が1 MWを超えるデリケートな企業のデータ処理センター、データセンターはデータセンターにあり、プロジェクトのコストは1,000万ドル以上です。 インライン冷却が使用され、電源システム、冷却システム、ガス消火器のコンポーネントが予約されており、システムの信頼性はN + 1、2 Nです。 トリニティは独立した専門家として招待され、データセンターでの事故の原因を分析しました。



機器の損傷の外部的性質(プラスチック要素の形状の著しい変形、バッテリーセルの沸騰と膨張)は、長時間(数十時間から数日)の高温の影響を示しています。





損傷の外部的性質



温度の持続時間に基づいて、複合体は冷却サブシステムを停止する条件下で積極的に機能し続けたという明確な結論が得られました。 UPSログ、列間エアコン、チラー、外部電源安定化装置の記録の分析により、次の事実が示されました:事故の前とその間、外部電源の中断はなく、バッテリーパックの切断と多数の移行にもかかわらず、クリーンラインに沿った停電はありませんでしたバイパスモードの電源(安定化なし)。 気温が50°Cを超えて上昇したためにバルブ圧力のしきい値を超えた場合、自動ガス消火システムのシリンダーから消火剤の緊急排出が行われ、継続的な温度上昇を背景に消火システムが動作しなくなりました。 判明したように、事故の前に2台のチラーを20時間同時に操作しました。通常モードでは、このような作業はチラーの回転中に25秒以下しか続きません。 冷却システムの2つの外部ユニットを同時に長時間作動させると、冷却液が過剰に過冷却され、その結果、メイン循環ポンプが停止した状態で「霜の脅威からの保護」エラーが発生します。 エンジンルームにある追加の循環ポンプでは、冷却液を独立して循環させることはできません。



循環の欠如の結果は、列のエアコン間の緊急停止であり、その結果、「ホットコリドー」の温度が急激に上昇しました。 利用可能なすべてのジャーナリングシステムの調査の結果、それが確立されました。事故の根本原因は、電力自動化シールドの問題でした。 チラー番号1の電源の第1フェーズが失われたため、第2チラーの同時起動と動作は、第1チラーの誤った動作によって引き起こされました。



イベントがさらに発展し、長い間続いた理由は次のとおりです。



1)施設の安全モードに関連する監視および警告システム、つまり設計中の「自動シャットダウンおよび警告システム(SAOO)」の要件が設計仕様にないことは、2つのチャネルを介した通知によって勤務オペレーターと連携するように設計されました:SMS (パブリックGSMネットワーク経由のテキストアラート)およびメール(パブリックインターネットネットワーク経由の電子アラート)。 オブジェクトのセキュリティモードのため、両方のチャネルは接続されませんでした。



2)試運転中、緊急警報チャンネルがない場合、SAOOは自動運転に移行しませんでした。



3)NetBotz環境監視ハードウェアとUPSの間の製造元(APC)によって最初に提供された「緊急」信号線が切断されました。



4)ガードポストへのアラームの出力で環境パラメータを監視するための追加の回路は設計および設置されていません。



5)ガードポストで盗難警報装置の体積運動センサーが作動し、溶融した空気プラグとキャビネットの側壁の落下を検出した場合にのみ、事故が検出されました。



この場合の結論は、サーバールームの構築に適用されます。設計仕様は、環境パラメーターの監視システム、電源、ガードポストへのアラーム出力の要件、通知用の通信チャネルの要件、主要な重要パラメーターの監視回路の独立性の要件を確立する必要がありますLAN、サーバー、自動電話交換、および監視されているその他の機器の操作性から。 このプロジェクトでは、複合施設を運用する段階でテスト手順の詳細なプログラムを開発し、スタッフ以外のイベントの最大限の組み合わせを提供する必要があります。 エグゼクティブドキュメントには、緊急事態発生時の対処方法を記載する必要があります。 トレーニングは、操作員に提供される必要があります。 三相装置を供給する場合、位相監視リレーを使用する必要があります。


「私は自分の目を信じられない」というカテゴリにまだ誤りがあります。

人員の単純な無知または不注意:2つの独立したラインではなく、同じ電力ラインに接続された2つの電源またはスイッチギア。 ラックに後方に設置されたサーバーは、ファンが「冷たい」通路ではなく「熱い」空気を取り入れます。 適切なラベルと保護が付いていない緊急電源オフボタンを使用すると、新しい従業員が電源を切っただけだと思った停電につながります。









All Articles