(ほとんど)予測不可能なデータセンターの事故





データセンターに障害や緊急事態に対する信頼性の高い保護システムを提供するための設計者のあらゆる努力にもかかわらず、事故が発生し、その出現の前に一連のイベントが発生する可能性があります。 これにより、「トラブル」に対する最も信頼性の高い保護システムが誤動作することがあり、DCの動作が停止します。



継続中-いくつかの状況は、古いものと最近のものの両方であり、いくつかの状況は単に予測することが不可能であることを示しています。



ハリケーンサンディ:発電機の故障





それは燃料が届けられた方法です



ハリケーンサンディが米国西海岸全域で猛威を振るっていたとき、地域のほぼどこでも電力が遮断されました(2012年10月)。 雨と嵐に加えて、状況はマンハッタンと他の多くの地域と都市にあふれた塩水の塊によって悪化しました。



ローワーマンハッタンの75ブロードストリートにある高層ビルの18階に非常用発電機があり、主電源システムに障害が発生した場合にピア1データセンターに電力を供給する準備ができていました。 発電機は、塩水が高層ビルとそのロビーの地下にあふれた直後に働き始めました。



残念ながら、水はシステム全体にとって重要な別の要素、つまり燃料を上部に供給する燃料ポンプを無効にしました。 事実、ニューヨークでの9/11の後、建物に燃料を保管する新しい規則が導入され、ディーゼル、ガソリン、または他の燃料を限られた量でのみ上層階に保管することが可能になりました。 そのため、18階の発電機が燃料を使い果たすとすぐに、新しい燃料が供給されなかったためシステム全体が停止しました。







Peer 1チームは、システムを停止する代わりに、手動で燃料を供給し始め、燃料タンクのある17階まで持ち上げました。 そしてすでにそこから燃料は18階、発電機に上がりました。



この作業は、主電源システムが起動するまで数日間続きました。 Peer 1の顧客にSquareSpaceやFog Creek Softwareなどの企業が含まれていたことは注目に値します。



データセンターの作業は、チームの機知によってのみサポートされていましたが、もちろん、燃料の手動配達はどの計画でも提供されていませんでした。





すべてが機能し、素晴らしい



フライングSUVとラックスペース







さらに珍しいケースが2007年11月13日に発生しました。 その後、SUVがRackspaceデータセンターに飛び込みました。 糖尿病のドライバーはコントロールを失い、意識を失いました。 SUVは加速し(明らかに、ドライバーが無意識にアクセルペダルを踏んだ)、道路から飛び出し、Rackspaceデータセンターのエネルギーシステムが配置されている建物に(空中に)衝突しました。



データセンターの冷却システムは補助電源システムに切り替えられ、問題なく作業が続行されました。 また、主要機器は問題なく非常用電源に切り替えました。 しかし、その後、問題が始まりました-判明したように、大規模なクーラーは再起動せず、最初の停電中に停止しました。 2つのクーラーは機能せず、データセンターの従業員は適切なタイミングでそれらを稼働させることができませんでした。



その結果、機器は過熱し始め、エンジニアのチームは機器が故障しないようにDCをオフにすることにしました。



機器を5時間停止する必要がありましたが、その間、データセンターのサイトと顧客サービスは機能しませんでした。 その結果、Rackspaceは350万ドルの損失を顧客に補償しなければなりませんでした。



サムスンの問題







2014年4月20日、韓国の果川のオフィスビルで火災が発生しました。 炎は、Samsung SDS DCをバイパスすることなく、建物全体にすばやく広がりました。 火と煙が建物の外に出て、遠くからはっきりと見えました。



このビルで働いている他の会社の従業員と同様に、サムスンのすべての従業員が避難しました。 火災はDCを完全には破壊しませんでしたが、Samsungガジェットのユーザーがデータにアクセスできなくなるほどの被害をもたらしました。



ユーザーは、同じ都市のセカンダリデータセンターが運用を開始して初めてデータにアクセスできるようになりました。 これに続いて、会社の経営陣による公式の謝罪が行われました。



ケーブルダクト点火







シアトルのフィッシャープラザのケーブルダクトシースで火災が発生した別の短絡により、Authorize.net、Bing Travel、Geocaching.com、AdHost、およびその他の多くのリソースを含む多くのサービスが動作不能になりました。 問題は午前中にのみ特定できました(2009年7月3日にすべてが発生しました)。



同時に、多くのサービスが午前10時に動作を再開しましたが、他のサービスはさらに数時間動作しませんでした。 破損したデータセンターを所有していたFisher Communicationsは、機器の修理と交換に1,000万ドル以上を費やしました。



アイオワの炎







2014年2月18日の午後、州のサービスとサービスのサービスを提供するデータセンターは、非常に正常に機能しました。 この日、州は州の従業員に1億6,200万ドルの多数の支払いを行うことになっていたが、皮肉なことに、データセンターで短絡が発生したのはこの日でした。



同時に、エンジニアのチームが施設を数日間連続で準備し、まったく異なる迷惑に直面しました-2月18日の夕方に予測された吹雪の結果。



短絡が発生した後、煙が建物全体に広がり、従業員が避難しました。 FM-200消防システムが機能し、局所的な火災が発生しました。 同時に、DCへのエネルギー供給を制御するシステムが過熱して融解しました。



従業員は別のチャネルを介してエネルギー供給を迅速に確立することができ、数時間後にエネルギーが再開されました。 ただし、DCのインフラストラクチャにアクセスできないと、作業を再開できませんでした。 しかし、消防士と警察は、建物内に多くの煙があったため、支援を建物に入れませんでした。 3.5時間後にのみ、従業員はDCにアクセスできました。 この間、何も機能せず、支払いは消えませんでした。



DCは午後9時にのみ復元され(火災自体は午後3時に始まりました)、その後支払いを開始することができました。



アマゾンと溶接







2015年1月9日、Amazonデータセンターが建設されていた大きな建物で火災が発生しました。 問題は、近くの建材に誤って火をつけた溶接工が原因で発生しました。 小さな炎はすぐに3番目のカテゴリーの火事場となり、長い間消火しなければなりませんでした。 スモークスルタンは、データセンターから数キロメートルにわたって見えました。 会社に生じた損害の合計は100,000ドルになりました。



確かに、施設はまだ委託されていないため、Amazonの顧客は影響を受けていません。



出力の代わりに



ほとんどの場合、緊急事態は非常に予期せずに発生し、計画と指示の範囲を超えています。 それにもかかわらず、場合によっては問題に対処することが可能でしたが、他の場合では、DCの所有者と顧客の両方の企業が大きな損失を被りました。



また、どのような問題や緊急事態がありましたか? どのようにそれらに対処しましたか?



All Articles