木が大きいとき:小さなデータセンターがハリケーンを生き延びた方法





2017年の夏はハリケーンが多かったことが判明しました。 しかし、私たちにも事件がありました。 ちょうど7年前、ボロバヤの最初のデータセンターは、隣接する屋根から到着した10トンの鉄の層の下にチラーを埋めたハリケーンを乗り切りました。 ツイストチラーの心を打つ写真は長い間インターネット上にあり、風邪のないまま放置されていたデータセンターの復元の話は決して公開されませんでした。 私はアーカイブを増やし、ギャップを埋めることに決めました。







2010年、DataLineは初心者のデータセンターオペレーターでした。 OSTサイトでは、360ラックの3つのホールのみが立ち上げられ、モスクワ(NORD)の北部に、147ラック用の1つのホールを持つ1つの建物がありました。









2010年以降、インフラストラクチャの規模がどのように変化したかをご紹介します。







私たち自身が設計および構築しましたが、専用の保守サービスはありませんでした。 現在、ディーゼル発電機セット、エアコン、電気技師の個々の専門家がいました-彼らはすべてを最大限に請負業者に与えました。 ちなみに、私たちの経験として、インフラストラクチャの量は少なかった。 エンジニアにとっては、プロダクションディレクター、チーフパワーエンジニア、そしてテクニカルディレクターが責任を負っていました。 まだ勤務中のエンジニアがいました (交代で3人)が、クライアントの要求と監視に従事していました。









2009年末のOST-1データセンターの最初のホールの1つ。









これが、OSTの新しいホールが今日どのように見えるかです。







ボロヴァヤの3つのホールは半分しか埋まっていない。 顧客はほとんどいませんでしたが、片手で数えるには指で十分でした。







現場で稼働する2 + 1冗長回路に3つのEmiconチラーを備えたエチレングリコールチラー。 これらのチラーはメーカーが宣言した容量に達していないと言わざるを得ませんが、負荷が小さいため、3つの部屋すべてに1台のチラーでほぼ十分でした。







初日



7月20日は30の暑さでした。 そのような天気では、チラーは気分が悪いので、営業日の終わり近くに雨が降り始めたとき、チラーが良くなることを望んで、私は喜んでいました。 雨で強風が吹き、今、私のオフィスの窓からは、金属板が過去を飛んでいるのが見えます。 彼は外に出て、道路の反対側に屋根の破片がありました。 驚くべきことに、データセンターの近くに駐車されている従業員の車のどれもひどく破損していませんでした。









リネンのようにワイヤーからぶら下がっている屋根の鉄。







その後、金属が横から飛んだので、チラーをチェックする必要があると思いました。 同僚と一緒に屋根の上に登ると、ひどい写真が見えました。3つのチラーにはすべて鉄の梁とシートが散らばっていました。















ビデオ監視システムによると、すべての鉄が強力な突風のために飛び込んだことは明らかです。 これは、カメラの1つの記録から後で見たものです。









ビデオでは、時計が遅れています。 すべてが起こったとき、それはすでに18.18でした。







災害の規模は印象的でした。 あるチラーでは、入ってくる鉄がフリークーリング熱交換器(チラーの外部回路)に穴を開け、2つ目ではファンが破損し、3つ目では上記のすべてに加えて、回転する歪んだファンがチラー内のフレオン管に触れてチョップしました。 私たちが屋根の上にいたときまでに、3つのチラーのうち2つはすでに停止していました。









最初のチラーの破損したフレームとフリーザーの熱交換器。 熱交換器は「サンドイッチ」です。外側は自由冷却ジャケットで、内側は5センチのギャップで、フレオンコンデンサー熱交換器は同じように見えます。









チラーのいずれかのファンが歪んだ。







パンクしたフリークーリング熱交換器からグリコールが固まりました。 冷凍システムの圧力が急落しました。 空運転から身を守るためにポンプが停止し、最後に作動していたチラーが停止し、冷却システム全体が作動しました(稼働日の終了から2分後の18時32分)。 数秒間、私たちは麻痺状態にあり、何をすべきか分かりませんでした。 それから、彼らは冷蔵業者に電話し、緊急チームに電話しました。 電話で、請負業者は外部回路を遮断するように助言し、メークアップシステムの必要なバルブとタップがどこにあるかを説明しました。 外部熱交換器に供給するバルブを閉じ、グリコールの流れを止めました。







エンジンルームの寒い廊下で暑くなっていました。 19:10にコールドサプライをすぐに復旧できないことに気づき、事故についての警告だけでなく、故障を防ぐためにコンピューティング機器の電源を切るようにという要求で顧客に電話をかけ始めました。 別のオプションを見たことはありません。 一部の顧客はシャットダウンを拒否し、リスクを冒しました。 ポータブルエアコンをラック用に現場に持ち込んだ人もいました。







18:51に、彼らはグリコール回路に水道水を補充し始め、システム内の圧力を徐々に作動させました。

19.45に緊急旅団が到着しました。

19.53にポンプが起動しましたが、3つのチラーのうち1つだけが起動しました。 もう1つはファンに損傷を与え、3つ目はフロン回路も備えていました。







これらすべてのエクササイズを行っている間、グリコールの温度は動作値(7〜12°C)から20度まで上昇しました。 1台のライブチラーが過負荷で動作し、2つの回路の1つが定期的に誤って停止しました。 その後、リモコンのエラーを手動でリセットする必要があり、5分後(保護間隔)、コンプレッサーが起動しました。 または開始しませんでした。 その後、再起動してチラーの電源を完全に切ることができました。







その時点でオフィスにいた全員が、「飛んでいる」スクラップ金属からのチラーの解放に参加し、接近した緊急旅団を助けて、殺された二人のチラーから別の労働者を集めました。









資本建設のディレクターは背中を引き裂き、チラーから鉄骨を投げました。







冷却されたフレオンチラーからファンが取り外されました。 パワーリフティングなしではない-各ファンの重量は30 kg未満です。 午後11時までに、少なくとも彼らは2番目のチラーを収集して起動し、ホールの温度はゆっくりと下がり始めました。







その時までには暗かったが、最も興味深いのは始まったばかりだった。 チラーは、コンプレッサーの過熱のために保護のためにノックアウトされ始めました。グリコールの温度は、ほとんどの顧客が切断されたにもかかわらず、依然として高かったです。







プロダクションマネージャーは、夜間に作業できるように、ケルヒャー、ホース、ヘッドランプを購入しました。 チラーコンプレッサーに冷水をまきましたが、これはあまり役に立ちません。コンプレッサーは1トン以上の重さの鉄片であり、すぐに冷却できないからです。 これで、チラーが誤って停止した場合、5分ではなく、コンプレッサーが冷えてコンプレッサー過負荷エラーが消えるまで数十分かかりました。









いずれかのチラーによって順番に表示されたエラーメッセージ。







夜遅く、私たちが恐れていたことは、事故で、両方のチラーが同時に停止し、それらをまとめることができなくなったことです。 第1および第2チラーの4つのユニットのうち、1つまたは2つが機能し、残りは過負荷のためにcom睡状態になりました。 ホールの温度は約30度で止まりました。 エンジンルームへのすべてのドアが開いていました。 これにより、蓄積された熱をなんとかして取り除くことができました。







請負業者と一緒に、チラー回路の研究に行きました。 多くの重苦しい考えの後に、彼らは私たちの責任の下でできないことをすることを提案しました:ジャンパーを設定することによって保護をバイパスする、すなわち 熱保護リレーを短絡させます。 それは最終的にコンプレッサーを殺す直接的な方法でしたが、他の選択肢はありませんでした。 午前3時にチラーが起動し、停止しませんでした。 寒い廊下の温度は、SLAに沿ったものになり始めました。









事故の始まりからその解消までの寒い廊下の温度の変化。

1-すべてのチラーの最初の停止時間。 2-最初のチラーの開始時間。 3-2番目のチラーの開始時刻。 4-チラーの繰り返し停止。 5-熱保護が無効になっているチラーの起動。







この怒りの始まりから、初めて私たちは息をひそめる機会を得て、少しリラックスしたモードで、次に何をすべきかを考えました。 予測によると、明日、彼らは再び暑い日を約束し、私たちは仮釈放に取り組んでいる2つのチラーを持っています。







二日目



翌日の朝、私たちは即興の灌漑システムを設置しました。私たちは屋根に水道管を持ち込み、庭のホースに穴を開けました。







水文気象センターはだまされませんでした:再び30°Cで焼かれました。このシステムと膝に集められたカーチャーから、私たちはほとんど停止することなくチラーに水をやりました。









そして、これは歴史的なショットです。チラーは、現在は統合プロジェクト部門の責任者である勤務中のネットワークエンジニア、グリゴリーアトレピエフによって救われています。







グリコールの温度は正常に戻りました。 合計で、このモードで3日間働き、その後、コンプレッサーの熱保護が回復しました。 3番目のチラーの壊れたフレオン管を数日間密閉し、排気してフレオンで満たしました。 破損したファンを交換するためのファンの供給を待っている間、3番目のチラーの半分しか機能しませんでした。









3番目のチラーのファンを交換します。 フリークーリング(フリークーリング)オプションを備えたEmicon RAH1252Fチラーは2つのモジュールで構成され、各モジュールには8つの軸流ファンとBitzerコンプレッサーがあります。





















燃料補給フロン。









翌日、裏庭の眺め。 長い間、彼らは金属くずを取り出しました。







次に起こったこと



チラー。 損傷は深刻で、修理にもう少し時間を費やしました。 いじめを経験した後、コンプレッサーは約1年間続き、その後故障し始めました.2台のチラーの場合、保護が影響を受けずに動作し、3台目のチラーでは、フロン回路の充填で急いでいるように見えました(十分に真空をかけず、湿気の痕跡を残しました)。 まだ生きているフレオン回路から採取されたオイルサンプルは、高レベルの酸性度を示し、モーター巻線の差し迫った端を示しています。 事故後2年目に、影響を受けた機械のほとんどすべてのコンプレッサーを交換しました。 彼らはコンプレッサーの1つを修理して巻き戻しを試みましたが、修理後数ヶ月続き、再び燃え尽きましたので、将来新しいものを購入するのが良いと考えました。







グリコール回路に補充した水は、システムの耐霜性に影響しませんでした。 測定により、エチレングリコールの濃度は十分なレベルにとどまっていることが示されました。







チラーは宣言された冷凍能力を提供しなかったため(そしてデータセンターが一杯になるとITの負荷が増大したため)、暑さの中にそれらを散水し続けなければなりませんでした。 熱交換器は水処理に耐えられませんでした。長年にわたって石灰質の堆積物が生い茂り、フリークーリング熱交換器とフレオン凝縮器の間の隙間に汚れが蓄積しましたが、建設では除去できませんでした。 数年後、3つのチラーのうち2つを交換し(今回も負傷者のいない魅力的な物語になります)、残りのものはフリークーリング熱交換器を遮断しました。 現在、OSTサイトでは4つのチラーが稼働しています。2つのStulz、Hiref(データセンターの成長時に追加)、1つの古いEmiconです。









2017年のOSTサイトでのチラー。







お客さま この搾取者の悪夢にもかかわらず、顧客は私たちの不幸を理解して扱い、誰も私たちを離れませんでした。







チラーの保険を取得し、影響を受けた顧客に報告するために、彼らは地元のハリケーンについて水文気象センターから長い間証明書を取得していたことを思い出しました。







組織の結論



そのような不可抗力に事前に備えることは困難ですが、事故から正しい結論を引き出すことが重要です。 汗と血によって得られた我々のものは以下の通りでした:







  1. モスクワにもハリケーンがあります。 これは今や1日または嵐の警告であり、それは新しいものでした。 その事故の後、サイトまたはデータセンターの完成した建物を選択するとき、私たちは特に危険なほど近くにある条件付きの小屋や他の薄っぺらな建物を注意深く探します。 もちろん、隣人は私たちの厳しい管理下にある私たちのチラーに飛び込んだ屋根をブロックしました。







  2. 私たちはスペアパーツ(ファン、コンプレッサー、フレオンの在庫など)を自分で購入し、自宅に保管し始めました。 少なくとも予備のファンが設置されていれば、復旧は速くなります。 その時、適切な量の配達は数週間待たなければなりませんでした。







  3. Willy-nilly、デバイスチラーを見つけました。彼らは私たちにとって「ブラックボックス」ではなくなりました。 素晴らしい冷蔵庫が壊れることを止めなかったので、これは後で私たちにとって有用でした。







  4. 屋根に水を使いました。 新しいデータセンターの場合、デフォルトでこれを行います。 水は、秋冬のシーズン中に蓄積したほこりからチラーまたは室外機を洗い流すのに役立ち、夏のポプラの毛羽立ちを防ぎ、異常な熱の状態で冷気供給システムの生活を楽にします。







  5. 彼らは監視を強化し、可能なすべてのものを測定し始めました:いくつかのポイントでの圧力、ポンプの状態、順グリコールと逆グリコールの温度、チラーの電力消費など。 そのような状況では、アラートは問題をより早く検出し、より迅速に対応するのに役立ちます。







  6. 監視センターからチラーのリモート制御をセットアップします。







  7. クロックはすべてのシステムで同期されているため、事故を分析するときに、イベントの発生を明確に把握できます。







  8. 彼らは、機器メーカーによって発表された数字を、懐疑的にさえ、非常に注意深く見始めました。 チラーの能力は単なる数値ではなく、街路の空気と冷却液の温度に複雑な方法で依存し、通常のように、最も必要なときに熱が最も低くなります。


また、すべての主要なプロセスを実行するために特別な注意を払い、文書化して、到達可能なすべての図を添付し、定期的な軍事演習を導入しました。 また、明日何らかのハルマゲドンが発生した場合、当社のデータセンターは、即興のジャンルで3.5人ではなく、明確で十分に開発された指示を備えた大規模で経験豊富な運用サービスを節約します。 これにより、増え続ける7つのデータセンターのネットワークを管理できるだけでなく、Uptime Instituteのような最も尊敬され、厳格な組織の監査と認証に合格することができます。







また、サーバー/データセンターはどのような自然災害を経験しましたか?また、自分にとって有益な結論は何ですか?








All Articles