運用慣行:TIER-IIIデータセンターのダウンタイムなしで1000日間



バッテリージャンパー接点の酸化により熱が発生しました。 バッテリー端子とジャンパーチップの間に発生したため、外部検査では酸化の兆候は示されませんでした。



数週間前、同僚と私は小さな休暇を過ごしました。サービスダウンタイムなしで1000日間のデータセンターの連続稼働。 ある意味で-顧客の機器に影響を与えることなく、システム上で定期的かつそれほど多くの作業をしません。



以下に、同僚と私が責任を増すデータセンターにどのように役立つか、そして落とし穴について説明します。



メンテナンス作業



年の初めに、翌年の定期的なメンテナンスと予防修理のスケジュールが作成されます。 これは車のメンテナンスに似ています:作業、ノード、頻度、これに必要な人が規定されています。 ノードの次のノードは、検査、確認、クリーニング、および呼び出しが必要です。 このような定期的な作業の中で、私たちがほぼ3年間で行った最大のことは、チラーとコンプレッサーの部品の熱交換器を交換することでした。 そこにN + 1の冗長性があるため、シフトが機能し、すべてが正常であること、1つのユニットがオフになっていること、交換があったことを確認してから、ユニットをテストして運用に戻しました。



小規模な交換品のうち、ライン、ファン、さまざまなコンデンサのUPSバッテリーを予防的に交換することは注目に値します。 私たちのサイトでコンデンサを使用すると非常に便利です(上記のように、サーマルイメージャーでボードの写真を撮って、何が加熱されているかをすぐに確認できます)。 上の写真では、回路を鳴らしたところ、計算された容量からコンデンサが2回失われ、すぐに交換されたことがわかりました。





お祝いの責任



サーマルイメージャーが駆動します。 ここで、充電の過程で、故障したバッテリーの温度が通常よりも高くなりました。



重要なシステムの定期メンテナンス中に、お客様に通知します。 一般に、これを行うべきではありません(TIER-IIIとその機器への影響の欠如により許可されます)が、データセンターの責任は増大しているため、警告するのが適切な形態であると考えています。 指定された時間に、予備ユニットのスイッチがオフになり、専門家が点検し、点検し、必要に応じて清掃し、潤滑剤を交換し、他の作業を実行します。



これは、運用チームが行います。運用チームは、データセンター専用の特別なトレーニングを受けました。 チームは、シフトのスペシャリスト(派遣者)と、週末と休日の通常のスケジュールで作業するエンジニアで構成されています。 全員がトレーニングを受け、一部はディーゼルシステム、一部はUPSの操作、一部は換気に関するトレーニングを受けました。 チームには一時的に請負業者の専門家が含まれる場合がありますが、現場の作業を監視するための適切なトレーニングを受けたエンジニア(顧客データセンターのフィールドサービスグル​​ープなど)が常に同行します。



定期メンテナンスの所定のスケジュールは、ノードに障害が発生した場合に変更できます。たとえば、交換があった場合、新しいノードが対応するリソースを開発するまで検査は延期されます。 しかし、実際には、このようなスケジュールの変更が発生しなかったのは、Compressorサイトだけでした。



チームは定期的に電気安全性およびその他の業界規則の再認証を通過しています。 私たちは定期的にトレーニングアラームを「紙の上」で実行するか、人々をホールに連れて行き、「それはあなたがすることですか?」と言います-そしてタイムアウトします。 3Dスクールの同僚はすでに写真用の完全なデータセンターシミュレータを作成しています。まもなく、それをアラームのトレーニングに使用できるようになります。 さて、またはカウンターストライクでそれを運転-まだ決定していない。



すべてのノードに接続し、そのステータスをディスパッチャに提供する監視システムがデータセンターに展開されました。 さらに、1日4回、物理的なツアーと機器の目視検査が必要です。 監視システムに障害が発生した場合、迂回の回数を増やす指示があります(定期保守中に便利だったため)。



緊急対応



緊急の場合、指示のパッケージがいくつかあります。



  1. コントロール内のディスパッチャには、何をすべきか、段階的な緊急計画があります。 それは、可能な限りシンプルで明確なものとして定式化されています。 たとえば、何かを切り替える、緑色のランプが点灯することを確認する、何かを切り替える、そこで何かを確認する。
  2. 同じプランが、説明されているノードのすぐ隣にあります。 理論的には、管理者(保守チームの一部ではない)でも重大な状況で指示を実行できますが、実際には、通常、管理者はエンジニアリングルームにアクセスできず、すぐに切り替える権利もありません。 ディスパッチャは、職場と故障したノードの近くの両方で指示を確認できます。 ディスパッチャの準備の一部は、スイッチがどこにあるかを心から知ることです。 それにもかかわらず、彼が混乱している場合は、常に近くにスキームがあります。
  3. ファイアシフトには独自の指示があります。 彼らは定期的な訓練も受けていますが、主なことは、施設に常に2人の消防士がいて、火災、煙、または始動ガスの場合に酸素マスクと特別なスーツを着て、列車の部屋を歩き回ることができることです。 消防士や派遣シフト以外の専門家も、IT専門家、警備員など(誰がどこに走り、誰と会話するか)など、他のサービスとの相互作用を示唆する特別な指示を持っています。 たとえば、火災時には、消火システムのガスが酸素を効果的に置換し、計器でホール内を移動することしかできないため、全員がホールを使い果たす必要があります。

  4. ディスパッチャには、事故の場合のエスカレーションスキームもあります。誰に通知するか、どのくらいの速さで、どの順序で、請負業者に電話する必要があるか、誰に電話するか。
  5. 質問や緊急事態が発生した場合に連絡する特定の専門家の電話番号の短いリストも、常にディスパッチャが利用できます。 ボリュームを最小限に抑えるために、通常の緊急指示にエスカレーションスキームと電話を追加しません。すべてを個別の「緊急封筒」に配置します。





実践事例



彼らはしばしば食事やミネラルウォーターのボトルを持ってデータセンターにアクセスしようとします。 規則に従って、私たちはお客様と請負業者を、当社の専門家のみが同伴するホールやその他の重要な施設に入れます。 月に1回程度、リンゴ、サンドイッチを取り上げて、アウターウェアについて議論します(寒さにもかかわらず、ルールに従ってセーターを最大にしか入れないので、何も突き出たり揺れたりすることはありません)。 幸いなことに、人々は通常理解して同意します。 異常が発生した場合(たとえば、顧客が非常に埃っぽい料金を払おうとしたり、床から髪が抜けた少女が顧客から来たりする場合)、ディスパッチャは担当者に電話をかけ、緊急事態の規則に従って行動を明確にします。



かつてそのようなケースがありました。 電気通信事業者の設置者は、ケーブルを都市や井戸から引き抜きました。 そのときちょうど雨が降り始め、ブーツの中の泥の塊が2つ、私たちの施設に到着しました。 これらの美しい人々は制御区域に入り、ケーブル敷設のルートに関するすべての詳細を含む外部形質の豊富な痕跡を残し始めました。 もちろん、仕事は延期されなければなりませんでした-彼らは単にきれいな作業服を持っていませんでした。



各着信は指示されています。 顧客のスペシャリストは、原則として、単にオブジェクトの動作についてです。 エンジニアリングスタッフ-人が行くノードや部屋、特に避難方法に関する追加説明。



この間、Compressorでの偶発事象はほとんどありませんでした。 覚えられることから、2つのケースに注目する価値があります。



初めてケーブルを引っ張ったときに請負業者に問題がありました。 事実、全国に約100の構築および保守されているデータセンターの経験から、プロバイダーから理想的なインストーラーが存在しないことがわかっています。 時間が必要でなく、遅かれ早かれ、ケーブルを敷設する際に、隣接するケーブルが損傷する危険があります。 各通信事業者が異なるケーブルチャネル(独立したルート)を介して小さなリングを配置できるように、「コンプレッサー」に個別のエントリが作成されました。 正当な理由で保険に加入していることに気付いたとき:十分に訓練されていない設置者は、過失により他人のケーブルを切開しましたが、何も起こりませんでした。



二度目は彼らが火からラックを私たちにもたらした-すべてがすすで、特定の匂いがした。 ディスパッチャは緊急事態に対応しましたが、まだラックをジムに持ち込むことはできませんでした。 第一に、汚れ、そして第二に、匂いは潜在的に危険です-紛らわしいです。 彼は次の管理者について心配するだけですが、私たちのチームはそれに慣れることができ、これは非常に望ましくありません。 ちなみに、ガス分析器は臭いには反応せず、ごく微量の煙にしか反応しないため、問題はありません。



繰り返し作業



施設は定期的に清掃する必要があります。 過剰な圧力があっても、クリーニングは神聖です。 部屋と作業の種類(ドライ、ウェット、またはウェットクリーニング)が規定されているスケジュールと規則性があります。 施設のタイプに応じて、クリーニングはエンジニアまたはディスパッチャを伴うクリーナー、または許可を得た当社のスペシャリストによって行われます。 ホワイトスペースでは、清掃は週に1回、厳密に責任者が行います。 エンジニアリングレベルでは、機器はクリーニング中に開きませんが、定期メンテナンス中にクリーニングされます。



週に一度、ディーゼルの打ち上げが行われます-無負荷運転のみです。 全負荷のディーゼルエンジンがあります。 燃料の交換手順はありません-それはさりげなく開発されています。 ところで、私たちはいつも冬を埋めます。 定期的な水管理-特別なペーストがチェックされ、さ​​らに分離が管理されます。



標準的な手順に従って機器を出し入れするには、承認に1日かかります。 ただし、障害が発生した場合は、このプロセスを短縮します。重要なシステムの修正に干渉しません。



ラックと設置には独自の内部要件があります。 そのため、設置の精度を制御できます(たとえば、ケーブルがラックから落ちないようにすることが重要です。そうしないと、フェンス内でもフックが発生する可能性が高くなります)。 通常、このような要件は問題を提起しません。



どのような種類の電力が必要であるかが明確な場合、ラックの注文時にケーブルが故障します。 ケーブルは、インストールの前後にチェックされます。 他のサイトにアクセスすると、注文したコイルが届く場合があり、巻き戻した場合でも、インストーラーは何か悪いものを疑い始めました。 チェック済み-はい、断熱材は抵抗を引き込みませんでした。 コイルを返して、新しいコイルを待つ必要がありました。 一般に、このような状況は珍しくなく、ケーブルは受信後すぐに確認する必要があります。



ビデオ監視



データセンターでは、通常のビデオ監視と顧客カメラの両方を使用しています。 銀行、保険、小売店があるため、ラックの別のブロックが金属製の格子で囲まれ、ロックされていることがあります。 お客様は、顧客担当者と一緒にしか入ることができません。 そのため、すべてのシステムはそのようなフェンスの境界を越えて移動されました。



ほとんどの場合、顧客はカメラをラックに設置しますが、たとえば、ケーブルベアリング構造に取り付けるように依頼することもあります。 特に、他の人のラックがフレームに落ちないことを確認して、場所を評価します。 原則として、場合によっては最小限の位置修正で許可します。



事前に会場で観察を設定しました。 ラックは異なりますが、ランクを壊すほど大きくはありません(この地域の暑い廊下と寒い廊下は建物の構造によって決まります)。 一般に、機器の配置を計画する場合、計算といくつかの承認はすべてのサブシステムに必須です。 同時に、機器自体がチェックされます。たとえば、ラックが正しい方向に吹いているかどうか、コールドピックアップが行われているかどうか、ホットダウンは行われません。















参照資料



データセンターの写真ツアー

インフラについて

工事について



そして、私は、グリッチなしで1000日間に注意する価値があり、故障が起こったらすぐに誰かにそれを伝える価値があるという事実についての古い兆候がうまくいかないことを願っています。 すべきではない)



All Articles