データセンターの運用:自分で行う必要があること



請負業者が実施したUPSのメンテナンスをチェックリストで確認します。



こんにちは、Habr! 私の名前はシリル・オブ・シャッドです。 次に、データセンターとサーバーを設計および構築します。 それ以前は、DataLineデータセンター運用サービスを長年にわたって務めていました(当時、約3,000ラック)。 私はチームとともに、管理と運用に関するアップタイム監査に100点満点の92点で合格し、同僚もNORD 4認定に参加しました。および請負業者。







データセンターを単独で、または請負業者だけで操作することは困難です。 私の経験の中で、純粋な形の単一のオプション、主にある種のハイブリッドに出会ったことがありません。 あなたのチームが何をするか、請負業者は何であるか、各企業は、財政、利便性、資格のあるエンジニアの利用可能性(トゥーラでDDIBPの専門家を探してみてください)、そして時には政治に基づいて自らを決定します どんなに素晴らしい請負業者であっても、自分に任せるのが一番いい瞬間があります。 以下でそれらについて説明します。







データセンター/サーバーの全体的な操作は何ですか



自分のチームと請負業者の間で操作を共有する前に、このプロセスに含まれるものを思い出します。 各項目については詳しく説明しません。このトピックでは、本全体を書くことができます。 技術的および組織 的に条件付きで分割できる主要なポイントのみを強調します。







技術的ポイント:









組織のハイライト:









請負業者に提供できないもの



技術的な部分で書かれたすべてのものは、外部委託することができ、時には外部委託する必要があります。 この場合、請負業者を管理および制御する機能のみがあります。 誰があなたの側でこれを行うべきか、私は少し低いと言います。







組織コンポーネントでは、より困難です。 このリストのほとんどすべてを個別に行う必要があります。 理由を見てみましょう。







記録保持 。 運用チーム全体がアクションのプロセスとアルゴリズム(たとえば、ディーゼル発電機セットのテスト方法)について同じ考えを持つようにするには、規制と指示が必要です。 また、「神聖な知識」が病気のエンジニアまたは辞めたエンジニアVasyaとともに消えないように。 理論的には、ドキュメントは請負業者に委託することもできます。特に、すべてのサーバーエンジニアが紙片を処理できるわけではないためです。 しかし、真実は、誰もあなたよりもあなたのプロセスをよく知らないことであり、すべての変更を追跡し、サイトの継続的な作業なしにドキュメントの関連性を維持することは、「ミッション不可能」というカテゴリに属します。 または、請負業者と一緒に、ドキュメントを作成し、その場でその関連性を監視することができます。







統計の収集と分析 。 状況は前の段落とほぼ同じなので、ペン/キーボードを使用して、各エアコン、DGUの「医療履歴」を系統的に書き留め、さらに機器のリストに書き留めます。 四半期、半年、または少なくとも1年に一度、そこを見て、故障の頻度と頻度を把握します。 この情報は、運用の予算を準備し、予備部品を計画するときに役立ちます。また、修理がもはや役に立たず、完全に変更する必要がある機器があるかどうかを判断するのにも役立ちます。









エアコンの故障と故障の種類のリスト。







IT機器のインストールと電源管理を制御します 。 多くの人はそれを忘れていますが、無駄です。 ITスペシャリストは、無料のユニットを見て、このラックに十分な電力があるかどうか 、冷たくて、一般的に正しく取り付けられているかどうかを見ずに、機器に引っかかった。 そして、運用エンジニアへの苦情はすべて、電源の点滅(1台の電源装置を備えたサーバーがATSまたは両方の電源装置を同じPDUに接続していないため)またはローカルの過熱による機器のブレーキに関するものです。

この領域の問題の数を減らすには、明確な指示を行い、機器のインストールに関係する人のチェックリストを作成し、IT機器のインストール方法を定期的に確認します(特に、部屋の負荷が50%を超える場合は注意してください)。 検査の頻度は、機械室に新しい機器が現れる頻度に依存します。









新しい機器の設置要求を処理するためのアルゴリズム。







作業計画(保守および作業指示書) 。 請負業者と協力して、スタッフの作業負荷に基づいた作業スケジュールに同意します(1週間ですべてのシステムで作業がなくなるはずです)。 また、作業指示書を発行し、請負業者と作業の受け入れの形式(証明書、チェックリストなど)を調整します。







予算編成 。 自分でやりましょう。 使用方法に応じて、毎月、四半期、またはすぐに1年間、運用または投資します。 予算編成については、独自に書きます。 請負業者に渡すと、予算はどうなるのでしょうか? 正しく、ほとんどの場合、彼は成長します。 これは請負業者のmerc兵の意図からでさえ起こらず、単にあなたがそうするように彼が貯蓄についてそれほど気にしないからです。







上記のすべてをなんとかして請負業者に提供したとしても、足をテーブルに置いて請求書を支払うだけではうまくいきません。請負業者は訓練を受け監督する必要があります。







請負業者は最初に教える必要があります 人生の データセンターとサーバーでの作業ルール。 さらに、「飲んだり、煙を吸ったり、rowいたりしないでください」と、技術的なニュアンスがあります。 たとえば、請負業者は、エアコンのメンテナンス中に一度に複数の接続を切断することは不可能であり、接続を解除する前に、残りの空調が正常に機能していることを確認する必要があることを確認する必要があります。







施設へのアクセスの制御もあなたの肩に残ります。 リストの関連性、オブジェクトへのアクセスのスケジュール(24時間営業または営業日のみ)、電気安全のためのクラストの存在、およびその他の必要な証明書を確認します-あなたとあなたのタスクのみ。







一般的に、請負業者ではなく、あなたが最終的にサーバーまたはデータセンターのパフォーマンスに責任があることに注意してください。









請負業者向けのデータセンターの作業規則からの抜粋。







「チーフエンジニア」-すべてを担当



運用サービスの人数は、宣言されたSLA、インフラストラクチャの量、および自分で計画する量によって異なります。 普遍的な公式はお伝えしませんが、信頼できるものは次のとおりです。







どのモードでサービスを提供しますか? 24時間年中無休の場合は、4交代で勤務する少なくとも4人のスタッフによる24時間のサポートサービスが必要です。 8x5の場合、人々は半分を必要とします。







何人のエンジニアが必要ですか? ここでは、多くが機能に依存します。 監視に従う必要がある場合、迂回する必要がある場合は少なくとも1人で十分です(少なくとも2人)。 手で何かをする必要がある場合(プルクロスオーバー、機器の取り付け、エアコンのフィルター交換)、3つ必要です。







スペアパーツや消耗品を家に置いていますか? ほとんどすべてを保管する場合は、残高を監視して新しい残高を注文する店主または購入者が必要になります。







これがNORD 2720ラックサイトのチームの外観です。











投稿の名前と人数はケースごとに異なりますが、どのような状況でも1つの機能が存在する必要があります。 これは責任を持つ機能です。 従来、私はこの役職を「最高技術者」と呼んでいます。 私たちの階層では、これが運用責任者です。 その主な機能は、議論されていない決定を下すことです:緊急コールのために請負業者に電話する必要があるかどうか、バックアップエアコンの修理を延期することが可能かどうか。 また、メンテナンス中に機器の電源をオフにするコマンドを提供し、緊急の修理作業、予定外の購入を調整し、事故の場合にデータセンターを救助するための操作を管理します。 運用エンジニアまたは請負業者がディーゼル発電機セットのテスト打ち上げで突然パワーエンジニアに同意できない場合、仲裁裁判所のように対処できます。







一般に、「チーフエンジニア」は、ビジネスまたは顧客の運用およびエンジニアリングインフラストラクチャ全体の最終的な責任を負います。







まとめると。 データセンターまたはサーバー運用サービスの最小プログラムは次のとおりです。









質問がある場合は、個人のメールを書くか、7月4日に私の次のセミナーに来てください。すべてについて個人的に質問することができます。







データセンターとサーバーのエンジニアリングインフラストラクチャの管理に関する他の記事:







データセンターの電気の経路

運用段階でのみ発生するデータセンターの設計のエラー

データセンターの運用での書き込みについて

データセンターでDGUをテストする方法

データセンターのエンジニアリングインフラストラクチャの監視。 パート1.ハイライト

データセンターのエンジニアリングインフラストラクチャの監視。 パート2.電源システム

データセンターエンジニアリングシステムのメンテナンス:契約の内容

死ぬ方法の愚かさ、またはデータセンターが「落ちた」








All Articles