データセンター:アセンブリモデル

私の名前はSergey Kubasovです。Mail.RuGroupの副テクニカルディレクターです。 最近、DCDEフォーラムで、独自のデータセンターを作成および整理した経験について話しました。 今、私は発見をHabrの読者と共有することにしました。





どうでしたか



独自のデータセンターの歴史の初めに、空調と換気、ディーゼル発電機セット、無停電電源、電気の自動化、ガス消火システムを提供する5つのサービス組織と協力しました。 当時、これが最良のソリューションであると思われました。 「同じ人々」が構築され、悪用されています。つまり、彼らはシステムを知っています。



この方法で3年間働いた後、この動作モードで発生する可能性のある最も深刻なリスクのリストを要約してまとめました。 1つ目は過剰販売サービスです。 これは、請負業者が5時間以内に緊急事態に対応することを約束するが、事故が彼のクライアントの1人に起こった場合、この締め切りを遵守できない場合です。 たとえば、3つの施設にサービスを提供していて、2つですでに緊急事態が発生している場合、契約で指定された時間だけでなく、ある程度適切な時間にも3つ目に間に合いません。 ところで、モスクワの道路の地理的特徴と渋滞がここで役割を果たします。 どんなに頑張っても、2時間以内に、2時間以内に都市の郊外にあるオブジェクトに到達することはできません。



請負業者からのサービスの全範囲を使用する場合の2番目のリスクは、スペアパーツと消耗品の供給に関連しています。 請負業者からサービスパッケージを購入すると、請負業者は間違いなくコストの少なくとも10%を獲得します。 基準価格の50〜100%のマージンに直面していました。これに対して、「近くの店」で同じ部品を購入できます。 同時に、請負業者は配達を4〜6週間遅らせることで時間を節約しようとしましたが、現在は消耗品が時々必要だったり、緊急のスペアパーツが「緊急」のために高額で提供されたりしました。



最後になりましたが、最後になりましたが、重要な点は、長い協力の後、一部の企業はリラックスし 、状況がどれほど重大であっても、支払い後にのみ反応することです。 不可抗力が発生し、請負業者は、サービスのお金を振り込んで口座に到着した後(1〜2銀行日以内)に来てくれると言っています。 空調や電気のバックアップなしで放置された機器でこれがどうなるか、誰もが理解していると思います。



すべてのリスクを評価した後、独自の運用サービスを作成することにしました。



現在、Mail.Ru Groupプロジェクトは、5つのリースデータセンターと独自のデータセンターに配置されています。



スタッフィング:データセンターサービス



データセンター(総面積-2100平方メートル、建物内に約450のラック、最大4 MWの電力を消費できる機器)で、独自のデータセンターサービスシステムを作成しました。 条件付きで2つのコンポーネントに分割できます。



エンジニアリングシステムのメンテナンス -エネルギー供給、換気、ディーゼル発電機セット、UPS、消火システムなど。 この方向は、シフトエンジニアが勤務している主要な電気技術者と、施設全体にサービスを提供する空調および換気技術者によって導かれています。 誰に電話し、どのように逃げるのかを電話で考えずに、毎日のラウンドを実行し、インシデントに対応し、その場で障害を修復するのはこれらの人々です。 したがって、データセンターに緊急事態への即時対応を提供しました。 さらに、従業員自身がスケジュールされた作業と測定を実行し、システムの欠陥を修正し、施設の近代化を確実にします。



サーバー機器パークのメンテナンス 。 この方向は、ハードウェアエンジニアのサービスヘッドによって管理されます。 また、勤務中のシフトも含まれます。 その主なタスクは、応答を監視して提供することです。つまり、緑の信号ではなく赤が表示された場合、適切な指示を開き、そのような状況の責任者を見つけ、この人に連絡する必要があります。



データセンターの健全性を保証する監視



監視といえば。 データセンターの作業では、許容可能な指標からの逸脱を時間内に検出し、迅速に対応することが非常に重要です。 当然、ここでは有能な監視が重要な役割を果たします。 監視システム自体にサービスを提供するために別のサービスが必要な場合、システムの重要な要素すべてを監視し、技術のジャングルに迷わないようにしました。



電気



UPSはシステム全体の重要な要素であるため、UPSのステータスを複数の側面から監視します。 ここには、いくつかの制御システムがあります。 たとえば、ネットワークの状態が変更されると、SMSが障害に関する情報とともに運用サービスの管理チーム全体に届きます。 約6人がニュースレターを購読しており、そのうちの誰かが間違いなく対応し、誤動作を排除するための措置を講じます。



引き込み線の状態を監視するために、私たちはミサイル鉱山で使用されている、新しく絡み合っているが実証済みの軍事技術を使用しないことにしました。 これらはランプの通常のコントロールパネルです。緑のランプが点灯している-すべてが正常で、赤が点灯している-非常時。 高度な監視システムの場合、データセンターが破裂した場合に状況が発生する可能性がありますが、システム自体の修正に忙しいため、それを知ることすらできません。 また、コントロールパネル(数千ルーブルのコスト)は非常に信頼性が高く、簡単に壊れるものはありません!



温度と湿度



もう1つの重要なポイントは、データセンターの温度と湿度の制御です。 これらの指標の監視システムを開発し、最も安価なソリューションである統計情報を収集し、地図上で状況を視覚化するセンサーも採用しました。 箱入りのソリューションを使用しませんでしたが、約100個のセンサーを購入し、建物のどのコーナーにどの温度があるかを常に表示するシステムを組み立てました。 許容限度が変更された場合は、責任者にSMSを送信し、集中監視システムにアラートを発行します。



チェックリストと制限のバイパス



以前に回避策の指示があった場合、チェックリストを作成しました。 チェックリストは、ツアー中に何を見る必要があるかを述べ、各アイテムの下限と上限を示す紙です。 値が指定された制限を超えている場合の対処方法を説明する列もあります。 各検査の結果に基づいて、完成したチェックリストに記入します。 迂回は4時間ごとに行われます。 完成したチェックリストは日誌に提出され、いつでも調べて、昨日または昨春などの状況を調べることができます。 私たちの雑誌は最も普通の紙です。 電気工事に携わる人々は、ITテクノロジーから非常に遠い場合があり、指標を確認する必要があるため、このオプションをデータストレージに選択しました。 どんなスキルの人でも、シェルフからフォルダを取得し、開いて必要な情報を見ることができます。 緊急対応に対する別の障壁を取り除きました。



テクノロジーホール配置戦略とその他の発見



残念ながら、実際には、すべてがそれほどスムーズに進んだわけではありません。 データセンターを作成するとき、私たちは自分自身の苦い経験だけで多くのことを発見しました。 その結果、緊急事態や予期せぬ状況をすべて解決することができましたが、笑い声と震えが同時にあったいくつかのケースを今でも覚えています。



非常に深刻な結果につながる可能性のある奇妙なケースがありました。 たとえば、データセンターのエアコンの購入を請負業者に委託しました。 後に判明したように、請負業者は市場で大規模に提示されたものに焦点を当て、有名な会社のシンプルなソリューションの1つに落ち着きました。



適切なレベルの冗長性を確保するために、二重回路エアコンを使用しています。 定期的なチェック中に、あるエバポレーターで冷媒の沸点が正常で予想される+ 3°Cであり、もう1つのエバポレーターで-0.5°Cに下がることに驚いた。 つまり、私たちのエアコンは冷凍庫になりました。 さらに、これはいつでも発生しませんでしたが、特定の気象条件の下でのみ発生しました。







エンジニアは、吸気口に対するエバポレーターの位置を間違えたことが判明しました。エバポレーターは中心からオフセットされ、その結果、空気流と熱負荷が回路間で不均等に分配されました。 その結果、製造元の側からこのファイルを非常に簡単に修復しました-ケースの窓が欠けているのが見えました。







まとめ



すべての混乱と変化の後、私たちはあなたが前に夢見ることしかできなかったようなサービスを組織することに成功しました。 インシデントへの対応時間を2時間から5分に短縮し、スペアパーツと消耗品の調達を最適化し、メンテナンスコストを削減しました。



自社のデータセンターでは、エンジニアリングシステムを継続的に改善し、監視および派遣システムの近代化に取り組んでいます。 私たちはシステムを運用しているため、既存の欠点を分析し、それらを排除するための対策を講じる機会があります。



3年間、私たちは請負業者と独占的に仕事をしました。 2年前、私たちは独自の運用サービスを利用していましたが、満足しています。 もちろん、サードパーティのサービスを引き続き使用していますが、現在はリスク削減の枠組みの中で使用しています。 私たちには、施設全体を担当するエンジニアがいます。 何らかの理由でそのような人が勤務できない場合、各システムの最小コストでサービス契約に署名しました-必要に応じて、誰かに電話して助けを求めることができるようにします。



もう1つの大きなボーナスは、請負業者の仕事を管理するための資格と幅広い経験があることです。 私たちはデータセンターにサービスを提供しているため、統合ソリューションから溶接まで、サードパーティ企業の作業の品質を評価できます。 そして、もちろん、私たち自身で請負業者を選ぶ機会があります。 私たちはどのサービス組織にも縛られていません。自分で問題を解決することはできますが、第三者の会社に検査と修理を注文することはできます。



蓄積された経験をレンタルされたデータセンターに適用します。 それがあなたにも役立つことを願っています-あるいは、コメントであなた自身のものを共有したいかもしれません。



All Articles