データセンターのリスク:冗長エンジニアリングシステム

壊れる前に修理を開始する必要があります-壊れたものは修理するのがはるかに消極的です。

ユーリ・タターキン

信頼性の高い壁と屋根がデータセンターに提供されたら(記事「データセンターのリスク:場所の選択」 )、フォールトトレランスを確保するための次のステップは、エンジニアリングシステムのバックアップです。 10年以上にわたってデータセンターを構築したとき、すべての顧客が基本的な通信の重複の重要性を完全に認識しているわけではないと確信しました。 宇宙船は減ってきており、データセンターの機器は年中無休で24時間稼働するのが理想的です。 故障している部品やメンテナンスが必要な部品は、すべての重要なサービスを中断することなく交換する必要があります。



読者が正しく指摘したように、すべての企業が信頼できるデータセンターを必要とするわけではありません。 一部の人にとっては、そのスムーズな操作は心配の問題ではなく、多くはパブリッククラウドにデータを保存することを好みます。 この公衆は、何らかの理由で、通信チャネルのセキュリティまたは開通性を、自身のデータセンターおよび少なくとも3ナインの可用性レベルのサービスの仕事(ダウンタイムが年間1.6時間以下)を優先して選択した人々を対象としています。 。



耐障害性と冗長性:世界の経験は何と言っていますか?



Uptime Instituteの標準によると、データセンターインフラストラクチャのフォールトトレランスには4つのレベルがあります。





Tier分類を使用すると、ディーゼル発電機の燃料供給まで、すべてのエンジニアリングシステムとデータセンターコンポーネントが全体として認識されます。 少なくとも1つの非冗長コンポーネントが存在すると、フォールトトレランスのレベルが低下し、データセンターのダウンタイムが増加する可能性があります。 このようなコンポーネントの数、および年間のデータセンターの計画的および計画外の障害に関する統計は、許容されるダウンタイムに影響します。 たとえば、ティアIデータセンターは、年間1.2回の計画外停止によって特徴付けられます。 さらに、バックアップシステムがないため、データセンターは、スケジュールされたメンテナンス中に12時間、さらに2回動作しません。 その結果、合計ダウンタイムは次のように計算されます:12 + 12 + 4x1.2 = 28.8時間。



フォールトトレランスの割合を計算するには、次が必要です:((t work-t downtime)×100%)/ t work、ここで

t work-1年あたりのデータセンターの最大時間数(1日24時間、1年365日)。

tダウンタイム-これは、年間のデータセンターの計画ダウンタイムです。



バックアップ方法を分類する場合、N + 1、2N、および2(N + 1)のスキームを区別するのが一般的です。 2Nと比較してN + 1およびN + 2スキームを使用すると、予算を大幅に節約し、適切なレベルのフォールトトレランスを実現できます(システムのすべての要素が一度に失敗することはほとんどありません)。 ただし、確率論によれば、作業単位(N)の数が増えると、システムの可用性が低下することを覚えておく必要があります。 多数の要素(無停電電源装置などの大きなN)の状況では、システムの各コンポーネントが完全に複製されている場合、2Nスキームを使用する方が適切です。 これにより、耐障害性が大幅に向上し、ダウンタイムが短縮されます。 同時に、N + 1も2 Nもシステム全体を予約しないため、予約されたシステム要素間のエリアでの事故の危険性を排除しません。 したがって、Tier IVでは、それぞれ完全に複製された2つの独立した回路、2(N + 1)を使用することをお勧めします。



無尽蔵のエネルギー



データセンターの信頼性の高い運用の基盤は、電源です:無停電(無停電電源-UPS)および保証(ディーゼル発電機セット-DGU)。 都市ネットワークの電圧が消失した時点で、UPSはDGUが完全に起動するまで機器の電源供給をサポートする必要があります。これにより、データセンター全体に電力が供給されます。

データセンターが電源の不在下に立たないようにするには、まずUPSを予約し、次に定期的なメンテナンス作業を実行することが非常に重要です。



1つのUPSのみがもたらすリスクは一般的に理解できます。 最良の場合、ソースをテストすることはできません;最悪の場合、単純なデータセンターを取得します。 ただし、複数のUPSが存在しても、行動の自由が与えられない場合があります。 そのため、データセンターのソースの1つの組織には2つの組織がありましたが、それぞれが独自のサーバーグループのみを提供し、互いの予備として機能していませんでした。 保守中、サービスエンジニアは背中をつかみました。 落ちて、彼はどういうわけかUPSの出力を消しました。 そして、卑劣な法則によれば、1日の仕事の最中にオフになったソースは、最も重要なアプリケーションを持つサーバーのグループの電源を切りました。

ディーゼル発電機(PB)の「戦闘」起動-外部ネットワークが消えたときに自動モードでディーゼル発電機を起動する可能性を確認します。 これは、データセンターの外部電源の完全なシャットダウンをシミュレートすることにより行われます。 電源を切ってからディーゼル発電機サーバー機器が起動するまでの時間は、UPSバッテリーで動作します(通常1〜3分)。


負荷下でのディーゼル発電機の起動(PN)-接続されている機器の電力をサポートするディーゼル発電機の能力を確認します。 これは、起動して通常の操作が完了した後、発電機の負荷を手動で切り替えることにより(コントロールパネルを使用して)実行されます。 ABPの切り替え時、サーバー機器はUPSバッテリーで駆動されます(約0.3〜1秒)。 ちなみに、モータードライブを使用して負荷をディーゼル発電機セットに切り替えることをお勧めしますが、動作は遅くなりますが、寿命と信頼性は高くなります。


不要なダウンタイムを防ぐために、定期的な包括的なサービス作業が必要です。 データセンターの1つでは、ディーゼル発電機セットに関してのみチェックが行われました。 UPSは定期的に10分間の自律性を示しましたが、誰もそれを提供しませんでした。 その時までに、バッテリーの寿命は5年を超え、戦闘開始の1つで、彼らはたった29秒しか解決できませんでした。 DGUが起動し、わずか33秒後に負荷をかけることができました。 さらに、すべての機器に1台のUPSが搭載されていました(予算の制約により、実装段階で2台目のUPSを拒否することが決定されました)。 その結果、データセンターが低下します。 すべてのコンピューティングシステムの完全な復旧には、約12時間かかりました。



主な間違い:

•2番目のUPSの実装段階での障害。 困難な時代は終わりましたが、2番目のUPSは購入されませんでした。

•データセンターのすべてのエンジニアリングシステムの包括的なメンテナンスの欠如。 UPSの定期的な保守により、それらの不満足な状態が事前に知られるようになります。

•データセンターの計画的なメンテナンスに関する規制の欠如と運用中の混乱。



現在の移行パス



UPSは予約され、定期的に修理されていますか? よくできましたが、そこでやめないでください! また、データセンターの電源のケーブルラインを予約し、2つのATSを設置します。これらは互いに完全に予約されます。 理想的には、異なる独立した電気パネルに接続する必要があります。 極端な場合、1つのパネルボードから2本の線を引き伸ばすことができます。これにより、お客様のような状況が発生しなくなります。



小規模ではあるが重要なデータセンターにディスパッチシステムを導入する場合、メイン入力に変流器を設置する必要がありました。 問題は、入力が1つしかなく、データセンターの電源を切ることができないことでした。 すべての準備作業の後、電源がオフになりました。 データセンターの機器がバッテリーで動作している間、インストーラーは疲れを知らずに作業し、エンジニアは額から汗を拭き取り、UPSディスプレイの時間を数えました。



主な間違い:

•設計中に派遣システムが不当に忘れられていた。

•データセンターの電力線は予約されていません。



暑くなった



チラー-ファンコイルシステムは、中央冷凍機(チラー)とローカル熱交換器(ファンコイル)の間の冷却液が、比較的低圧で循環する冷却液体である空調システムです-通常の水(熱帯気候)またはエチレングリコールの水溶液(で温暖で寒い気候)。


空調システムの予約を忘れないでください。 過去2か月間、チラーとドライクーラー間の冗長ルートを使用せずに、チラーファンコイルシステムを使用したデータセンター冷却の2つのプロジェクトを見てきました。 現実の世界でこのソリューションを高い確率で使用すると、シンプルなデータセンターにつながります。 クーラントの交換の場合(これは珍しいことではありません)、バックアップルートのみが冷却システム、したがってデータセンター全体の操作性を維持できます。



もう1つの非常に重要なポイントは、外部と内部の冷却回路の分離です。 そのため、7階の屋根の1つのプロジェクトで、2トンのチラー、冷蔵タンク、強力なブースターポンプステーションを設置することが提案されました。 屋根から地下にあるデータセンターの冷却ユニットへの200メートルの長さの供給と返却が直接計画されました。 その結果、パイプの小さな破損や内部冷却ユニットの接続のゆるみがあっても、圧力のかかった10トンのエチレングリコールはすべて、顧客のデータセンターと電気パネルにあふれることがあります。



コンピューティング機器だけでなく、主要なエンジニアリングシステムもバックアップすることを忘れないでください。データセンターを永久に稼働させてください。



All Articles