UPS事故履歴

「データセンターの障害と事故」という問題のテーマを継続して補足し、原因と結果の深刻な分析を主張することなく、いくつかの観察結果を共有します。 読者には好奇心and盛でおもしろそうな瞬間があるかもしれませんが、起こったことはすべて非常に深刻でした。 これらのかなり有益な物語が読者が自分で結論を引き出すことを可能にすることを願っています。



教科書スクリプト



皮肉なことに、以下で説明する事故は、顧客と一般設計者が無停電電源装置への外部メンテナンスバイパスの設置を推奨する当社からの警告書を受け取ってからわずか3か月後に発生しました。 しかし、警告に対する反応はありませんでした。



データセンターの建設中に、当社は1 MWの容量を持つ主力製品Trinergy UPSユニットシステムを供給および設置しました。 このUPSにはメンテナンスバイパスが組み込まれていますが、それでも親組織がシステムの外部共通メンテナンスバイパスを作成することをお勧めします-事故が発生した場合、有害事象が発生した場合に、この供給源が負荷供給を中断することなく完全にサービスを提供できるようにするためです。 しかし、ゼネコンの専門家は、UPSにはすでにメンテナンスバイパスが装備されており、どのような状況でもシステムの内部コンポーネントを保守できるようにすることに反対しました。 悪いことを予感させるものはなく、新しいシステムが完全に機能しなくなった場合は予見されませんでした。



ティアIIIの要件に従ってフォールトトレランスを提供するUptime Instituteのアプローチのイデオロギーは、内部バイパスにサービスを提供するために外部バイパスを使用することを意味します。 しかし、この場合、この原則は無視されました。 親組織の専門家は、予算が限られているか、マージンを増やしたいという理由で、システムを外部バイパスで完了することを拒否しました。



一方、オブジェクトは既存の建物で設計および構築され、データセンターのニーズに合わせて調整されました。 さらに、オブジェクトは、いつものように急いで再構築されました。 古い建物の防水は不十分でしたが、彼らはそれを改造しませんでした。 機器を設置してから3か月後、湧水はUPSにあふれ始めましたが、洪水は下からではなく、実際には天井から流れていました。 かなりの量の水が漏れました-UPSで短絡が発生し、ソースである「目覚ましによると」大声で揺れ、燃え尽きました。



そして、その瞬間になって、データセンター全体をオフにせずに修理し、防水することは単に不可能であることが明らかになりました。ソースは、データセンターに組み込みのバイパスを集中的に供給しました。 その結果、高レベルの冗長性(ブロックシステム、N + 2スキームによる冗長性)にもかかわらず、2つの電源ユニットの障害後、データセンターの電力は途切れず、誰もがこの状況の人質になりました。



UPSシステム自体が最良であることが判明したことに注意してください。 システムは存続しましたが、負荷を「落としません」。 最もこぼれた水が燃え尽きた電源ユニットと、こぼれた水が少ない残りの3つの電源モジュールのみが良好な状態を維持しました。 ただし、ソースはデータセンター全体、つまりオブジェクトへのすべての電力が中央を通過し、外部メンテナンスバイパスが存在しないため、UPSを完全にシャットダウンして電源ユニットの損傷を排除する必要がありました。



その結果、お客様にとってどれほど苦痛があったとしても、時間を選択してデータセンターを停止する必要がありました。その後、UPSが完全に復元され、ソース自体に外部メンテナンスバイパスが装備されました。 データセンターを所有する会社にとって、彼の停止は非常に重大で苦痛でした。



この場合、事故にはいくつかの理由があります。 1つ目は、建設中の突進と不十分な防水です。 充電式バッテリーは、合板棚のあるアーカイブラックに設置されていました。つまり、データセンターでは、完全な折end主義がありました。20世紀の終わりの最先端の機器と「アーティファクト」の近くです。



Uptime Instituteの観点では、Tier IIの要件に従って設計されたシステムは、負荷を切断せずに要素を保守することを意味するものではなく、このケースを完全に実証しました。 この事故とは、データセンターを停止せずに排除できないインシデントを指します。



これは、顧客がリスクの可能性について警告されたときに教科書のケースですが、彼はそれをやめることを好み、それから彼が警告されたという状況が発生します! 同時に、1 MWのソースのメンテナンスバイパスブロックのコストレベルは、データセンターの停止による損失に比べて比較にならないほど小さいです。



その結果、長い間(6か月以上)、データセンターを停止するタイミングを選択しながら、すべてのITシステムは保護なしで機能しました。 これがリスク管理です。 drれた機械のように、そのような事故後のUPSシステムの故障の耐用年数は急激に減少したことを理解する必要があります:そのさまざまなコンポーネントは、そのようなストレスに耐えられないシステムから予想されるよりも頻繁に故障し始めました。



データセンター未完成

この話は、換気および空調システムのメンテナンスを専門とする企業から聞くことができます。 しかし、電気技師の唇から、それは信じられないようです。 しかし、残念ながら、これは本当の真実です。データセンターの建設中に、建設段階でも機器を稼働させずに無効にする方法の例です。



データセンターは市の郊外に建設されています。 請負業者は、建設期間を短縮するために、供給業者に施設への機器の配送を強制していますが、サイトはまだ建設準備から非常に遠いです。 同時に、「アップ」(顧客へ)は、設備が施設にあることを報告します。 しかし、現時点では、このような機器に最も驚くべきことが起こります。



たとえば、建設中のこれらの施設の1つでは、UPSの供給が明らかに予定より早く行われました。 数ヶ月間、その源は主張されず、つながりもなかった。rod歯類(生命の痕跡から判断すると)はそれを利用することに失敗せず、そこで巣を作り、生き、生き、そして善を始めた。 同じ部屋で、労働者は食物を摂取したが、その残骸はげっ歯類を軽disしなかった。 動物はアパートをゾーンに分割しました。1つの「床」に巣がありました。 他方で彼らは食べていました。 3番目-プリント基板が配置されている場所で-彼らはトイレを作りました。



機器を接続する時が来たとき、呼吸器とゴム手袋のきしみを克服するサービス労働者は、正式にまだ新しい機器に近づいた。 もちろん、プリント基板は腐食性の液体によって破壊され、交換が必要なため、IPBを起動することはできませんでした。



その結果、機器が施設に納入されたため、サプライヤのものではなくなったことが判明しました。 また、ゼネコンはこの機器を受け取り、まだ操作を開始していませんが、操作には適していません。 起こったことは、顧客がまだ必要としないという事実にもかかわらず、提供されたすべての機器を一度に施設に持ち込むという顧客の近視眼的で不合理な要求の計算です。 6か月間、設備はより安全に施設に保管されます。



著者:セルゲイ・エルマコフ、スタニスラフ・イリエンコ



ロシアのデータセンターで発生した20件を超えるインシデントについては、トピック「データセンターの事故」に関する雑誌Data Center.RF番号13の最新号をお読みください。



All Articles