無停電電源システムが中断または「複数の障害の履歴」を引き起こす可能性がある場合

最も信頼性の高い無停電電源装置(UPS)は、1本のケーブルが通るキャビネットです。 この喜劇的な声明は時々理にかなっています。 特にロシアでは、人的要因がしばしば前面に出ており、誰でもミスを犯す可能性があります。エンジニアとデータセンターの背後にある「祖母-世話人」の両方です。 したがって、アクセシビリティ係数の9の数は、オブジェクトの実際の信頼性を常に決定するとは限りません。





無停電電源装置(SBE)が、オブジェクト、アプリケーション、およびサービスの操作のために電源の最大信頼性を提供する必要があることは明らかです。 ただし、SBE自体が障害の原因(追加の障害ポイント)になると、状況が定期的に発生します。 これは多くの人が直面する問題です。 翼のあるラテン語の表現「Praemonitus praemunitus」(「事前に準備された手段」)は、私の記事の目的を反映しています。 この資料は、実際のイベントとさまざまな職場の個人的な経験に基づいています。 現在、R-Styleシステムインテグレーターで働いており、そこで実際に知識を適用して、以下に説明する状況をうまく回避しています。 この記事があなた自身の武装に役立つことを願っています。 政治倫理上の理由により、施設に関する詳細は公開されません。 すべての一致はランダムです。 事故とその種類私は技術的な側面からポイントにサインします。





参照:最も一般的なタイプのデータセンター障害の原因は、電源障害です(米国IT産業情報協会によると、すべてのケースの46%)。



1つのアクション後の事故



SBEの設計段階で保護できない頻繁な操作エラーによる事故。

このような状況は人的要因に関連しています。 データセンターをダウンさせることができる人には、主に2つのタイプがあります。



  1. 非常に有能なエンジニアと電気技師。ただし、重要な施設での作業や必要な知識はありません。 彼らは、電話で「震えている」手で、より有能な同僚の指示に従ってすべてを行うことができます。
  2. 経験豊富な電気技師が、顕著な革新の粒で。 これはシリーズの「1人の合理化者は2人の破壊工作員よりも悪い」というものです。


最初のエンジニアエラーの例:



SBEをバイパスに転送する手順がかなり頻繁に行われると、重要な負荷がオフになります。 これは、UPS電圧の入力範囲の違い、メインラインの場合は定格電圧の平均±30%、「バイパス」の場合は±10%(これはGOST)の違いによるものです。 バイパスラインが使用できなくなったにもかかわらず、電圧が低下しても、UPSはバッテリーに切り替えることなく都市ネットワークから動作することがわかります。 エンジニアは、UPSの入力に電力があることを確認しますが、バイパスのブロックに関するメッセージを重要視せず(ほとんどの場合、この状況の通知は、充電式バッテリーへの切り替え時など、脅威ではありません)、ボタンまたは出力ブレーカーでインバーターを停止します負荷がオフになります。 このような状況を回避するには、各アクションの前に状況を分析する必要があります。UPSディスプレイの警告を読んで理解するだけで十分な場合もあります。



2番目のエンジニアエラーの例:



ほとんどすべてのUPSには、完全に放電するまでの自律テスト(セルあたり平均1.65 V)と、バッテリーの状態を判断するために使用できる放電曲線を評価するための時間テストなどの2種類のバッテリーテストがあります。 施設のエンジニアは、自律テストがより正確であると信じて、定期的にジャーナルにすべての兆候を記録することでそれを行いました。 しかし、このようなテストの直後に外部電源障害が発生すると、バッテリーが放電され、バックアップが提供されず、ディーゼルエンジンが起動する時間がなく、負荷が崩壊しました。 ほとんどの場合、ABを評価するには自動テストで十分であり、たとえば、バラスト負荷で適合行為に署名するためにコミッショニングする場合には、自律テストが必要です。 それでも、たとえば、バッテリーを交換した後の自律性を理解するためにテストが必要な場合は、定期的なメンテナンスのために特別なウィンドウでこれを行う必要があり、ディーゼルエンジンをすぐに起動する必要があります。



その他のケース、簡単に:



-誤って赤いEPOボタンを押しながらUPSコントロールパネルを拭いてください(緊急電源オフ)

-UPSの真上に給水したダイヤモンドドリルとオーバーラップした掘削と、貫通後の短絡。



-土木工事中にUPSのバスバーに相間障害が発生し、別の建物に配電盤設備とUPSを設置する際に掘削機のバケットでケーブルが破損する。

-アクションのシーケンスが正しくない場合にUPSをオンにします。 一部のUPSでは、バッテリーブレーカーから起動すると、DCコンデンサーの大きな充電電流が最初の瞬間に流れ、バッテリーヒューズが点灯します(特定のモデルでのみ有効で、UPSがあり、その起動はバッテリーのオンから厳密に開始する必要があります)。

-ボード上の要素の分離を伴うサービス中の掃除機によるほこりからのクリーニング。 清掃は、安全な距離と許容可能な圧力から空気を吹き込むことによってのみ必要です。

-UPS回路ブレーカーは常に負荷線の切り替えに使用されていたため、切り替えの瞬間に一定の火花が発生し、その結果、回路ブレーカーの接点が焼損しました。 切り替えには、負荷の下での永続的な切り替えのためにメーカーが設計していないUPSブレーカではなく、配電盤のUPS回路ブレーカを使用する必要があります。



一連のアクション後の事故



設計および(または)実装段階で発生したエラー(ほとんどの場合、気付かないことがあります)によって引き起こされる事故、および事故自体は操作中の「コントロールショット」の後に発生します。



設計に固有の事故の例:



-サービスバイパススイッチは、「ドライ」接点なしで設計されており、UPSはその信号でインバーターを自動的に停止します。 この場合、エンジニアが誤ってSBEをバイパスラインに転送すると、UPSインバーターはTerritorial Generation Companyとの戦いを始めます。 誰が勝つかは明らかです。 最良の場合、UPS出力ヒューズが切れ、最悪の場合、インバーターIGBTアセンブリが切れます。 データセンターが停止しました-データは失われます。

-差動回路ブレーカーは、メイン配電盤(メイン配電盤)でのみ設計され(以下に差動保護はありませんでした)、SBEを介して特に重要な負荷をシステムに加えて、短期的な中断を可能にする他の重要な負荷(発電機セットからの電力供給)を供給します。 多くのベンダーのUPSでは、メイン回路ブレーカーは中性線を引き裂きませんが、UPSを完全にシャットダウンして修理するには、この機能が必要です。 ほとんどの場合、これらの目的のためにUPSに個別のスイッチがあります。 したがって、中性回路から切断されていないUPSを修理するとき、中性線は接地されたUPSケースに当たりました。UPSとメイン配電盤の間の回路に差動保護がなかったため、メイン入力回路ブレーカーが作動し、オブジェクト全体が切断されました。

-優れた自律性を備えたSBEを使用して電源システムを設計する場合、充電電流とUPSの効率は考慮されませんでしたが、変電所変圧器の電力は負荷にほぼ対応していました。 その結果、フィーダーは定格負荷電力に達すると過負荷になりました。

-設計時には、システムが最初に導入されたときに、データセンターのアクティブな負荷が公称値の20%であることは考慮されていませんでした。 同時に、SBEの保証された電力供給ネットワークに接続されたSBEと空調システム(事故の場合にディーゼル発電機から作動する)が完全に起動しました。 外部電源が失われた場合、ほとんどのディーゼル発電機の電圧調整は電流によって実行されるため、内部コンデンサのプリチャージ回路を持たないUPSおよび空調システムからの無効電流がGGEを「決定」し始めます。 出力電圧の減少または増加が始まり、無効負荷(容量性または誘導性)の性質に応じて、電圧が入力に許容されるUPSの制限を超え、バッテリーがオンになり、UPSからの無効なコンポーネントがDGU出力に作用しなくなり、電圧が公称値に近づき、UPSが戻りますDGUを使用して、すべてを円で囲みます。 いわゆるシステムの構築が行われ、バッテリーが完全に放電されるか、ディーゼル発電機の出力がブロックされた後、停電が発生します。 この状況は、バラスト負荷または無効電流補償器を使用して未使用のモジュールを自動的にオフおよびオンにする機能を備えたUPSを選択することで解決されます。



配送と設置による事故の例:



空調システムの設置後に残った、または上げタイルの裏から外れて上げ床の下を飛んだホイルの飛散によって引き起こされた、UPSバスのアークによる短絡。



UPSとバッテリーの供給が早すぎる:



-UPSは塗装終了前に設置されました。 雇われた労働者は、UPSに立っている間に天井を塗りました。 一部のデバイスの保護フィルムは、踏みつけや上部ファンのグリルを介してUPSに注がれた靴からの建設の汚れにより損傷を受けました。 NDP中に完全にクリーニングすることはできませんでした。将来の運用中には、内部コンポーネントの汚染によって引き起こされる可能性が高いいくつかの障害がありました。



-納入後8か月でSBEを稼働させる。 充電せずに長期間保管したため、バッテリーの不可逆的な反応が起こりました。 鉛板は、硫酸鉛(硫酸化)の大きな結晶のフィルムでコーティングされており、電流形成プロセスの流れを防ぎます。 SBEの開始直後に、バッテリー事故が発生しました(テストは失敗しました)。





乾燥残渣



これは可能な状況のほんの一部ですが、経験から説明されるケースは繰り返す傾向があります。 この記事が、利害関係者がUPSを使用して、または使用せずに施設で発生する可能性のある事故を回避するのに役立つことを願っています。 エラーの価格は非常に高くなる可能性があります。 たとえば、事故の結果としてのデータセンターは数時間アイドル状態になり、施設が2日間完全に故障するような「災害」の場合があります。 大企業の8時間のデータセンター全体の緊急停止は、ほぼ四半期ごとの利益に達する可能性があり、これは多くの場合、注意、警戒、詳細への注意によってのみ回避できます。







UPD:祖母についての質問は非常に興味深い質問であり、単純な厳しい警備員にも関係しています。 これまで、勤務エンジニアがいないサーバールームがありました。 面白いことに、SNMPエンジニアリングアダプターとセンサーに組み込まれた高価な監視ステーションは、たとえば夜間に請求されなくなります。 もちろん、身近な専門家と、メールボックスや電話に緊急メッセージを送信するシステムのオプションがありますが、これを控えめに言っても、どこにでもあるとは限りません。 一部の顧客はまだ「ドライ」コンタクトに関するソリューションをサプライヤに求めており、DCIM全体が電球の付いたブロックになり、反対側には祖母または警備員が呼び出す必要のある電話番号が書かれています。 ちなみに、経験から、私の祖母は警備員よりも9人以上を配っています(アクセシビリティの要因について話している)。



All Articles