事故履歎1぀のデヌタセンタヌが8時間立っおいた方法



衝突埌詊隓の䞀郚゚ンゞンルヌムの熱画像怜査



この話は長い間、ある䌚瀟のデヌタセンタヌで起こっおおり、事故の結果はすべお排陀され、さらに状況の再発を防ぐための改善が行われおいたす。 それでも、䜕が起こったのかずいう報告は、デヌタセンタヌに関䞎しおいる人や、ほずんど探偵のITストヌリヌが奜きな人にずっお興味深いものになるず思いたす。



蚈画的な停止が予想されおいたした。 デヌタセンタヌには2本の線が届き、デヌタセンタヌの所有者は事前に状況を把握し、必芁なすべおのテストを準備しお実斜したした。 必芁なこずは、暙準的な手順に埓っおディヌれルに切り替えるだけでした。



時間X



シャットダりンは電源゚ンゞニアの蚈画どおりに行われ、無停電電源装眮は正垞に動䜜し、デヌタセンタヌセグメントはディヌれル発電機に切り替わりたした高開始電流の圱響を回避するため。 すべおがそうあるべきです。 同時に、デヌタセンタヌはただ蚭蚈胜力に達しおいないため、ディヌれル発電機はほが2倍の電力マヌゞンを提䟛したした。



時間P



ディヌれルは1時間半働いた埌、コンテナに組み蟌たれたタンクの燃料が燃料を䜿い果たしたした。 基準によれば、サンルヌムはDGUで倧量に盎接保管するこずはできたせん。そうしないず、防火問題に関する非垞に耇雑な認蚌を受ける必芁がありたす。 そのため、DTがポンプで送られる堎所ごずに、個別のストレヌゞが䜿甚されたす。 システムは燃料を汲み䞊げ始め、ここでディヌれル発電機は「咳をしお」立ち䞊がった。



明らかなパニックです。 ディヌれルはすぐに次々にオフになり、䜕かをする時間はありたせん-デヌタセンタヌの電力は消滅したす。 少し埌に、燃料がかなり長い間タンクに保管されおいるこずが明らかになり、枩床倉化により、そこに垞に結露が圢成されたした。 さらに、平凡な物理孊氎は燃料よりも重く、フェンスの元であるタンクの䞀番䞋に沈みたす。 その結果、すべおのディヌれルがきれいな氎をすくい䞊げたした。 同時に、怍物自䜓には氎フィルタヌさえありたせんでしたが、助けにはなりたせんでした-フィルタヌは玄半分のリットルを保持し、そこにはもっず倚くの氎がありたした。 同時に、たずえすべおを時間内に理解できたずしおも、ずにかくディヌれル燃料を短時間で持ち蟌むこずはできたせん。



結果-蚈画停止䞭に、䌚瀟はデヌタセンタヌ党䜓の緊急停止を受けたした。 箄8時間。これは倧䌁業の堎合、ほが四半期ごずの利益に匹敵したす。 デヌタセンタヌは、ディヌれル゚ンゞンで氎が汲み䞊げられた瞬間から、再び垂内から電力が䟛絊されるたで立っおいたした。



起き䞊がるだけでは十分ではありたせん。二床ず寝ないでください



経営陣は関連する結論を䞋し、将来問題党䜓が再発するのを防ぐこずにしたした。 これを行うには、ボトルネックを芋぀けるためにむンフラストラクチャ党䜓の監査が必芁でした。 この時点で、プロゞェクトに接続し、分析を開始したした。



私たちは、䞖界䞭のデヌタセンタヌの障害に関する知識ベヌスを収集し、どのように、どのように機胜するかに぀いおの正確な掚奚事項を生成する組織であるUptime Instituteの手法を䜿甚したした。 ずころで、このような厳しい芁件に埓っおデヌタセンタヌを構築する方法の詳现に぀いおは、 責任が増したデヌタセンタヌに関するトピックをご芧ください。 興味深い点の1぀は、暙準に基づく郜垂の電力入力は垞に1぀の゜ヌスでありチャネルが5぀の発電所からのものであっおも、デヌタセンタヌの所有者によっお完党に制埡されないため、远加ず芋なされるこずです。 あるかもしれないずいう意味でこれは良いです、そうでないかもしれたせんこれはほずんど正垞です、さらに譊告なしに切断するこずができたす-この状況は非垞に䞀般的です。 そのため、Uptime Instituteの専門家は、デヌタセンタヌむンフラストラクチャを分析するずき、垞に次のように郜垂の入力を怜蚎したす。詳现に぀いおは説明せず、郜垂蚈画を怜蚎したせん。



䞀方、Uptime Instituteの芏栌による自埋的な郚分は非垞に重芁です。 ディヌれル゚ンゞン、燃料、サヌビスなどの品質を慎重に研究したした。 ロシアでは反察のこずをするのが慣習であり、おそらく必芁ではないこずを説明したす。 誰もが詳现に語りたすそこからこの光線があり、これから、この倉電所は非垞に良いです...すべおの光線が䞀床にオフになったずきのチャギンスカダの事䟋を芚えおいる人がいれば、なぜUptime Instituteがそのようなラむンに䌌おいるのかが明らかになりたす。 暙準に埓っお、デヌタセンタヌの所有者ずしお所有しおいるむンフラストラクチャを良奜な状態に維持し、適切に蚭蚈する必芁がありたす。



調査



デヌタセンタヌは、最新の゜リュヌションを䜿甚しお、かなり珟代的なレベルで蚭蚈および構築されたしたが、ご存じのように、悪魔は詳现にありたす。 プロファむル゚ンゞニアが最初に蚀ったのは、非垞に耇雑で非論理的な配電スキヌムが実装されたこずです。 プログラマブル制埡コントロヌラヌず、閉じたアヌキテクチャヌず1぀の「ヘッド」を備えたメヌカヌに基づいお構築されおいたす。砎損した堎合、冗長性はありたせん。 そしお、ここで再び、Uptime Instituteの同僚が話しおいるこずに泚目しおください䞻芁な原則は、基本的に、Tier IIIの1぀の文で衚珟されおいたす私たちの感情によるず、最も人気のある どの芁玠も廃止でき、システムはその完党なパフォヌマンスを維持したす。



蚭蚈ドキュメントの芁玠では、構造ずPUEを陀き、暙準ぞの準拠に関する蚀及はありたせん。これは、すべおを现かく掘り䞋げお監査する必芁がある特城的な症状です。 別の同様の症状は、蚭蚈者に関連しお倖郚機関による認蚌を必芁ずしない暙準が指定されおいる堎合です。 ここでは、あるこずが玙で宣蚀され、別のこずがオブゞェクトで宣蚀されるこずがよくありたす。 幞いなこずに、この堎合、プロゞェクトのドキュメントは実際の実装に正確に察応しおいたした。



栄逊



繰り返したすが、どの芁玠もい぀でも䜿甚停止できたす。デヌタセンタヌは、䜕も起こらなかったかのように動䜜し続ける必芁がありたす。 たずえば、オヌトメヌションシステムのコントロヌラヌを陀く、ほがすべおの芁玠は調査察象の特定のオブゞェクトで耇補されたした。リザヌブの自動入力の倚数のシステムを管理し、特定の負荷サヌバヌラックから入力配電デバむスに配電線を通したす。 ラむンが予玄されおいるように芋えたす、シヌルドは郚分的に予玄されおおり、UPSずDGUは予玄されおいたす。 ただし、むンフラストラクチャの総コストに比べおコストが非垞に少ない芁玠が1぀だけ予玄されおおらず、障害や事故の远加の原因になる可胜性がありたす。 たた、䜕かをすばやく行うのは非珟実的です。鉄片を亀換するには、デヌタセンタヌをオフにする必芁がありたす。





シヌルドぞの入力での電流倀の枬定倀の拡倧グラフ。 フェヌズは均等にロヌドされ、突入電流が定期的に発生したす。





シヌルドぞの入力でのより倧きなグラフ2の電流削枛。 珟圚の障害の埌、負荷は5〜6秒間同じレベルにずどたり、その埌、前のレベルたで段階的に増加し始めたす。



次のポむントは、燃料䟛絊システムの動䜜ずディヌれル発電機の同期です。 燃料システムはデヌタセンタヌの機胜にずっお重芁であるず考えられおおり、その予玄が必芁です。 さお、セパレヌタの欠劂、これは私たちの珟実の西掋のデザむナヌによる過小評䟡の問題です。 ディヌれル発電機の同期は、Uptime Instituteがバむアスチェックを行うもう1぀の重芁なポむントです。 それらすべおを実行するず、1人がリヌダヌを任呜し、共通のバスに座っお、他のすべおのマシンが亀代しお同期を詊みたす。 倧たかに蚀っお、短絡が発生しないように、亀流電圧の正匊波は䞀臎する必芁がありたす。 いずれかのマシンが同期されるずすぐに、コンタクタヌがオンになり、共通バスに接続されたす。 したがっお、すべおのディヌれルは順番に共通線にダむダルされたす。 これがすべおうたくいくように、最新のディヌれル発電機は盞互に通信を提䟛したす。぀たり、共通の情報ネットワヌクに結合されたす。 この方法のもう1぀の利点は、マシンが負荷を分散できるこずです。



Uptime Instituteは、次の仮定から進めるこずを提案しおいたす。倖郚ネットワヌクがないこずを想像しおください。ディヌれル発電機で䞀幎䞭働いおいたす。 今、䟋えば、ディヌれル゚ンゞンのコントロヌルパネルを亀換する時が来たした。 オフにしたした。残りはデヌタセンタヌを提䟛するのに十分です。 そしお、マシンを結合するこのバスをバスから削陀し、コントロヌルパネルを削陀する必芁がありたす。 このテストは、圓瀟が販売する単䞀の暙準ディヌれル発電機ではなく、合栌したす。 バスは基本的に線圢であるためです。 それらは互いに接続されおいたす。あなたは䞭倮で開き、右偎は巊偎が䜕をしおいるかを知りたせん。 私たちのデヌタセンタヌでは、バスがルヌプしおいる他の制埡システムによっお、この芁件に察する「コンプレッサヌ」の責任が特に匷化されたした。 そしお、どこでもそれを匕き裂くこずができ、デヌタは倱われず、マシンは匕き続き盞互に通信したす。 デヌタセンタヌを蚭蚈するずき、これを知っおいる人はほずんどいないため、別のボトルネックがありたす。 それは小さく、非垞にありそうもないように思えたすが、そのような確率の連鎖は、回避するこずが非垞に望たしい最も恐ろしい状況を䜜り出したす。



さらなるテスト



デヌタセンタヌ内のラックの最適でない配眮を芋たした。 これは圓たり前のこずだず思われ、倚くのこずが蚀われおいたすが、すべおがよく知られおいたすが、それにもかかわらず、顧客偎のデヌタセンタヌの運甚に関䞎しおいる疑いもなく有胜で経隓豊富な専門家は、機噚の配眮に関しおいく぀かの間違いを犯したした。



空調システムの専門家は、空調システムの効率を倧幅に向䞊させるたたは実装埌に簡単な゜リュヌションを提案したした。 さらに、顧客は容量を増やす可胜性を怜蚎しおいたす。これは、負荷が増加したずきに䟿利になる方法です。 さらに、容量を増やすために䜕をする必芁があるかに぀いおの掚奚事項を曞いおいたす。 さらに、SCSの実装ずセキュリティシステムの耇雑さを評䟡したしたが、コメントはなく、すべおが正しく行われたした。



キヌノヌトは最も重芁なシステムにありたした。 たずえば、サヌモグラムを撮圱し、局所的な過熱ゟヌンを怜玢したした。 たずえば、圌らは泚入ゟヌンを芋぀けたした









栌子攟出効果



局所的な過熱ゟヌンがありたしたスタンドがあり、範囲の範囲から十分なゞェットがありたせん。 冷华されたすが、䞊蚘では十分ではありたせん。 さらに、ラックがサヌバヌで完党に満たされおいない堎合は、ホットコリドヌずコヌルドコリドヌを切り離すためのプラグが配眮されたす。 そうしないず、オヌバヌフロヌが発生したす。 抂しお、ファンコむルのファン速床を䞊げる必芁がありたす。その前に、䞋郚のサヌバヌは必芁以䞊に冷华され、䞊郚のサヌバヌは暖かくなりたした。 2番目の䟋-ブロックの壁があり、サヌモグラムで瞫い目が芋えたすそれらの熱䌝導率は発泡コンクリヌトの熱䌝導率よりも高くなっおいたす。 圓然、これは問題を玄束するものではなく、最新のサヌマルむメヌゞャヌの機胜の優れたデモンストレヌションにすぎたせん。





ラック゚リア





ホットラック廊䞋゚リア





コヌルドラックアむル゚リア



同時に、デヌタセンタヌの電源の品質を調べたした。入力の電力の品質を確認し、これに特別なグランドを䜿甚したした。すべお正垞です。 次に、SCSのいく぀かのパラメヌタヌ、空気流量、ファンコむルの蚭眮電力ず実際の電力ずの察応をテストしたした。すべおが䞀臎し、すべおが正垞に機胜したす。



たずめ



それはすべお事故から始たり、このすべおが分析をもたらし、その結果、より倚くの欠点が明らかになり、電力の最適な増加に関する勧告が行われたした。



ロシアでは、Uptime Instituteの方法論によるず、ティアIIIの代わりに、ティアIIIがTIA 942に埓っお宣蚀されるこずがよくありたす。TIAは、本質的に、デヌタセンタヌがティア3のように芋えるために満たす必芁がある芁件を説明したすが、あなたの裁量で、それを行うかどうかを指定したす。 これは掚奚暙準であり、評䟡手順は宣蚀的です圌らはそれを構築し、それがティアIIIであるず述べたした。 たた、Uptime InstituteずTIAの䞡方にTier IIIレベルがあるため、顧客はしばしば誀解されたす。 サむトが実際に蚌明曞を受け取ったかどうかを確認するには、Uptime Institute Webサむトにアクセスしおください。



デヌタセンタヌの監査を䜕床も行ったそしお、それらを構築するのに圹立ったため、顧客ず請負業者が真面目な堎合でも、監査のためにもう1぀の偎を匕き付ける方がより良いずより安党であるこずを知っおいたす。 䟛絊者、蚭蚈者、蚭眮者がどれほど優れおいおも、圌らは間違っおいる可胜性があるからです。 たずえば、Tier IIIで䜜業する堎合、プロゞェクトずそのオンサむト実装の䞡方は、䜕幎もデヌタセンタヌ内を歩き回り、バグを探すこずに専念しおきたUptime Instituteの担圓者によっおチェックされたす。 それらから認蚌を取埗するこずは困難ですが、慎重なアプロヌチでこのク゚ストは完了し、デヌタセンタヌは実際に4ナむンのアクセシビリティレベルで動䜜したす。



All Articles