サーバーファームがクラッシュする

サーバーファームでのクラッシュのテーマの継続。 強力なデータセンターインフラストラクチャをオフラインのままにする理由は大きく異なります。停電、冷却システムの誤動作、バックアップディーゼル発電機の動作、機器、同じ機器の不適切なメンテナンスなどです。 人的要因を忘れないでください。







彼らが言うように、彼らは間違いから学びます。 サーバーファームのオペレーターは、潜在的な事故に備える方法、その結果を排除する方法、および一般にかなりの損失を伴うミスを回避する方法に関する有用な教訓を学ぶことができます。



Cogeco peer1



バックアップ電源システムの問題により、アトランタのCogeco Peer1データセンターはオフラインになりました。







マネージドホスティングの分野でサービスを提供するCogeco Peer1(米国アトランタ)は、サーバーファームをオフラインにした後、ソーシャルネットワークに関する議論と批判の中心になりました。 このサービスプロバイダーの多くのクライアントは会社に対して「妖精」を表明し、多くのプロバイダーがプロバイダーを変更し、すべてのワークロードをAWSに転送すると脅しました。 AWSは、この種の声明に喜んで参加し、Cogeco Peer1の不満のある顧客を誘引しようとしました。







サーバーファームは、部分的な停電のためにダウンタイムに入りました。 問題を解決するのに5時間近くかかり、すべてが過去1時半から始まり、データセンターは夕方7時までにフル稼働し始めました。 停電のため、サーバーファームの特定のセクションのインフラストラクチャが完全に無効になりました。 Cogeco Peer1が発表したように、ダウンタイムの原因はデータセンターのバックアップ電源システムの障害でした。



TeliaSoneraとヒューマンファクター







TeliaSoneraは、通信とネットワークアクセスサービスを提供します。 最近、データセンターでルーターを構成する際のサーバーファームエンジニアのエラーにより、WhatsApp、Reddit、CloudFlare、AWSなどの有名なインターネットサービス、ウェブサイト、アプリケーションの多くのユーザーが損失を被りました。 トラフィックのほとんどは、ヨーロッパに行く代わりに、香港に向けられました。 何百万人ものユーザーが、インターネットに接続して人気のあるアプリケーションを操作しているときに、このエラーを自分自身で感じました。 当初、専門家は、この問題は大西洋横断トランク通信ケーブルの損傷が原因であると示唆しました。 TeliaSoneraサーバーファームのトラブルシューティングに2時間かかりました。 謝罪の手紙が顧客に送られ、同社がシステムを自動化するためにあらゆる努力をすることを計画しているブログのエントリが登場しました。 このソリューションは、人的要因によるダウンタイムを最小限に抑えます。







多くの企業は、サーバーのクラッシュや停止を引き起こす原因について沈黙しています。 データセンターの所有者は、施設での事故に関する情報を共有することに非常に消極的です。 アメリカ最大のクレジット会社Lending Clubのサイトはオフラインになりました。 会社はその作業中(2006年以降)に180億ドルのローンを発行しました。この単純なものが会社の投資家を非常に悩ませたことは驚くことではありません。 先週、誤動作が観察され、その原因はデータセンターの誤動作と呼ばれていました(正確には特定されていません)。 数時間、データセンターはダウンタイムでした。







ところで、エマーソンによると、データセンターの誤動作の最も一般的な原因は、UPSのバッテリー障害です。 この調査には、450のサーバーファームオペレーターが参加しました。 2番目の問題は、UPSの過負荷でもあります。電気接続のインストールのエラー、ABPの誤動作、および短絡です。 問題の半分は同じ人的要因に関連しています。 データセンターの誤動作の3分の1は、水漏れによるケースの35%で、冷却システムの「おかげ」で発生します。







市場(ウクライナ語)について話すと、所有者は、発生した障害とサーバーファームのオフラインインフラストラクチャの理由に関する情報を共有することに非常に消極的です。 そして、それは、データセンターの配置のための設計から始まります。 古い建物、使い古された建物構造、天井の偽装亀裂、開口部が開口した半メートル幅の耐力壁...夏に屋外ユニットの熱交換器を詰まらせるポプラの毛羽立ち、冬には、これらの同じユニットがしばしばファンの凍結または妨害のために停止します-屋根に入ったつらら用 換気システム、つまりその中にヒーターを設置することを節約すると、冬にはそこから凝縮水が流れるという事実につながります。 UPSの誤動作は、サーバーファームの電気回路の一部に非コア負荷が接続されているためにも発生します。 ディレクターズオフィスの強力なエアコン、グラシャの秘書の電気ポットなど。 サーバーファームをオフラインにする理由の簡単なリストを次に示します。



All Articles