TIER IIIデータセンターの運用でGOLDを取得しました-プロジェクトのT-IIIおよび完成したオブジェクトのT-IIIの後の最終完成





データセンターは、I〜IVのフォールトトレランスレベルで評価されています。 これらのレベルは、TIA(アプリケーションのみによる検証を必要としない)とUptime Institute (厳格な認証付き)です。 TIER IIIは、インフラストラクチャ内の任意のノードで障害が発生した場合に機能することを想定しています。 冷媒を含むパイプの場合-2つ目のパイプが必要です。 燃料タンクの場合、2番目のスペアが必要です。 これが冷却の場合、N + 1チラーなどのための予備が必要です。



最初に、TIER IIIレベルのこのコンプライアンスはプロジェクトによって確立されました。 大まかに、Uptimeのエンジニアはノードをすべて消し、残りが機能するかどうかを確認しました。 このクエストは多くの人によって開催されています。



次のステップは、完成した施設の認定を取得することです。つまり、実装された施設ですでに文書とフォールトトレランスの原則に準拠していることを確認します。 これはロシアで最も難しいことです。なぜなら、計画と建物の宣言は2つの大きな違いだからです。 すでに製品をサイトに持ってきた顧客は、プロセスに特別な魅力を加えました。 したがって、合格したテストは非常にクールです。



3番目のステップ-操作の認証を取得しました。 つまり、チームとすべてのプロセスがUptimeの原則に準拠していることを確認しました。 ロシアにはそのようなデータセンターは2つしかありません。



これらの証明書について他に知っておくべきこと



TIA TIER 3は、「私たちのプロジェクトはTIAの推奨事項を満たしている」という声明で「まさにそのように」なります。 したがって、このタイプについてはこれ以上検討しませんが、Uptime InstituteによるTIER IIIについて説明します。



証明書には3つのタイプがあります:プロジェクト(プロジェクトごとに1回与えられ、2年後に燃え尽きる)、オブジェクト(構築されたオブジェクトに与えられ、発生したことがTIER IIではなくTIER IIIであることを確認します)。 オブジェクトの証明書は永遠です。 3番目のタイプは、中央レベルが定期的にチェックされる動作証明書です。



最後のチェックで示された準備のレベルに応じて、1〜3年ごとに1回チェックします。 この頻度は、ダウンタイムの平均70〜90%が人的要因によって引き起こされるという一般的なルールの結果です。 つまり、運用のための証明書を新たに確認しない10年前のデータセンターでは、驚きが生じる可能性があります。 通常の運用証明書は、ゴールド、シルバー、ブロンズの3つのタイプに分けられます。 ヒッチなしで、かつヒッチなしでクエストに合格した場合、ゴールドを与えると、3年後に2回目のチェックが必要になります。 「4人で」というコメントで合格した場合-2年ごとにシルバー。 最悪なことに、Bronseは証明書の有効期間が1年で「満足」に合格しています。



ゴールドを得ました。



チェックはどうでしたか



Uptimeのメンバーは、最初に施設を認定するために来ました(認定プロジェクトで施設を建設した後)。 この時点で3番目の運用証明書を取得するのは時期尚早でした-私の推定では、すべてのプロセスを修正し、運用チームを完全にトレーニングするためにデータセンターが立ち上げられてから約1年かかりました。



少し後に、私たちは認証の前に監査で再度電話しました。 監査の目的は、何が間違っているのか、何を改善する必要があるのか​​を確認し、作業を改善するための一連の推奨事項を提供することです。 私たちの場合、それはまさにそうでした。



10か月後、彼らは3日間再び到着しました。 最初の数時間は、オブジェクトの周りを歩き回り、向きを変え、さまざまな角度を見て、手の届きにくい場所を指で通り過ぎて、あらゆる点で幸せでした。 その後、群衆全体が管理者(キッチンのある温かいオフィス)のために私たちの敷地内に座って、ドキュメントを重ねました。 2日間は、紙片同士の対応、およびそれらについての人々の知識のみをチェックしました。



別のタイプの活動-彼らは特定のエンジニア(たとえば、派遣者)に電話して、「そのような事故、あなたは何をしますか?」と言いました。 彼は行動規則に従って答え、釈放された。



一般的に認証のためにチェックされるもの





私たちの状況では、スタッフデータとシフトログが最も多く選ばれました。 この認証で、彼らは技術に最低限触れます-すべてがファシリティ証明書を取得する段階で行われたと仮定されます。



ヒント



私が言ったように、新しいチームが運用を開始してから1年後にどこかに行くほうがよい。検証の一部は、人々がプロジェクトの欠点を見つけた方法(またはプロジェクトからデータセンターを開発した方法)、機器の研究方法、すでに稼働している「ライブ」を修正した方法データセンター。



欠陥から:たとえば、認証段階で、最も詳細な指示を行う必要があることが判明しました。 また、たとえば、6つの同一のサブシステムがあります。 最初のものには、事故が発生した場合の切り替えに関する詳細な指示があります。 2つ目は「1と同じこと」です。変更する必要があります。まったく同じものを書き、指示だけを書いてください。



改善に関するすべての文書を適切に作成することが依然として重要です。 近代化マガジン。 一般的にいくつかの変更がデータセンター全体の信頼性レベルを低下させる可能性があることを理解する必要があります。



チェック中に特別な驚きがありました。 各項目が一度に3つの偏執狂を選択することを注意深く検討し、想像する必要がある要件のリストがあります。 彼らは非常に多くの論文を掘り下げますが、全体としては正しいです。通常のチェックでは、異なるドキュメント間の相関関係を構築する人はいないというだけです。



たとえば、ツアー後、彼らは施設内をどのように、どこで歩いたかの正確なマップをアンロードするように頼みました。これはアクセス制御システムとビデオ監視に従って行われます。



データセンターに関するその他のリンク:





実際、あなたがそのようなチェックの準備をしているなら、コメントで質問に答えたいです。



All Articles