データセンターは、I〜IVのフォールトトレランスレベルで評価されています。 これらのレベルは、TIA(アプリケーションのみによる検証を必要としない)とUptime Institute (厳格な認証付き)です。 TIER IIIは、インフラストラクチャ内の任意のノードで障害が発生した場合に機能することを想定しています。 冷媒を含むパイプの場合-2つ目のパイプが必要です。 燃料タンクの場合、2番目のスペアが必要です。 これが冷却の場合、N + 1チラーなどのための予備が必要です。
最初に、TIER IIIレベルのこのコンプライアンスはプロジェクトによって確立されました。 大まかに、Uptimeのエンジニアはノードをすべて消し、残りが機能するかどうかを確認しました。 このクエストは多くの人によって開催されています。
次のステップは、完成した施設の認定を取得することです。つまり、実装された施設ですでに文書とフォールトトレランスの原則に準拠していることを確認します。 これはロシアで最も難しいことです。なぜなら、計画と建物の宣言は2つの大きな違いだからです。 すでに製品をサイトに持ってきた顧客は、プロセスに特別な魅力を加えました。 したがって、合格したテストは非常にクールです。
3番目のステップ-操作の認証を取得しました。 つまり、チームとすべてのプロセスがUptimeの原則に準拠していることを確認しました。 ロシアにはそのようなデータセンターは2つしかありません。
これらの証明書について他に知っておくべきこと
TIA TIER 3は、「私たちのプロジェクトはTIAの推奨事項を満たしている」という声明で「まさにそのように」なります。 したがって、このタイプについてはこれ以上検討しませんが、Uptime InstituteによるTIER IIIについて説明します。
証明書には3つのタイプがあります:プロジェクト(プロジェクトごとに1回与えられ、2年後に燃え尽きる)、オブジェクト(構築されたオブジェクトに与えられ、発生したことがTIER IIではなくTIER IIIであることを確認します)。 オブジェクトの証明書は永遠です。 3番目のタイプは、中央レベルが定期的にチェックされる動作証明書です。
最後のチェックで示された準備のレベルに応じて、1〜3年ごとに1回チェックします。 この頻度は、ダウンタイムの平均70〜90%が人的要因によって引き起こされるという一般的なルールの結果です。 つまり、運用のための証明書を新たに確認しない10年前のデータセンターでは、驚きが生じる可能性があります。 通常の運用証明書は、ゴールド、シルバー、ブロンズの3つのタイプに分けられます。 ヒッチなしで、かつヒッチなしでクエストに合格した場合、ゴールドを与えると、3年後に2回目のチェックが必要になります。 「4人で」というコメントで合格した場合-2年ごとにシルバー。 最悪なことに、Bronseは証明書の有効期間が1年で「満足」に合格しています。
ゴールドを得ました。
チェックはどうでしたか
Uptimeのメンバーは、最初に施設を認定するために来ました(認定プロジェクトで施設を建設した後)。 この時点で3番目の運用証明書を取得するのは時期尚早でした-私の推定では、すべてのプロセスを修正し、運用チームを完全にトレーニングするためにデータセンターが立ち上げられてから約1年かかりました。
少し後に、私たちは認証の前に監査で再度電話しました。 監査の目的は、何が間違っているのか、何を改善する必要があるのかを確認し、作業を改善するための一連の推奨事項を提供することです。 私たちの場合、それはまさにそうでした。
10か月後、彼らは3日間再び到着しました。 最初の数時間は、オブジェクトの周りを歩き回り、向きを変え、さまざまな角度を見て、手の届きにくい場所を指で通り過ぎて、あらゆる点で幸せでした。 その後、群衆全体が管理者(キッチンのある温かいオフィス)のために私たちの敷地内に座って、ドキュメントを重ねました。 2日間は、紙片同士の対応、およびそれらについての人々の知識のみをチェックしました。
別のタイプの活動-彼らは特定のエンジニア(たとえば、派遣者)に電話して、「そのような事故、あなたは何をしますか?」と言いました。 彼は行動規則に従って答え、釈放された。
一般的に認証のためにチェックされるもの
- スタッフの仕事量。 たとえば、ディスパッチャには、そのようなポジションに必要なTCを超えないように、各ディスパッチャに十分な作業スケジュールがありました。 各シフト、雑誌の壁画(この特定の人物がシフトに参加していること)を確認し、毎月の稼働時間を考慮しました。
- 緊急手順の知識(誰が何をするか)。
- あらゆる種類の正式な証明書、卒業証書などの職位の遵守。 火災、応急処置などの責任者 -知識の関連性。
- ジョブの説明とその関連性、すべてのプロセスと手順の説明、各ケースの指示。
- 機器および一般的なメンテナンスをチェックするための手順-すべての指示に厳密に従い、特定のオブジェクトに必要なプロセスをカバーします。 この場合、すべての指示がユニットの実際の位置に対応し、すべての状況をカバーするようにします。 シフトの開閉手順、機器に関するデータの入力、テスト手順など。
- スタッフはどのようにトレーニングされ、どのように定期的な緊急トレーニングが行われますか。
- 内部ライブラリを「操作経験」で更新する方法、電源、冷却の拡張プロセスを調整する方法、機器を取り外して持ち込む方法など。
私たちの状況では、スタッフデータとシフトログが最も多く選ばれました。 この認証で、彼らは技術に最低限触れます-すべてがファシリティ証明書を取得する段階で行われたと仮定されます。
ヒント
私が言ったように、新しいチームが運用を開始してから1年後にどこかに行くほうがよい。検証の一部は、人々がプロジェクトの欠点を見つけた方法(またはプロジェクトからデータセンターを開発した方法)、機器の研究方法、すでに稼働している「ライブ」を修正した方法データセンター。
欠陥から:たとえば、認証段階で、最も詳細な指示を行う必要があることが判明しました。 また、たとえば、6つの同一のサブシステムがあります。 最初のものには、事故が発生した場合の切り替えに関する詳細な指示があります。 2つ目は「1と同じこと」です。変更する必要があります。まったく同じものを書き、指示だけを書いてください。
改善に関するすべての文書を適切に作成することが依然として重要です。 近代化マガジン。 一般的にいくつかの変更がデータセンター全体の信頼性レベルを低下させる可能性があることを理解する必要があります。
チェック中に特別な驚きがありました。 各項目が一度に3つの偏執狂を選択することを注意深く検討し、想像する必要がある要件のリストがあります。 彼らは非常に多くの論文を掘り下げますが、全体としては正しいです。通常のチェックでは、異なるドキュメント間の相関関係を構築する人はいないというだけです。
たとえば、ツアー後、彼らは施設内をどのように、どこで歩いたかの正確なマップをアンロードするように頼みました。これはアクセス制御システムとビデオ監視に従って行われます。
データセンターに関するその他のリンク:
- かつて列車が電話をかけていたコンプレッサー施設のツアー
- TIER と他のTIER との違い、TIAとUIの違い
- データセンター構築の段階
- 責任を高めてデータセンターを運用する方法
- そして、質問のための私のメールはAAshavskiy@croc.ruです。
実際、あなたがそのようなチェックの準備をしているなら、コメントで質問に答えたいです。