試運転後のデータセンターの寿命

多くの人々が考える:彼らはデータセンターを構築し、仕事は完了です。 実際、その後、大規模で複雑なタスクの日常的な解決策が開始されます-データセンターの運用。



データセンターの運用を管理する際に発生する主な問題は、トラブルのない運用を確保し、信頼性を損なうことなく運用コストを削減することです。



最初と2番目のタスクの両方に対する有能なソリューションは、データセンター運用プログラムのフレームワークによって決定されます。 業界では、適切な運用のために統一された運用プログラムを採用する必要があるという話が時々あります。 そして、それは確かにあるはずです。 しかし、シングルについては...施設ごとに充填量が異なるため、データセンターごとのプログラムは異なります。 いずれにせよ、稼働安定性についてUptime Instituteによってサイトが認定されている場合、各オブジェクトは個別に考慮されます。 IT専門家への指示はどこでも同じですが、エンジニアリング機器を保守する担当者にとっては、技術的規制と緊急時の規制の両方が異なります。



ところで、会社の評判の観点からは、運用プログラムを持つことも重要です。少なくとも顧客はそれを見ています。 そして、これには理由があります:指示がうまくいけば、彼らが従うことへの希望があります。 しかし、指示が​​ない場合、誰も確実にそれに従うことはありません。



そのようなプログラムの概念設計が設計段階と並行して開発され、 設計部門と運用部門が並んで作業すれば、運用段階での問題の数を大幅に減らすことができます。 少なくとも、これにより、データセンターの個々のコンポーネントのサービスの不便に関連するエラーが回避されます。



理論的には、独立した検査はエラーを減らすのに役立ちますが、このためには独立した専門家はExpertでなければなりません。 残念ながら、今日は誰もが専門家と呼ばれています...実際、データセンターの構築経験があり、できれば1人だけでなく、少なくとも10人が本当の専門家になれます。 しかし、ロシアにはそのような専門家はまだいません。



多くは認証に依存しています。 Uptime Instituteの認定は、プロジェクトのエラーを実際に除外しますが、ほとんどは全体的なエラーのみです。 そのため、運用中に特定および修正されたエラーを考慮して、運用ルールが最初に開発され、その後補足されます。 したがって、 オペレーティングプログラムは常に更新する必要があります 。 これらのドキュメントは一から作成されたものではありません。実際の施設のスタッフの経験を蓄積しています。



データセンターを「翼の上」に置きます



データセンターの業界では、現在、アプローチが積極的に模索されており、ゼロからの開発、他の活動分野からの部分借入、外国慣行の適応など、運用基準の形成に関するさまざまなオプションが議論されています。



データセンターのトピックに関する主要な会議では、他の業界慣行からの借用に基づいて運用管理の問題を解決する例がすでに提示されています。 特に、航空業界の慣例から、データセンター業界の例は、航空機の運用と保守のための詳細なプログラムです。 これは、プロセスの標準化の良い例であり、運用と保守を完全に保証することは不可能です。サプライヤーの膨大なリストとの相互作用プロセスの開発が必要です...



もちろん、100%の類似性を引き出すことはできません。航空分野の運用管理プログラムは冗長です。 航空業界では、数千の業界標準があり、特定の種類の機器の取扱説明書など、さまざまな方法が提供されています。 データセンターでは、運用プロセスの規模はそれほど大きくありません。



しかし、一般に、運用を管理するタスクはさまざまな業界で類似しているため、データセンターの活動を規制する方法を考案することはできません 、他の業界で使用されているアプローチをデータセンターのニーズに適合させようとします。



実際のサービス



データセンターの運用分野における今日の最も興味深い傾向の1つは、状態予測システムの使用です。 これは、計画された指標に従って生産施設にサービスを提供する従来のシステムが、その高いコストのために非常に効果がなくなっているという事実によるものです。 そのため、近年では、システムの状態に応じてすべての修理作業やメンテナンス作業が行われる場合、信頼性とメンテナンスを実際の状態で管理する傾向があります。



従来の方法では、機器の状態に関係なく定期的なメンテナンスが実施されていました。 実際の状態の管理において、システムのメンテナンスの時期が来たが、それが完璧な順序である場合、運用を継続するための合理的な決定が下されます。



ロールスロイスがタービンをジェット機に搭載すると、センサーから大量の情報が収集されます。 このような大量のデータがあると、エンジンの故障の可能性を高精度で予測できます。 この方法を使用すると、望ましくない状況の発生を数十時間から数百時間予測し 、問題のある要素をメンテナンスに使用できます。



もちろん、 包括的なアプローチと品質モニタリングは 、このアプローチにとって重要です。 可能であれば、メンテナンスは想定されているときに行われませんが、本当に必要なときに行われます。 どんなプロダクションエンジニアも、何も問題がなければ、安全にプレイし、可能な限り修復することに関心があるためです。 たとえば、電気産業にも同じ問題が存在します。新しい建設現場やメンテナンスで多くのお金が「埋もれ」ます。信頼性は高まりますが、一方で、多くのお金が風に投げ込まれます。



実際の状態の運用のための監視システムは、施設が建設された期間に応じて、多数の監視システムを意味します。 実際の状態に応じた定期的な修理の必要性により、修理の回数を数倍減らすことができます。 これは、特に大規模なデータセンターにおいて、 節約の大きな可能性です。



DataProのCEO、アレクセイ・ソルダトフ



All Articles