データセンターの監視を自動化するためのヒント。 パート1





データセンターインフラストラクチャの監視は簡単な作業ではありません。 多くの場合、簡素化のために自動化が使用されます。 それはすばらしいことです。モニターですべての監視システム通知を取得できます。 すべてを自動化することは悪いことではないことをすでに書いたことがあります。 これはかなり複雑ですが、解決可能なタスクです。 新しいデバイス、接続、ソフトウェアの検出を自動化し、新たなトリガーに対するシステムの応答のシナリオを作成することにより、なぜそれを解決するのですか?



それは、人が怠け者だからです。多くの場合、自動化はうまく機能します。 しかし、問題があります。 そのようなシステムの導入後に何が起こる可能性があるのでしょうか? 主な問題は解決されたようで、どんな問題も見過ごされないでしょう。 しかし、実際には、いくつかの重要な問題がしばしば未解決のままになります。 さらに、それらは非常に一般的です。 このような2つの問題について話しているので、それらについては続編で説明します。



問題1:エラー通知がすべてではない



この戦略は、店舗でのブロッコリーの検索と購入プロセスと呼ばれます。 この場合、戦術は、子どもたちに料理を食べさせるよう説得する能力と呼ぶことができます。

トーマス・ラロック、SolarWinds



自動問題、自動問題検出、レポート送信、または緊急シナリオのいずれかに関係なく、自動化を掘り下げる前に、1つの重要なことに対処する必要があります。 これは、いわゆるDPRサイクルであり、検出、防止、応答を表します。 言い換えれば、問題を検出し、その発生を防ぎ、問題が発生した場合のデータセンターの従業員の対応の手順について話しているのです。



次に、エラーとその発生のレポートについて説明します。 サポートが自動警告システムからこのメッセージを受け取ったとしましょう。 ここで、このエラーが発生した理由を理解する必要があります。また、将来このエラーが再発しないようにする方法を見つける必要があります。



自動エラー通知サービスを作成するプロセスでは、これはほんの始まりにすぎないことも考慮する必要があります。 結局のところ、望ましくない状況の原因を見つけるために、状況を分析するという大変な作業も行う必要があります。 その後、既に発生した状況を特定することを目的とした追加のテストモジュールを作成する必要があります。 たぶん、表示されないことは確かですが、何でも表示できます。



警告システム通知への自動反応により、自動化がすべてを担当するため、少しリラックスすることができます。 しかし、エンジニアは問題が発生した理由を理解する必要があります。 多くの場合、自動化ではこれができません。







問題2:監視自動化システムの展開



ポイントは、自動化システムを実装する前に、そのようなシステムで何ができるかを計画する必要があるということです。 問題がないように慎重に検討する必要があります。 さて、計画では次のことを提供する必要があります。





これらのヒントを使用すると、自動化システムの欠点を確認でき、重大な障害が発生する前にそれらを修正する方法を理解できます。 自動化システムを実装するときに本当に関連性の高いツールを使用するには、チームと次の作業段階について絶えず話し合う価値があります。 専門家は何について最も不満を述べていますか? これは最初に対処する必要があるものです。



すべてがうまくいけば、自分自身とチームが時間を費やさなければならない絶え間なく発生する繰り返しの状況から救うことができます。もちろん、これは常に不足しています。 資料に示されているのは、データセンター監視自動化システムの実装に関する作業のほんの一部です。 一部は既に以前に示されていますが、近いうちに残りを公開する予定です。



All Articles