
データセンターインフラストラクチャの監視は簡単な作業ではありません。 多くの場合、簡素化のために自動化が使用されます。 それはすばらしいことです。モニターですべての監視システム通知を取得できます。 すべてを自動化することは悪いことではないことをすでに書いたことがあります。 これはかなり複雑ですが、解決可能なタスクです。 新しいデバイス、接続、ソフトウェアの検出を自動化し、新たなトリガーに対するシステムの応答のシナリオを作成することにより、なぜそれを解決するのですか?
それは、人が怠け者だからです。多くの場合、自動化はうまく機能します。 しかし、問題があります。 そのようなシステムの導入後に何が起こる可能性があるのでしょうか? 主な問題は解決されたようで、どんな問題も見過ごされないでしょう。 しかし、実際には、いくつかの重要な問題がしばしば未解決のままになります。 さらに、それらは非常に一般的です。 このような2つの問題について話しているので、それらについては続編で説明します。
問題1:エラー通知がすべてではない
この戦略は、店舗でのブロッコリーの検索と購入プロセスと呼ばれます。 この場合、戦術は、子どもたちに料理を食べさせるよう説得する能力と呼ぶことができます。
トーマス・ラロック、SolarWinds
自動問題、自動問題検出、レポート送信、または緊急シナリオのいずれかに関係なく、自動化を掘り下げる前に、1つの重要なことに対処する必要があります。 これは、いわゆるDPRサイクルであり、検出、防止、応答を表します。 言い換えれば、問題を検出し、その発生を防ぎ、問題が発生した場合のデータセンターの従業員の対応の手順について話しているのです。
次に、エラーとその発生のレポートについて説明します。 サポートが自動警告システムからこのメッセージを受け取ったとしましょう。 ここで、このエラーが発生した理由を理解する必要があります。また、将来このエラーが再発しないようにする方法を見つける必要があります。
自動エラー通知サービスを作成するプロセスでは、これはほんの始まりにすぎないことも考慮する必要があります。 結局のところ、望ましくない状況の原因を見つけるために、状況を分析するという大変な作業も行う必要があります。 その後、既に発生した状況を特定することを目的とした追加のテストモジュールを作成する必要があります。 たぶん、表示されないことは確かですが、何でも表示できます。
警告システム通知への自動反応により、自動化がすべてを担当するため、少しリラックスすることができます。 しかし、エンジニアは問題が発生した理由を理解する必要があります。 多くの場合、自動化ではこれができません。

問題2:監視自動化システムの展開
ポイントは、自動化システムを実装する前に、そのようなシステムで何ができるかを計画する必要があるということです。 問題がないように慎重に検討する必要があります。 さて、計画では次のことを提供する必要があります。
- 選択したテストマシンの可用性。 それは、自動化システムが機能する純粋な「実験室」サーバー、または作業中に使用されるが、何らかの理由で他のすべてよりも優先度が低いマシンです。
- 状況を解決しないでください。マシンがクリティカルになります。 たとえば、サーバーの重大な負荷に関する通知システムを機能させるには、システムリソースの負荷を90%にしないでください。低いレベルで十分です。
- システムがロギングをサポートしている場合、この機能を有効にする必要があります。 その結果、問題が発生した場合、正確に何が起こったのか、そしてその理由を理解できます。 イベントログはできる限り詳細にする必要があります。
- 場合によっては、問題の通知を電子メールで送信しないでください。 これはすべて、作業の追加の遅延を引き起こします。 740個のメッセージがメールで到着し、今度はそれらをすくい上げて、各通知を順番に開く必要があると想像してください。 同時に表示しながら、通知をローカルに保存することをお勧めします。
- 通知システムのテスト結果はサポートと話し合う必要があります。おそらく、サポートチームの代表者が実際的なことをアドバイスします。
- システムをテストバージョンで解決した後、ゆっくりと運用する価値があります。 さらに、システムを一度にすべて展開するのではなく、段階的に展開する必要があります。 最初に10〜20システムで有効にします。 次に、結果を評価します。 次に、システムをさらに50台拡張して、もう一度確認します。 通知自動化システムを段階的に含めることにより、そのようなシステムを100%のマシンにすぐに展開する際の大規模なエラーを回避できます。 後者の場合、問題が発生すると、データセンター全体に戻ってくる可能性があります。
これらのヒントを使用すると、自動化システムの欠点を確認でき、重大な障害が発生する前にそれらを修正する方法を理解できます。 自動化システムを実装するときに本当に関連性の高いツールを使用するには、チームと次の作業段階について絶えず話し合う価値があります。 専門家は何について最も不満を述べていますか? これは最初に対処する必要があるものです。
すべてがうまくいけば、自分自身とチームが時間を費やさなければならない絶え間なく発生する繰り返しの状況から救うことができます。もちろん、これは常に不足しています。 資料に示されているのは、データセンター監視自動化システムの実装に関する作業のほんの一部です。 一部は既に以前に示されていますが、近いうちに残りを公開する予定です。