ITでの監視とは何ですか?また、管理者がさらに眠り始めたのはなぜですか?





IT監視とは何ですか?



管理者がユーザーの前にインフラストラクチャの問題について学習できるようにするため。 実際、これは問題のタイムリーな通知と、具体的にどこで何が起こったかについての正確な情報を提供する迅速な診断複合体です。



例: 15 : 05にメールに問題があります。 監視システムのおかげで、管理者はすでに15:07に特定のWindowsサービスがサーバー上で開始されなかったため、Exchangeが上昇しなかったため、ユーザーは手紙を受け取りません。 監視することなく、マネージャーは午後5時頃に彼に電話し、30分前に3回送信したパートナーからの手紙はどこにあるのかを尋ねます。



以前はどうでしたか?



以前は、インフラストラクチャ全体(サーバー、ネットワークデバイスなど)に関する情報が簡単に収集されていました。 「インテリジェントプロセッサ」の役割は管理者にありました。彼は、飛行機のコックピットのパイロットのように、すべてのデバイスを見て画像を理解する必要がありました。 誰もがそうできるわけではないことは明らかです。



システムの観点から見ると、すべてがより自動化され、少し複雑になりました。 彼らは、ステータスをビジネスサーバーに密接にリンクして、「真空」での監視に関する情報がないようにします。



ユーザーのアクションがエミュレートされると、エンドユーザーに代わって監視も追加されました-これは特定の時間に一度特別なスクリプトを実行するロボットです:ユーザーがメニューを実行しているように、何かを押すように-そしてロボットが何かを実行できない場合、それは意味します、そしてその人は働きません。



さらに、構成データベースが使用されるようになりました。監視オブジェクトに関する情報は、構成ユニットのセットとして表示されます。 各サーバー、各ネットワークデバイスは特定のユニットであり、これらはすべて集中型データベースに格納されます。 このビューにより、監視システムをサービスデスク、資産管理システムと統合し、機能をさらに拡張できます。



仮想化



以前は、インフラストラクチャ全体が物理的であり、すべてのサーバーが別々の鉄片であり、ラック内にあり、管理者が見るまでそれらを受け取り、感じることができました。 現在、サーバーが物理的に単一である場合、インフラストラクチャは多くの場合仮想マシンで構成されますが、たとえば、その上では、ダースの仮想マシンでスピンします。 これには、チューニングに多くの微妙さが必要ですが、多くの利点があります。 たとえば、監視システムの開発者としての私たちにとって、これは明確なプラスです。すべてを仮想環境に配置できます。 監視システムは、複数のモジュールで構成されるソフトウェアです。 以前は、モジュールごとに個別のサーバーが必要でした。 鉄が数個あると、顧客はシステムに必要な機器が多すぎると言うことができます。 これで、これらのサーバーを仮想化し、1つの物理サーバーに配置できます。 さらに、これにより、優れた監視システムのコストが大幅に削減されます。



これがどのように機能するかの例



1つの実例があります(名前と顔が変更されました)。 そのため、HP Operationsのコストがかかります。 ある時点でFTPを介してファイルを交換することに慣れているユーザーは、ファイルをアップロードできないことに気付きます。 最初のユーザーが突っ込んだ:サーバーはそれを開始しなかった。 ユーザーは、失敗は一時的なものであると考え、ファイルをメールで送信しました。 その後、さらに2、3人が突破しましたが、成功しなかったため、誰かがサポートのチケットを書きました。 サポートは何が起こっているかを把握し始めました。 外観では、すべてが問題ありませんでした。サーバーは動作していましたが、利用できるサービスはありませんでした。 「他のサービスの作業を停止することは不可能であるという事実にもかかわらず」そのような問題を「ホット」に探すことは、原則として標準タスクですが、監視システムなしでは非常に退屈です。 管理者は監視イベントのリストを調べただけで、ファイアウォールからの多くのアラートを見ました。 さらに、複数の控訴が外部で記録されました。 非常に迅速に(驚いた!)このFTPに対するDDoS攻撃が検出され、切断されました。 問題の検索を監視しなければ、3〜4時間長くなり、さらに複雑になる可能性があると思います。



自動化



より多くの監視システムが自動的にサービスアクションを実行できます。 たとえば、一般的な状況:一時ファイルが原因でサーバーのスペースが不足すると、アプリケーションの速度が低下し始めます。 管理者が入り、一時ファイルを消去し、次の繰り返しまですべてのヒントを残します。 監視は、たとえばディスクの90%がいっぱいになった瞬間を判断し、イベントを生成し、自動モードで自動的にクリーニングプロセスを開始できます。



監視システムはサービスデスクと統合できるため、問題のチケットを自動的に作成できます。 つまり、サポート忍者は最初の呼び出しの前でも静かに突然問題を解決できます。



自宅でそれを実装する方法?



監視システムは、他の大容量システムと同様、かなり複雑なものだと言えます。 実装は通常、顧客が自分で行うか、インテグレーターの助けを借りて行うかに関係なく、段階的に行われます。



最初に、監視オブジェクトが決定されます(ネットワーク機器、サーバー、アプリケーションなど)。 次に、オブジェクトごとに重要なインジケータが選択されます。 データの量が多すぎると、管理者は制限インジケータの超過に関するアラートのストリームにdrれ、少なすぎると、重要な何かを見逃す可能性があります。 その後、アーキテクチャを決定し、製品、ソリューション、ベンダーを選択する必要があります。 次に、構成を開始できます。 パイロットモックアップゾーンが作成され、このモックアップがインフラストラクチャ全体に拡張される場合があります。



完成品



監視システムは、さまざまなレベルの顧客を対象としています。 大規模で複雑で高価なソリューションは、展開と実装に莫大な人件費を必要としますが、大企業には価値があります。 中小企業向けの小規模でシンプルなオプションがあり、それらは実装が簡単な一種のボックスです。 最も有名な低コストのソリューションは、Microsoft SCOMです。 多くのオープンソースオプションがありますが、それらは一般に無料であり、かなり骨の折れるセットアップのみが必要です。



このシステムはどの規模の企業にとって有用ですか?



制限は、システム管理者が作業量に対処できず、各サーバーを制御できなくなる場所です。 中小企業では通常、このようなシステムを使用しても意味がありません(または部分的な解決策を講じることができます)。中規模および大企業では、多かれ少なかれ深刻な監視システムが必要になります。 そのようなシステムは約10年前に開発され始め、今ではITサービスのほとんどすべての主要な顧客が同様の何かをすでに実装しています。



監視は他に何ができますか?







コード監視



比較的最近、コードレベルでの監視が登場しました。 これは主にJ2EEおよび.NETアプリケーションに適用されます。 このようなモジュールは、システムコールの遅延、メモリリーク、SQLクエリの実行の遅延などを検出できます。



トレーニング



当初、システムはしきい値を設定するために多大な労力を必要としました(ディスクが90%または95%満杯の場合の緊急事態とは何ですか?)。 当然、多数の監視オブジェクトがあるため、これは骨の折れる作業でした。 現在、監視システムは履歴データを分析し、オブジェクトの動作を調査し、これに基づいていわゆる「動的しきい値」を構築することができます。 つまり、監視システムは、オブジェクトの正常な要約と、事故についての内容を「学習」して理解します。



IT部門にとってこれは何を変えるのでしょうか?



管理者は日常業務から解放され、より重要で興味深いタスクに集中できます。 それらは、現時点でシステムで何が起こっているかを正確に表します。 インフラストラクチャは透過的になります。 消火を余儀なくされ、故障を絶えず修理しなければならない場合、作業スタイルはありません。事前にレーキをバイパスすることが可能になります。 日常的な問題の解決は自動化できます。 もちろん、予期せぬ事故は「手動で」除去する必要がありますが、正確な診断があるため、より簡単になります。



Habrを読んで、経理部に、管理者があまり仕事をしなければ、これは信じられないほどの幸福であると納得させるだけです。



All Articles