監視システムを選択して実装する必要のない方法に関するOpus
こんにちは、カブロビテス。
ホスティングチームのスタッフが非常に少なく、突然監視システムをアップグレードしたいと考えていた、ある会社の長い歴史について話しましょう。 それは長くて厄介な道についてです。 ほぼ2年後、メンテナンスモードとしてこの注目に値する物議を醸す概念に近づいた道。 この話があなたにとって興味深いと思われる場合は、Catへようこそ。
そのため、2年前に、長年使用してきたSolarWinds ipMonitorの機能が使い果たされたことが判明しました。 同社は成長し、セル内のサーバーの数も増加し、セル自体の数も同様に増加し、ソースでのping、telnet、および単語検索では不十分であると判断されました。 このシステムに加えて、さまざまなエンジニアによって書かれた非常に多くのスクリプトがあり、当然ながらドキュメントはありませんでした。 スクリプトは定期的に破損し、時には明らかではありませんが、最終的には提供されるサービスの品質が低下しました。
vmWareのプレゼンテーションの1つで、上司は「巨大な可能性」を持つ監視システムに気付きました。 一連のインジケーター、ボタン。 グラフ、分析ツール、一般に、5人のホスティング部門の無人の頭には、美しくて素敵なものがたくさんあります。 この驚異はQuest Foglight Monitoring Systemツールと呼ばれていました(FMSの詳細)。 遅滞なく、シニアエンジニアはベンダーに連絡してテスト展開を行うように求められました。 数週間の「ハードワーク」の後、エンジニアは先送りしました。 もちろん、上司は私たち全員が購入する前にシステムに精通することを提案し、意見を求めました。 だから、戻ってこないというポイントが来た-私たちは長老の議論に盲目的に同意した。なぜなら、誰も私たちを主要な仕事から解放せず、長老が「ゼロ」と言っても意味がないものに時間を浪費しなかったからだ。 そのため、価格が発表されました。当然、可能なすべての機能が絶対に必要であり、価格は非常に強力でした。 ベンダーは私たちに数ヶ月間専門サービスを購入するように説得しましたが、彼らのサービスは誰かにとって高すぎるように見えました。 結局、私たちは何とかすでにあったものに何とか対処しました、これを処理することができますよね? O偉大なヴィシュヌ、この意見がどれほど間違っていることが判明したか。 PS週間だけでなく、グループ全体で3日間のトレーニングパッケージが購入され、「カスタマイズ」も注文されました。 かなり大規模な中規模ビジネスの経験豊富なITスペシャリストは、たぶんこめかみをひねって指をひねるでしょう。 ホスティング事業者はたぶんため息をつき、おそらく上記のすべての計り知れない近視に疑問を呈します。
問題はコンサルタントの時間がなくなってから1分後に始まり、カスタマーサポート部門に引き渡されました。 すべては、シニアベンダーがテストサンドボックスを示す展開計画をベンダーに提供したという事実から始まりました。 ベンダーは、3ダースの仮想マシンと1つのデータベースを持つ人々にトップエンドの監視システムを喜んで販売したに違いありませんが、実際には、数百台の仮想マシンが複数のシャーシにあり、データベースサーバーのクラスターがあり、大陸の異なる端にある場合でも問題でした。 その瞬間、食いしん坊なFMSがリソースの面でどのようになるか想像できませんでした。 すべてのデータベースエージェント、vCenter、およびインフラストラクチャを作成した後、突然停止していることに気付きました。 嫌悪感を抱き、私たちは展開計画に鼻を突っ込んで、ニーズの大きさを事前に通知しておけば、他の要件について話し合ったと宣言します。 2日後、シニアエンジニアは辞職しました。 そのため、私は現場に登場します-原則として、私はまだ先輩からは程遠いので、自分でプロジェクトを選ぶことについて何も言いません。
私が最初に考えたのは、「今すぐ辞めるべきだ」です。 しかし、ロシア人はあきらめませんよね? まず、この楽しみのために専用サーバーをノックアウトしました。 ESXiを搭載した2つの古いDell 2950。 データベース用に別のサーバーを選択することはできなかったため、これにも仮想マシンを使用する必要がありました。
FMSアーキテクチャの簡単な説明
FMSの構成:
1.管理サーバー。 独自の実装のアクティブ/パッシブクラスターには、これらのサーバーがいくつか存在する場合がありますが、これがすべてを制御する中心点です。
2. Foglight Agent Manager。 Agent Managerは、さまざまなニーズに合わせて複数インストールできるWindowsサービス(方法と希望があればデーモン)です。 このように、vmWare、SQLステージング、SQLプロダクション、およびOSを分割したため、1つのタイプのエージェントに問題がある場合、すべての監視を中断する必要はありません。
3. Foglightエージェント。 エージェントはすべての機会に対応できます。ベンダーから購入することも、独立して作成することもできます。
4.データベース。 ここではすべてが明確です-SQL Server 2008があります。
すぐに、私は単純に不可能なことを扱うことに気付きました。 まず、適切なリソースを使用してもシステムの速度が低下しました。 ルールマネージャーを含むページは、5〜15分の任意の時間、ルールのリストを読み込むことができます。 サポートコールは予期せぬ結果をもたらしました-彼らは問題を知っていて、次のバージョンで修正することを約束しました...四半期。 その間、当局は結果を要求し、私たちのバージョンが遅くなるという正当化は受け入れられませんでした-結局、かなりの金額が費やされました。 彼の歯を噛み砕いて、さらに6週間後に多かれ少なかれ稼いだ回り道を発明してから、時計を動かしました。 DSTはそれと何の関係があるのでしょうか? 実際、このかなり長い間開発されたシステムにはバグがありました。
しばらくの間、システムを使用して、最初に注文したカスタマイズが単に機能しないこと、そして次に、それらが単に必要ではないことに気付き始めました。 他にも必要ですが、ここに問題があります。ベンダーがデルを買収し、価格設定ポリシーが少し変更されました。 当局は、必要なカスタマイズを自分で緊急に作成することを要求しています。 私がプログラマーになったことは一度もないので、やめたほうがいいという考えが再び訪れました。 ここで私の魂はこれに嘘をつかない、それだけだ。 しかし、ロシア人はあきらめませんよね? このすべてが機能するグルーヴィーなスクリプトを開発しています。 学習プロセスでは、購入した機能のほぼ半分が、特定のニーズに合わせて書き直した方がうまく機能することを理解しています。 私は書き直していると同時に、この製品はすでに30%自分の製品であるため、この製品が嫌いだと当局に伝えることを止めています。
そして今、大切な時が来ました-Great Vishnuについて、多くのページの読み込みの問題とDSTの嫌いなバグの両方が修正された新しいバージョンがリリースされました。 私は告白します-この日、私は祝いました。 「ページが読み込まれている間」、絶え間ない緊張とコーヒーの旅の終わり。 最終的に大切なメンテナンスモードが開始されたのは、このイベントでした。 今、私は時々、労働者の要求に応じて、アラートしきい値を変更し、インフラストラクチャとは関係のない新しいエージェントをときどき作成しますが、単に製品のユーザーアカウントのブロックなど、完全にクライアント側の問題について通知します。 今、私はリードしており、ソフトウェアを選択して実装する方法を正確に知っています。
私は一見明らかな結論を提示しようとします。
1.必要だと固く信じない限り、すぐにすべての機能を購入することはできません。 この特定のソフトウェアの経験を持つコンサルタントを雇うことができるので、本当にそれが本当に簡単に必要であることを確認してください。 信じてください-これは、使用されなくなったカートリッジに支払った価格よりもはるかに安いです。
2.急ぐことはできません。 すでに起こったことに半年間座っていたら、恐ろしいことは何もなかったでしょう。 常にいくつかの古いサーバーが見つかりますが、ベンダーのセールスマネージャー以外は、今ここであなたに支払いをするように説得されません。
3.利用可能なスタッフの詳細を理解する必要があります。 特にやる気のない人には、分析を1人だけに任せてはいけません。
4.実装のコストを節約しないでください。 確かに、価値はありません。 ベンダーは通常、できるだけ早く本番に連れて行くことを望んでいます。なぜなら、それは彼が全額支払われるときだからです。また、すべてがうまくいけば、コンサルタントにも彼ら自身の利益があります。 ベンダーがスタッフと一緒に数ヶ月かかると言ったら、それはそうである可能性が高いことを意味します。 この予算にお金がない場合は、とにかく支払いますが、それ以上です。