Mars ISが運用分析プラットフォームSPLUNKの機能を拡張

技術インフラストラクチャからのビッグデータの収集、分析、および使用は、Mars ISの重要な開発分野の1つです。 本日の出版物では、SPLUNKプラットフォームを使用してITインフラストラクチャとアプリケーションの運用アクティビティを監視および分析するプロジェクトについて説明します。







今日が未来です



すべてのITプロフェッショナルは、ビッグデータや機械学習などの分野には大きな可能性があることを理解しています。 これらのトピックに関してMars ISにはさまざまな開発がありましたが、いくつかの戦略的技術を選択して初めて、理解できる目標に向けたグローバルなビジョンと動きが現れました。



それらの1つは、運用分析SPLUNKのプラットフォームでした。 これは、同名のアメリカ企業の主要なソフトウェア製品であり、技術インフラストラクチャ、セキュリティシステム、ビジネスアプリケーションからマシンデータを収集、分析、使用できます。



このデータには非常に大きな潜在的可能性があります。 そのような情報の機械分析の結果を使用することは、会社の生産性、収益性、競争力、およびセキュリティの向上に役立ちます。







Mars ISはSPLUNKを使用するのが初めてではないことを言わなければなりません。 このプラットフォームは長年使用されてきましたが、他のほとんどの企業と同様に、セキュリティ侵害の監視のみに使用されています。 そしてこの間、彼女は自分自身を非常によく証明しました。



視野の拡大



SPLUNKをセキュリティドメイン外に持ち出すことには、特定のリスクが含まれていました。これは、今日、SPLUNKをそれ以上の用途に使用している企業が世界中にあまりないためです。 しかし、システムの可能性を認識し、製品自体を開発および改善する準備が整いました。

イベントログ(ログ)を含むアプリケーションファイルは、数百万行のコードであり、手動で分析できず、表示することさえできません。 SPLUNKプラットフォームはこれを自動的に行います。 システムは、コード内で必要なリンクを見つけ、問題の存在またはその発生が差し迫っていることを報告します。



その結果、SPLUNKを使用して、ITインフラストラクチャおよびアプリケーションの運用アクティビティを監視および分析することが決定されました。 機械分析と機械学習の両方のプロセスのほとんどを自動化する時が来たことが明らかになりました。



実施進捗



さまざまな分野の専門家がプラットフォームの実装に参加していますが、チームの「バックボーン」は4人で構成されています。



ビジネスアナリストは、さまざまなシステムが提供するデータと、この情報を「クロス」させてより深い分析を行うことができるものをよく知っています。



SPLUNK スペシャリストは、ユーザーフレンドリーで生産性を高めるためにシステムの調整に関与しています。 また、システムに新しいデータソースをもたらします。



アーキテクトは、他のシステムとの統合およびサポートチームの対話プロセスの正確さを監視します。



システムアクセシビリティソリューションアーキテクトは、SPLUNKに基づいて、問題が発生する前に問題を確認して修正できる単一の監視ツールを作成する専門です。



多くの同僚が、独自のイニシアチブで、アドバイス、技術、ビジネスケースで私たちを助けてくれました。 近い将来、彼らは職場から利益を得ることはありませんが、人々は一般的に自動化の状況を見て、この分野の迅速な発展を支援したいと考えました。 実装プロセス中、Mars ISは人々が興味を持ち、チームで働き、熱意を持って1つのことを行う場所であると改めて確信しました。



最初のステップは、「エージェント」のネットワークを展開することでした。 大きなスパイダーとしてのSPLUNKは、数百台のコンピューターを単一のネットワークに接続し、ハードウェア、ソフトウェア、場合によってはアプリケーションのレベルでそれらからデータを受信します。



さまざまなレベルと粒度のギガバイトのデータが単一のSPLUNKクラウドに群がり始めた今、Mars ISの専門家は数分でサーバーとプログラムのエラーを分析できます。 問題の検索時間が大幅に短縮されました。







システムはそれ自体を学習し、私たちはそれで学習します



他のITツールと同様に、SPLUNKは、「自分の」要求を行う方法を学習するために特定の資格を必要とします。 そのため、プログラムの調査を開始する準備がまだ整っていないチームのダッシュボードとレポートを作成しますが、すでにデータを確認し、それらに基づいて意思決定を行いたいと考えています。



繰り返し発生する問題を見つけるために、標準の数学モデルを使用して依存関係を検出します。 たとえば、今日、プログラムのジョブの終了(計画されたタスク)に問題があるかどうかを確認します。 そのためには、SPLUNKがこの特定のジョブの今日の標準時間を計算する必要があります。 モデルの関連性を維持するには膨大なリソースが必要になるため、制約を手動で設定することはできません。



ただし、システムは履歴の標準ブート時間を調べて、制限を自動的に調整します。 彼女は、問題である可能性が最も高いピーク値を計算から除外できます。 それが、SPLUNKモデルを徐々に教えることで、私たち自身のデータを理解して見るだけでなく、問題が現れる前に予測することを学びます。

問題が宙に浮かないように、SPLUNKシステムとServiceNowシステムを統合しました。これにより、近づいてくる問題の知識をITIL ITSMシステムのインシデントに変えることができました。 その後、人を巻き込むことなく自動的に解決されるか、システムが適切なプロファイルの専門家にリダイレクトします。



素晴らしい目標が刺激する



現在、さまざまな部門からのログをできるだけ多くシステムに追加し、特定のシナリオの自動化に対する収益を計算するための主な作業が進行中です。

困難にもかかわらず、プロジェクトは勢いを増しており、そのチームは成長しています。 しばらくすると、実装の美しい例を共有できるようになり、多くのお金を節約できました。



システムでログを検索するだけでなく、複雑なクエリを作成して分析を実行したい人が増えています。 これは、技術的な専門知識のレベルが成長し続けることを意味します。



機械語で正確に記述できる単純なスクリプトを扱う必要がない日は、それほど遠くありません。 システムがこれを行います。 従業員は複雑な分析モデルを作成し、開発時に機械で処理します。



写真: ラグトルグ・ ライマ





Mars ISが最新の状態を維持していることがわかると、非常に刺激的です! 最近、ワシントンで開催されたSPLUNKカンファレンスに参加し、このシステムを実装している他のチームと目標と決定を共有しました。



私たちの計画は非常に野心的です。 もちろん、私たちは実際にこの問題の先駆者であるため、多くの困難が待ち受けています。 しかし、私たちのチームにとって、これは単なる仕事ではなく、素晴らしい目標です。 そして、私たちはそれを達成し、新しいものを創造し、自分自身を発展させたいと思っています。



All Articles