ドン・ゞョヌンズ。 「環境内での統合IT監芖システムの䜜成」第4章監芖デヌタセンタヌの向こう偎



この章では、倖郚監芖ず内郚監芖を組み合わせる方法に぀いお説明したす。 システムを構築するずきに䜕を探すべきですか、制限は䜕ですか ささいなこずを芋逃さず、䞋から䞊だけでなく䞊から䞋たで写真を芋る機䌚を埗る方法。





内容



第1ç« IT環境の管理間違っおいる4぀のこず

第2ç« IT管理における個々のサむトの管理慣行の排陀

第3章すべおを単䞀のIT管理サむクルに接続する

第4章監芖デヌタセンタヌの向こう偎

第5章問題を解決策に倉える

第6章䟋による統合管理



第4章監芖デヌタセンタヌの先を芋る



ITはすでに自瀟のデヌタセンタヌを超えおおり、ほがすべおの組織が1぀たたは2぀のサヌビスを倖郚委蚗しおいたす。 監芖ず管理のための独自のホヌムツヌルが垞にある堎合もありたすが、ほずんどの堎合、監芖はデヌタセンタヌを超えお継続する必芁があるこずを理解する必芁がありたす。 これは、リモヌトサヌビスの配眮ず、そのようなサヌビスを䜿甚しおナヌザヌが実際に経隓するこずのより正確な理解に適甚されたす。



テクニカルメヌタヌず゚ンドナヌザヌ゚クスペリ゚ンスEUEの監芖


IT監芖の埓来のアプロヌチを「内郚から倖郚たたは反転に」ず呌びたす。 デヌタセンタヌから開始し、埐々に゚ンドナヌザヌに移行したす。 図4.1は、兞型的な監芖システムがDBMSサヌバヌ、アプリケヌション、Webサヌバヌ、クラりドサヌバヌなどのバック゚ンドでどのように起動するかを瀺しおいたす。 このような構造を支持する最も合理的な議論は、デヌタセンタヌに蚭眮された機噚を最適に制埡できるずいうこずです。 デヌタセンタヌ内ですべおが正垞に機胜する堎合、デヌタセンタヌのサヌビスを䜿甚する゚ンドナヌザヌが非垞に満足すべきであるず信じるあらゆる理由がありたす。



図4.1デヌタセンタヌからの監芖。



ほずんどのSLAはこのアプロヌチに基づいおいたす。 サヌビス可甚性の特定の倀を芏定し、メトリクスのしきい倀を蚭定したす。デヌタセンタヌで収集される情報は、CPU、ネットワヌク、ディスク䜿甚率などです。 たた、芁求に察する応答時間、ディスク応答時間、ネットワヌク遅延などの䜎レベルのパラメヌタヌにも関心がありたす。



このアプロヌチの最初の前提には非垞に䞍正確なものがありたす建蚭䞭に矎しいレンガを手に入れた堎合、それから家を建おるこずができるずいうこずはありたせん。 ぀たり、゚ンドナヌザヌが䜜業䞭に感じるのは、技術的なデヌタセンタヌのメトリックの単玔な合蚈ではありたせん。 デヌタセンタヌが正垞に機胜しおいる堎合、ナヌザヌは通垞満足しおいたすが、垞にそうであるずは限りたせん。



明らかに、デヌタセンタヌの䞻芁なパラメヌタを監芖するこずは非垞に重芁ですが、監芖および枬定する必芁があるのはこれらだけではありたせん 。 珟圚、業界では、ナヌザヌが経隓しおいるこずを盎接枬定する必芁があるずいう意芋がありたす。 実際、「゚ンドナヌザヌ゚クスペリ゚ンス」たたはEUEは、高床なITマネヌゞャヌの間で䞀般的に䜿甚される甚語になっおいたす。



別の䟋を挙げるこずができたす。 あなたがレストランに来たずしたしょうあなたのステヌキは調理されおいないようです、圌らはあなたに間違ったサむドディッシュず無瀌なりェむタヌをもたらしたした。 そしお、キッチンにいるマネヌゞャヌは、すべおが順調だず考えおいたす。ステヌキも野菜も暑く、りェむタヌはマネヌゞャヌが圌圌女を芋るたびに圌に埮笑んでいたす。 圌はキッチンのバック゚ンドに぀いおのみ考えおおり、あなたの䞍圓な期埅に぀いおは䜕も知りたせん。 レストランでは、この問題は、マネヌゞャヌが定期的にホヌルに行っおゲストに尋ねるこずによっお解決されたすが、倧䞈倫ですか これがEUEの監芖方法です。内偎のキッチンのメトリックを評䟡する代わりに、レストランの感芚でキュヌブの山に出お、そこで䜕が起こっおいるのかを自分で確認する必芁がありたす。



EUEがSLAを改善する方法


実際、EUEで倧きく異なる倀のメトリックを蚭定したす。そのようなトランザクションを完了するのに必芁な秒数などです。 このメトリックが実際の状況に察応しおいない堎合は、むンフラストラクチャの詳现を理解し始めるこずができたす。なぜそうでないのかを理解できたす。 たた、埓来のデヌタセンタヌを描く必芁がありたす。 ただし、同時に、「ク゚リ実行時間」ずいうメトリックや他の玔粋に技術的なメトリックを䜿甚する代わりに、「ナヌザヌの認識」ずいうメトリックを䜿甚しお、䜕かが機胜しおいないずナヌザヌが思った堎合のトラブルシュヌティングに䜿甚したす。 図4.2。 EUEモニタリングがモデルをどのように倉えおいるかを瀺しおいたす。





図4.2EUEの監芖。



ただしきい倀ずその他の制限がありたすが、それらはすべおEUEが実行された履歎レベルで蚭定されおいたす。 図に瀺すように。 4.3。、動䜜䞍胜なEUEは、゚ンドナヌザヌの問題の原因を特定できる枬定のより深くより技術的なレベルを理解するための出発点です。





図4.3悪いEUEの原因の远跡。



実際には、EUEの新たな問題に、バック゚ンドの具䜓的な倉化が垞に䌎うわけではありたせん。 DBMSサヌバヌの応答時間は1〜2ミリ秒短瞮されたす。これにより、アプリケヌションサヌバヌがトランザクションを凊理するためにさらに0.5秒必芁になりたす。 。 これらの数秒に就業時間の長さを掛けるず、1時間以䞊が倱われ、ナヌザヌは䌚瀟の顧客の倚くに「今日はコンピュヌタヌが遅くなっおいるのでごめんなさい」ず蚀わざるを埗なくなりたす。 図 4.3。、DBMSサヌバヌずクラりドコンピュヌティングサヌビスが赀旗でゆっくりず応答したす。 それずは別に、それらのどれもアラヌムをトリガヌしたせんが、それらの共同䜜業ぱンドナヌザヌに目立぀問題を匕き起こしたす。 通垞、DBMSサヌバヌの小さな倉動はアラヌムをトリガヌしたせん。むベントのカスケヌド党䜓が悪いEUEに぀ながりたす。 確かにわかっおいるこずの1぀は、EUEが予想されたものから逞脱し始めた堎合、これは理由の調査を開始する機䌚です。 問題の原因を探しおいるだけでなく、定期的な監芖を行うだけではないため、むンフラストラクチャの運甚におけるわずかな逞脱をさらに詳しく調べたす。



EUEを枬定する機胜により、より珟実的なSLAを䜜成できたす。 ナヌザヌに「システムが2秒以内にリク゚ストに応答するこずを保蚌したす」ず蚀う代わりに、「そのようなトランザクションは3秒以内に凊理されたす」ず蚀いたす。 これは、ナヌザヌがこれらのこずを自分で枬定できるこずを意味したす。「入力を抌しお数えたす-1、2、3 ...ああ、うたくいきたした」 このタむプのSLAは、ナヌザヌフレンドリヌで理解しやすいフレヌムワヌクを確立したす。 圌らはあなたず同じものを枬定するので、システムがい぀ゆっくり動䜜し始めたかを知っおいたす。



ナヌザヌの芖点からプロセスを枬定するツヌルがあるので、理想的には、ナヌザヌが気付かないうちに、たたはそれに非垞に近いシステムパフォヌマンスの䜎䞋に぀いお知るこずができたす。



方法合成トランザクション、トランザクション远跡など。


このタむプの監芖は必ずしも簡単ではありたせん。 もちろん、゚ンドナヌザヌのコンピュヌタヌに監芖゚ヌゞェントを配眮するのはそれほど難しくありたせんが、゚ンドナヌザヌが実際に䌚瀟の倖郚クラむアントであるWebアプリケヌションをどうするのでしょうか。 ゚ヌゞェント監芖゜フトりェアをむンストヌルするずいう申し出は、アプリケヌションのパフォヌマンスを枬定する機䌚が埗られるようになるだけで、圌らはたったく喜んでいたせん。



代わりに、最新の監芖システムはトランザクション 远跡方法に䟝存しおいたす。 この堎合、最埌にコンポヌネントを監芖するず、特定のトランザクションがシステム党䜓をどのように通過するかを、開始から完了たでの時間を正確に枬定しお確認できたす。 これは、さたざたな詳现レベルで実行できたす。 たずえば、゜フトりェアパフォヌマンスのプロファむリングを可胜にするツヌルは、個々の゜フトりェアモゞュヌルを通じお非垞に詳现な情報の远跡を実行できたす。 わずかに高いシステム管理レベルでは、トランザクションの開始時間ず終了時間のみを远跡できたす。



倚くの堎合、システムの実際の状態を刀別するこのアプロヌチは、システムに合成トランザクションを挿入するこずで実行できたす。 監芖システムはクラむアントになりすたし、システムにトランザクションを配眮したす。結果はデヌ​​タに倉曎を加えず、無芖されたす。 これにより、監芖システムは、さたざたな操䜜の実際の実行時間をより詳现に把握できたす。 このアプロヌチを図4.4に瀺したす。



図4.4トランザクション远跡を䜿甚しおEUEを監芖する。



これらの方法には倚くのバリ゚ヌションがあり、これらすべおを実装できる専甚゜フトりェアもありたす。 芁玄するず、このアクティビティはすべお、EUEの枬定のみを目的ずしおいるこずを垞に芚えおおく必芁がありたす。 この芳点からは、システムパフォヌマンスの状態を理解しようずしたり、問題の䞻な原因を芋぀けようずはしおいたせん。 問題があるかどうかを把握しようずしおいるだけです。



トップダりン監芖EUEからすべおの悪の根源たで


EUEは非垞に高レベルの蚺断ず芋なされたす。 圌女はただ「䜕かがうたくいかなかった」ず蚀っおいるが、正確には䜕も蚀っおいない。 理由を理解するには、い぀も知っおいお愛しおいた埓来の監芖システムに戻る必芁がありたす。今回だけは、空の堎所を調べたせん。保蚌された既存の問題の原因を探したす。



ずころで、これは特別な゜フトりェアを明らかにする必芁がある瞬間ではありたせん -これに぀いおは前の章で説明したした。 1枚のガラスですべおを芋るこずができる監芖システムを䜿甚する予定です。 ただし、これは必ずしも特殊なツヌルを統合する䜕らかのシェルを意味するものではなく、各システムを衚瀺できる監芖システムを意味したす。 各コンポヌネントのレベルでパフォヌマンスがどうあるべきかを正しく理解しおいれば、そのようなシステムは問題がどこにあるかをすぐに知るこずができたす。 そしお今、あなたは特別なツヌルを入手しお、特定の問題に察凊するこずができたす-再び、問題がどこにあり、あなたが芋おいるコンポヌネントが本圓にその゜ヌスであるこずを知っおいたす。



EUEはどこから来たのですか

EUEが期埅倀から逞脱しおいるこずが理解できるバック゚ンドのステヌタスを監芖する監芖システムで、境界倀のより慎重な遞択を䜿甚できないのはなぜですか その理由は、EUEがシステム党䜓のパフォヌマンスを評䟡するためです。 デヌタベヌスの実行速床は遅くなりたすが、その動䜜はむンフラストラクチャの残りの郚分には圱響したせん。 ルヌタヌの速床が遅くおも、必ずしもEUEが悪化するわけではありたせんが、他の芁因ず組み合わせるこずで分岐点になる可胜性がありたす。 そのため、゚ンドナヌザヌの状況を盎接確認し、すべおの悪の根源を探す必芁がありたす。




゚ヌゞェント監芖ず゚ヌゞェントレス監芖


最良の監芖方法のそれぞれを支持する倚くの議論がありたす。 ゚ヌゞェントをむンストヌルしたすか 䞀郚の人々はこれを行い、゚ヌゞェントが情報を提䟛する最も詳现な方法を提䟛するず信じおいたす。 他の人ぱヌゞェントのむンストヌルを信じおおらず、環境のすべおの芁玠から遠く離れお゚ヌゞェントが原理的にむンストヌルできるず正しく指摘したす。 通垞、責任の範囲倖にあるルヌタヌたたはサヌビスは、監芖゜フトりェアに情報を送信したり、制限付きでサポヌトしたりしたせん。

1぀のケヌスでは、図4.5に瀺すように、゚ヌゞェントをむンストヌルできたす。



図4.5゚ヌゞェントを介した監芖。



通垞、゚ヌゞェントは䞭倮監芖システムに情報を返したす。 遞択したアプロヌチに応じお、 原則ずしお 、おそらくスポットモニタリング甚のナヌザヌコンピュヌタヌ䞊にも、むンストヌル可胜な堎所にこれらの゚ヌゞェントをむンストヌルできたす通垞は、これを行わないようにしたすが



䞀郚の監芖゜リュヌションでは、各システムに゚ヌゞェントをむンストヌルせずに実行できたすどこでもむンストヌルする必芁はない堎合がありたす。 図4.6に瀺すように、これらの゜リュヌションは通垞、倖郚ツヌルを䜿甚しおシステムパフォヌマンスを評䟡したす。





図4.6゚ヌゞェントレス監芖。



゚ヌゞェントレス監芖が倧量のデヌタを収集できるか、䞀般にすべおのデヌタを原則的に収集できるかは、ネットワヌク䞊のコンポヌネントの皮類ず䜿甚されるテクノロゞヌに倧きく䟝存したす。 これは倚くの゜フトりェアメヌカヌ間の重芁な競争ポむントであり、これには现心の泚意を払う必芁がありたす。



図4.6の「監芖プロバむダヌ」。 私たちが珟代のアプリケヌションに぀いお話すなら、私の出発点です。 監芖オブゞェクトの䞀郚がデヌタセンタヌの倖郚に配眮される堎合のみ、䞀郚の゚ヌゞェントず䞀郚の゚ヌゞェントレス監芖に䟝存するハむブリッドシステムを展開する必芁がありたす。



自分のものではないものの監芖


オフィスの倖にある機噚や責任は、通垞の監芖が機胜しない堎所です。 AmazonがElastic Compute CloudEC2の健党性に関する詳现な統蚈情報を提䟛する可胜性は䜎く、MicrosoftがWindows Azureに察しお同じこずを行う可胜性は䜎いです。 SalesForce.comは、WebサヌバヌのDBMS応答時間倀たたはCPU䜿甚率パラメヌタヌを送信したせん。 サヌバヌをホストしおいるホスティング䌚瀟でさえ、ルヌタヌで倱われたパケットの割合やむンフラストラクチャからのその他の統蚈に関する詳现情報を衚瀺したせん。



しかし、実際には、これらの数字はあなたにずっお重芁です。 クラりドコンピュヌティングコンポヌネント、コロケヌションサヌバヌ、SaaS゜リュヌション、たたはその他の倖郚委蚗コンポヌネントに䟝存するアプリケヌションがある堎合、これらのコンポヌネントのパフォヌマンスは、アプリケヌションずEUEのパフォヌマンスに圱響したす。 ぀たり、Amazonにパフォヌマンスの問題がある堎合、ナヌザヌにも同じこずが蚀えたす。 そしお、ここでハむブリッド監芖が登堎したす。 図4.7は、「クラりドコンポヌネント」のほずんどの倖郚委蚗サヌビスプロバむダヌから䞻芁なパフォヌマンス情報を収集する倖郚監芖アプリケヌションの倖芳を持っおいるこずを瀺しおいたす。 収集されたデヌタは赀い線で瀺され、䞭倮監芖コン゜ヌルに送信されるデヌタは緑で瀺されたす。



前の章でリストしたものの倚くは、1぀の写真にたずめられたす。





図4.7ハむブリッド監芖。

実際、ほずんどの組織はクラりドコンピュヌティングに䟝存できないず感じおいるため、倖郚の倖郚委蚗コンポヌネントを監芖するこの方法は重芁なポむントです。 「これをどのように管理したすか」圌らは自問したす。「これをどのように監芖したすか」 デヌタセキュリティに加えお、これはおそらく、䌁業がITポヌトフォリオに「クラりド」を远加するこずを怜蚎し始めたずきに発生する最も深刻な問題です。 これらは、この方法で監芖できたす。単䞀のコントロヌル画面に「クラりド」を远加する特別な監芖サヌビスを䜿甚したす。 これらのようなツヌルは、ロヌカルコンポヌネントず同じ制埡レベルで瀟倖に配眮されたコンポヌネントを配眮し、同様の方法でそれらを監芖できるようにしたす。



䞀郚のベンダヌがこのような゜リュヌションのアヌキテクチャを開発するずきに遞択する興味深い方法。 それらの倚くはロヌカル゜リュヌションを販売しおいたす。これは倚くの点で図に瀺されおいるものに䌌おいたす。 4.7。 実際、プロバむダヌ偎​​でクラりドコンポヌネントを監芖したすが、同時にこの情報をナヌザヌに送信したす。 その゜リュヌションは、ロヌカル機噚からデヌタを収集し、統合された圢匏で情報を提瀺したす。



しかし、これが唯䞀の方法ではありたせん。 図 4.8。 ホストされた監芖゜リュヌションは 、 内郚パフォヌマンス情報がクラりドに送信され青色の線で衚瀺、クラりドがクラりドコンポヌネントのヘルス情報赀色の線ず結合され、Web䞊の単䞀のビュヌに衚瀺されたす。ポヌタルたたはその他の方法。





図4.8倖郚のハむブリッド監芖。



これは、監芖のほずんどの責任から解攟されるかなり興味深いモデルであり、ナヌザヌに提䟛されるサヌビスに集䞭するこずができたす。 しかし、オプションずしお怜蚎する䟡倀はありたすが、どの組織にずっおも適切なモデルになるずは考えないでください。



重芁な制限 すべおを制埡する必芁がある堎合


パズルの最埌の重芁な芁玠は、すべおを監芖するこずです。 オヌルオヌルオヌル!!! この章で䜿甚したむンフラストラクチャを䜿甚しお、図4.9をご芧ください。 それに欠けおいるものはありたすか 衚瀺されおいる各コンポヌネントを远跡する堎合、監芖は十分ですか



図4.9監芖する必芁があるすべおのものがここにありたすか



絶察にありたせん。 このスキヌムには倚くの省略があり、ほずんどの堎合、これらはパフォヌマンスに倧きな圱響を䞎える可胜性がありたす。 図4.10を芋おください。ここでは、すべおが少し充実しおいお詳现になっおいたす。





図4.10すべおを管理しおいるこずを確認しおください。



ルヌタヌ、スむッチ、ファむアりォヌル、ディレクトリサヌビスサヌバヌ、DNSは、内郚ず倖郚の䞡方であり、おそらくそれ以䞊です。 EUEが通垞の倀から逞脱し始めた堎合は、運が良ければ、すでに悪の根源を探す必芁がありたす。 ただし、監芖゜リュヌションで問題の朜圚的な原因を特定できる堎合にのみ、これを行うこずができたす。



このため、今日のほずんどの監芖゜リュヌションは自動怜出を提䟛しおおり、さらに、コンポヌネントを自分で远加する可胜性が垞にありたす。 自動怜出は芋逃したものをキャッチできたすが、それらに぀いおもシステム党䜓の䞀郚であるず想定する人はいたせん。 マヌシャリれヌタヌやスむッチなどのむンフラストラクチャ芁玠。 ディレクトリサヌビスずDNS間の䟝存関係。 ファむアりォヌルやプロキシなどの朜圚的なボトルネック。 これは通垞の操䜜ではすべお重芁であり、すべおを1぀の図にたずめる必芁がありたす。これにより、システムの䞀般的な状態が監芖されたす。



おわりに


監芖は、SLAの管理を可胜にし、問題の堎所を特定し、業務を遂行するビゞネスに適した状態にシステムを維持するのに圹立぀゜リュヌションです。 しかし、埓来の監芖は、垞にビゞネスニヌズを満たす唯䞀たたは最良の方法を意味するわけではありたせん。 さらに重芁なこずに、䌁業はロヌカルシステムの倖郚のコンポヌネントにたすたす䟝存するようになっおいるため、埓来の監芖では必芁な情報をすべお1぀のスペヌスに収集するこずはできたせん。 しかし、これらのタスクはハむブリッド監芖システムの胜力を超えおいたす。 埓来の監芖技術の組み合わせ、クラりドシステムからのパフォヌマンスデヌタの取埗、およびその他の方法を䜿甚しお、単䞀のビュヌ、共通のむンゞケヌタヌパネル、および党䜓像でシステムの状態に関する情報を収集できたす。



次の章では...


次の章では、すべおの組織が察凊しなければならない基本的な問題、 再珟性に぀いお説明したす。 蚀い換えれば、問題が解決された埌、突然再び発生した堎合、どのようにしお問題をより速く解決するこずができたすか 問題を解決策に倉える方法ず、今埌サヌビスの提䟛を改善する方法を怜蚎したす。




All Articles