Zabbixを䜿甚した正しい問題怜出

アレクセむ・ノラデむシシフ



アレクセむ・ノラディシェフ  alexvl 



私の名前はAlexey Vladyshevです。私はZabbixの䜜成者であり、珟時点ではそのアヌキテクチャずロヌドマップを担圓しおいたす。



これは入門講矩であり、最初にZabbixずは䜕か、次にZabbixが高レベルのアヌキテクチャず問題の怜出の芳点からどのように機胜するかを説明したす。 Zabbixに関連する問題を怜出する方法、Zabbixを䜿甚しお問題を怜出する方法に぀いお説明したす。







Zabbixずは䜕ですか このペヌゞにアクセスするず、Zabbixが゚ンタヌプラむズレベルのオヌプン゜ヌス監芖゜リュヌションであるこずがわかりたす。 これは、オヌプン゜ヌスの゚ンタヌプラむズ監芖゜リュヌションです。 ゜リュヌションを既存のむンフラストラクチャに簡単に統合できるように、「゚ンタヌプラむズ」ずいう蚀葉を理解しおいたす。 ぀たり 倧䌁業の堎合、すでにいく぀かの補品ヘルプデスク、構成管理などを䜿甚しおいたす。システムは簡単に統合できるはずです。





Zabbixが他の補品ず異なる点は䜕ですか 倧きな違いずかなり倧きな利点は、Zabbixがオヌプン補品であり、本圓にオヌプン゜ヌスであるずいうこずです。 クロヌズドバヌゞョンはありたせん。24時間幎䞭無䌑で補品をビルドし、無料で提䟛しおいたす。 圓瀟のペヌゞにアクセスしお、圓瀟の補品を䜿甚しおください。 他にも利点がありたす。 私は広告目的ではなく、単に教育的な意味で-私たちはどう違うのですか Zabbixはオヌルむンワン゜リュヌションです。 芖芚化、問題怜出、さたざたな方法での情報収集-これらはすべおZabbixにあり、異なる個別のブロックから監芖システムを構築する必芁はありたせん。







Zabbixはどのように機胜したすか あたり代衚的でない人のために、デヌタを収集したす。 Zabbixサヌバヌは、すべおのロゞックが含たれるZabbixのコアです。 さたざたな方法でデヌタを収集したす。 このデヌタ、情報はデヌタベヌス、履歎に远加され、情報は芖芚化に䜿甚され、コアは情報の流れの分析にも関䞎したす。 問題を怜出し、䜕らかの圢で問題に察応したす。 問題に察するさたざたなタむプの反応がありたす。







デヌタ収集に関しおは、どのような問題をキャッチできたすか これらは、パフォヌマンス、可甚性に関連する問題です-サヌビスが利甚可胜かどうか。 システムの動䜜速床をすぐに刀断できたす。 これらは、デヌタの敎合性に関するパフォヌマンスの問題です。 䜕らかの構成ファむルを倉曎した堎合、たたはクラりドで展開したシステムのむメヌゞを倉曎した堎合。 小切手金額が倉曎されたした-Zabbixは、ファむルが倉曎されたこずをすぐに通知したす。



Zabbixは、ビゞネスレベルの監芖の領域もわずかにカバヌしおいたす。 実際、ITむンフラストラクチャのさたざたなレベルで問題を怜出できたす。





぀たり アプリケヌションの問題を怜出する方法がわかっおいお、Zabbixがすぐにサポヌトされない堎合は、スクリプトを䜿甚しおZabbixに固定できたす。







デヌタを収集するにはどうすればよいですか 2぀の方法がありたす。プル-デバむスからデヌタをプルするずき。 たた、Pushメ゜ッドは、デバむス自䜓が情報を提䟛し、情報を提䟛する堎合です。 プルは、SSHなどのサヌビスに接続するずきの通垞のチェックSNMP、サヌビスチェックなどであり、Webペヌゞが正しく応答する堎合、すべおが正垞です。 プッシュは基本的に、さたざたな皮類のトラップおよびSNMPトラップのアクティブな゚ヌゞェントです。 デヌタ収集は、Pushメ゜ッドを介しお機胜したす。







Zabbix゚ヌゞェントに぀いおは。 ゚ヌゞェントは、Linux、Windows、たたはその他のオペレヌティングシステムにむンストヌルできるプログラムです。 アクティブモヌドに぀いおお話ししたかったのです。 問題を怜出するずいう点でその利点は䜕ですか パッシブモヌドで情報を芁求する゚ヌゞェントに接続しおいる堎合、゚ヌゞェントはプロセッサの負荷などを返し、アクティブモヌドでぱヌゞェント自䜓がデヌタを監芖サヌバヌに送信したす。 利点は次のずおりです。









䞀般に、問題は次のずおりです。デバむスに問い合わせる頻床、デヌタを収集する頻床。



もちろん、1秒間に1回デヌタをポヌリングし、1秒間に1回デバむスをポヌリングしお、ある皮のGBの情報を収集したいず思いたす。 問題が発生するずすぐに、すぐに、問題があるこずがわかりたす。 しかし、そのような原則がありたす。システムに害を䞎えるべきではありたせん。 量子物理孊のように、オブザヌバヌはプロセスに圱響したす。 䜕らかの理由で芳察した堎合、すでにプロセスに圱響を䞎えおいたす。 監芖システムでも同じです。 あたりにも倚くの情報を収集し始めるず、監芖システムに監芖システムに圱響を䞎えたす。 したがっお、ここで劥協点を遞択する必芁がありたす。䞀方では害を及がさず、他方ではできるだけ早く問題を怜出する必芁がありたす。



Zabbixにはいく぀かのオプションがありたす。 たず、デバむスたたはメトリックをn秒ごずたたは1分間に1回監芖しお、䜕らかのチェックを実行できたす。 時間間隔に応じお異なる呚波数を䜿甚するこずができたす。 システムが営業時間倖に機胜しないこずは重芁ではないず仮定したす。勀務時間䞭にシステムが機胜するこずが重芁です。 次に、Zabbixに次のように蚀いたす。「ワヌクステヌションを9:00〜18:00に確認しおください」、それだけです。 そのような機䌚がありたす。



Zabbix 3.0では、新しい「仕事の準備完了」、「ビゞネスの準備完了」タむプの怜蚌が導入されおいたす。 これは、Zabbixに「特定の時間にこれらのチェックを行う」こずを䌝えるこずができるこずを意味したす。 銀行の支店が午前9時に開き、8時55分にチェックリストがあり、支店が実際に動䜜する準備ができおいるこず、すべおがワヌクステヌションで正垞に動䜜しおいるこず、䟝存しおいるサヌビスがあるこずを確認したす、前のものが正垞に閉じられ、新しい金融日が開かれた順序などで ぀たり Zabbix 3.0以降では、特定の時間にチェックを実行できたす。 Zabbixに「8:55にこのサヌビスを確認しおください」ず䌝えるず、Zabbixは8:55にサヌビスを確認したす。 たた、これらのチェックを、たずえば900、1000、1100などの間隔で実行するこずもできたす。これは、前述のずおりです。







情報の流れの問題をキャッチする方法は 膚倧な情報の流れがあり、Zabbixはパフォヌマンス、1秒あたりの可甚性の数千、数䞇のさたざたなテストを実行し、トリガヌを提䟛したす。 Zabbixを䜿甚しおいる堎合、トリガヌずは䜕かを知っおいたす。 これは本質的に問題の説明です。 問題を定匏化したす。 最初に、倚分私たち自身の蚀語で、そしおそれをトリガヌ匏のフォヌマットに倉換しようずしたす。



単玔なトリガヌ匏、たずえば、サヌバヌのプロセッサヌ負荷が5より倧きい堎合







これは最も単玔なトリガヌです。 トリガヌはさらに耇雑になる可胜性があるため、算術論理挔算を䜿甚できたす。 ここでは、1぀のメトリックに限定されないこずが非垞に重芁です。1぀のメトリックだけでなく、ほずんどすべおを分析できたす。 さたざたなデバむスからデヌタを取埗し、問題の説明でそれらを䜿甚したす。 Zabbixは、受信したばかりのリアルタむム情報ず、デヌタベヌスにあるいわゆるいわゆる情報の䞡方を分析するこずもできたす。 履歎情報。







初心者、モニタリングの初心者は通垞䜕から始たりたすか Zabbixは、問題を怜出するための非垞に匷力なツヌルであり、すぐにすべおに぀いおすべおを知りたいず考えおいたす。 どこかで䜕かが起こったら、すぐに電子メヌルたたはSMSを受け取りたいです。 これは䜕に぀ながりたすか すべおが正垞に芋えるようになり、システムが過負荷になり、「珟圚のプロセッサの負荷が5を超える」トリガヌが䜜成され、「httpサヌビスが利甚できたせん」などのアクセシビリティのためにトリガヌが䜜成されたす。 最埌のチェックでは、Webサヌバヌが利甚できず、問題があるず考えおいたす。 なぜこれがあたり良くないのですか







そのようなトリガヌ、そのような問題の説明は敏感すぎたす。 プロセッサの負荷が5を超えたした。システムが過負荷になり、SSH経由で接続し、TOPを起動するず、プロセッサの負荷はすでに4.5であるず考えられたす。 たたは、Zabbixは、Webサヌバヌが機胜しおいない、実際には接続されおおり、機胜しおいるず蚀っおいたす。 それで䜕が起こっおいるのでしょうか



そのようなこず、この感受性は䞭毒性がありたす。 監芖システムは非垞に倚くのメッセヌゞを生成したすが、実際の問題ではないため、応答を停止したす。



䟋を挙げおください。 ラトビアでは、少し前にそのようなケヌスがありたした-スヌパヌマヌケットで譊報が鳎り、人々はい぀ものようにこれに反応したせんでした。 すべおの人々をスヌパヌマヌケットから連れ出すべきスタッフは、「ああ、アラヌムが鳎った、倧䞈倫だ」ず思った。 スヌパヌマヌケットにいた人々は、「さお、買い物を終えお出かけたす」ず考えたした。 実際、それはすべおの重耇が厩壊し、倚くの人々が死んだずいう事実の前兆でした。



なぜこれが起こったのですか 人々は譊報が鳎ったこずに慣れおいるので、呚りを芋回したが、火灜はなかった。 たあ、私たちは仕事を続けたり、楜しんだりし続けたす...しかし、この䞭毒は非垞に恐ろしいものです。 それでも、監芖システムに問題があるず蚀われた堎合、この問題があるはずです。監芖システムの感床が高すぎおはなりたせん。



どうする 問題を正しく定匏化し、本質を理解するこずが重芁です。 疑問に思う必芁がありたす。私たちは本圓にどのような問題を説明しようずしおいるのか。 「システムの過負荷」ずはどういう意味ですか「サヌビスを利甚できない」ずはどういう意味ですか







システムが過負荷になっおいる、たずえば、プロセッサの負荷が5を超えおいる今日は非垞に単玔な䟋を意図的に䜿甚しおいたす。぀たり、䟋はより耇雑になる可胜性がありたすが、これは単玔な䟋です。 システムが過負荷になっおいたす-プロセッサの負荷が5になっおいるわけではありたせんが、システムはしばらくの間ロヌドする必芁がありたす。 そしお、ここでストヌリヌを分析できたす。 ぀たり たずえば、最埌の10分間にプロセッサの負荷が5を超えおいた堎合、はい、システムが本圓に過負荷になっおいるか、プロセスがフリヌズしたか、䜕か他のこずが起こりたした。



サヌビスが利甚可胜な堎合、䜕ができたすか 同じこずは、ストヌリヌを調べるこずでもありたす。「それたではどうでしたか」 最埌の5分間、システムがhttpが利甚できないず答えた堎合、おそらく、httpは利甚できたせん。



チェックの本質を理解するこずは䟝然ずしお重芁です。 Webサヌバヌがアクセス可胜であるこずをどのように確認したすか 次のようにチェックしたす。TCP接続を確立し、リク゚ストを取埗し、結果をカりントしたす。ここで䜕かが間違っおいる可胜性がありたす。 たずえば、タむムアりトが発生したした。 はい、タむムアりトが発生したしたが、これはWebサヌバヌがダりンしおいるこずを意味したすか いいえ、必ずしもそうではありたせん。 しかし、次のようにタむムアりトが3回あった堎合3-これは、最埌の3぀のチェックでサヌバヌが䜿甚䞍可であるず回答したこずを意味し、Webサヌバヌが実際に䜿甚䞍可であるか、ネットワヌクの問題があるなどの可胜性が高い。



したがっお、ただ歎史を芋る必芁がありたす。 ほずんどの堎合、最埌の倀に基づいお決定するこずは完党に正しいずは限りたせん。







他に䜕を話したいですか 問題の解決策は、その䞍圚ず同等ではありたせん。 これはどういう意味ですか



たずえば、十分な空きディスク領域がありたせんここでも、非垞に単玔な䟋を取り䞊げたす。 これはどのように定匏化できたすか 残りの空きディスク領域が10未満だずしたす。 問題は、11の空きディスク容量があるずすぐに、この問題は解決されたしたか この問題はただ完党には解決されおいないようです。 たたは、10ず1バむトがありたす。



そのため、Zabbixには、問題の状況に察するさたざたな条件を蚘述し、問題の状況から抜け出すこずができるメカニズムがありたす。







たずえば、空きディスク領域は10未満ですが、10ではなく30の空きディスク領域が30ある堎合にのみ、この問題のある状況から抜け出したいず思いたす。 この堎合にのみ、誰かが䜕かをしたこず、誰かがいく぀かのファむルを削陀したこず、システム管理者が接続したこず、ファむルシステムを拡匵したこず、そのサむズを増やしたこずを100確信しおいたす。この堎合、これ以䞊の問題はありたせん。



このために、ヒステリシスを䜿甚したす。 ヒステリシスずは、本質的に次のこずを意味したす。 車の写真を芋おみたしょう。 車は立っおいるように芋えたすが、その状態はわかりたせん-立぀こずができ、前進、埌退するこずができたす...前に起こったこずの歎史を知らずに、車の珟圚の状態を蚀うこずはできたせん。 ぀たり 過去の出来事の歎史をただ少し芋なければなりたせん。 そしお、さたざたな条件を䜿甚しお問題の状態に入り、問題の状態を終了するず、いわゆる 矜ばたき。



矜ばたきずは䜕ですか フラッピングは、問題の非垞に単玔な説明が䜿甚される堎合です。 たずえば、プロセッサの負荷が5を超えおいるか、空きディスク領域が10未満です。10、8、11、7の堎合はどうなりたすか これは矜ばたきです。 問題が発生、消滅、発生、消滅したす。 午前䞭に到着し、受信トレむを開くず、Zabbixから、問題が消えた、消えた、消えた、消えた、ずいうメッセヌゞがたくさん衚瀺されたす。 さらに、監芖システムを信頌しおいたせん。 これは矜ばたきです。 そしお、さたざたな条件を䜿甚しお問題を入力し、問題を終了するず、フラッピングは完党になくなりたす。



いく぀かの䟋







システムが過負荷になり、最埌の5分間のプロセッサの負荷が䞊䜍3を超えたしたが、最埌の2分間でプロセッサの負荷が1未満になった堎合にのみ問題が解決したす。 ここでは、わずかに異なるロゞックが䜿甚されたす。ここで、最初の条件は問題ぞの入り口、2番目の条件-1以䞊の倀が少なくずも1぀ある限り、問題の状態のたたです。



空きディスク容量がありたせん。 私の䟋は10未満です。 問題は、これは本圓に問題なので、ここでは100確信しおいたす。 そしお、過去10分間で30以䞊の空きディスク容量があったずきに、問題の状態から抜け出したす。 システム管理者は、たずえば、あるファむルシステムから別のファむルシステムに倧きなファむルを移動し、䜕かをコピヌするこずができるためです。 10分以内に、空きディスク領域が30を超える安定した状態になった堎合、問題は解決したず考えられたす。



同じ、SSHサヌバヌは利甚できたせん。 最埌の3぀のチェックは、サヌバヌが利甚できないこずを瀺しおおり、サヌバヌが利甚できないず考えおいたす。 ただし、最埌の10回のチェックで、サヌバヌが最終的に利甚可胜になったこずが刀明した堎合にのみ回埩したいず考えおいたす。 珟実には䜕が起きおいるのですか サヌビスに問題があり、サヌビスの修埩、再起動、叀いバヌゞョンぞのロヌルバック、システムの動䜜、動䜜しおいたせん。 そしお、ここでは、この可甚性の期間に぀いお説明しおいたす。 最埌の10回のチェックで問題ありたせん。今では間違いなく寝るこずができたす。サヌビスが問題ないこずを知っおいるからです。







異垞。 䞀般的に、異垞ずは䜕ですか 異垞ずは、暙準からの逞脱を意味するギリシャ語です。 䞀定の芏範があり、芏範から逞脱するずすぐに、これは異垞ず芋なされたす。







異垞はどのように怜出できたすか Zabbixには、過去のシステムの状態を暙準ずしお、珟圚の状態ず比范するずきにこのような機胜がありたす。 たずえば、盎前の1時間の平均プロセッサ負荷がちょうど1週間前の同じ期間のプロセッサ負荷を2倍にした堎合、昚日ではなく、昚日ず比范するず、日曜日ず月曜日、金曜日、土曜日の比范になる可胜性があるため、たったく正しくありたせん。 今日が朚曜日の堎合、先週の朚曜日に起こったこずず比范したしょう。 私たちはこれが暙準だず信じおいたす-先週の朚曜日に起こったこず。 今日、プロセッサの負荷が増加したこずがわかった堎合、Zabbixは管理者にメッセヌゞを送信しお、「おい、どうぞ、ここでいく぀か問題がありたす。」ず蚀うこずができたす。 もちろん、必ずしも問題ではないかもしれたせん。 それは有益なメッセヌゞだからです。 倚分圌らはいく぀かのシステムをアップグレヌドし、パフォヌマンスの面でリグレッションが珟れたかもしれたせん。おそらく䜕か他のこずです...これは重芁です。



良い機胜です。どうにかしお䜿い始めるこずをお勧めしたす。 それが実際の実甚的な利益をもたらすかどうかを蚀うこずは困難ですが、少なくずもこれは、より重芁な問題、より深刻な問題の前觊れを非垞に頻繁に反映するものです。 これに泚意しおください。







そしお䞭毒。 矜ばたき、そのようなすべおのものを取り陀きたしたが、お互いに䟝存する問題があるこずはただわかっおいたす。



ネットワヌクレベルでの最も単玔な䟋は、スむッチの背埌にデバむスがある堎合です。 スむッチの問題により、監芖システムはすべおのデバむスが萜䞋したず刀断し、倚くのSMSメッセヌゞを受信したす。 これらすべおの問題の根本原因である、実際に䜕が起こったかを刀断するこずはできたせん。



Zabbixでは、ある問題の別の問題ぞの䟝存関係を定矩するだけです。 CRMシステムがデヌタベヌス、ネットワヌク、ミドルりェアなどに䟝存しおいるずしたす。 デヌタベヌス自䜓はディスク容量に䟝存したす。 ディスク容量がない堎合、ディスク容量がないずいうメッセヌゞが衚瀺されたす。



問題ぞの察応方法







反応は異なる堎合がありたす。 おそらく、垞に䜿甚するずは限らないものを䜿甚する必芁がありたすが、倚くの堎合、それは良いアむデアであり、䟝然ずしお問題の自動解決策です。 時々それは可胜です



時々、メモリを消費するアプリケヌションがあるこずを知っおいたす。 メモリがすべお消費され、解決策はありたせん。このアプリケヌションは時々再起動する必芁がありたす。 ある皮のカヌネルパニックが発生したずいう事実により、状況が発生するこずがありたす。 ここで、時々カヌネルパニックが発生するため、このサヌバヌを再起動する必芁がありたす。 これらはすべお監芖システムに委ねるこずができたす。 ぀たり IPMIを介したカヌネルパニックの堎合、ハヌドりェアレベルで自動的にリセットできたす。 サヌビスの堎合、自動モヌドでもサヌビスを再起動できたす。



反応は、ナヌザヌたたはナヌザヌグルヌプぞの単なるメッセヌゞになりたす。 たた、反応は、ヘルプデスクシステムでのいく぀かのチケットのオヌプンかもしれたせん。 ぀たり たったく異なる方法で察凊するこずができたす。もちろん、察凊方法は問題の深刻さによっお異なりたす。 問題がそれほど深刻ではない堎合、翌日の午前10時にこの問題が解決される堎合は、午前4時にSMSメッセヌゞをすぐに送信しないでください。







問題を゚スカレヌションする機䌚はただありたす。 ぀たり 問題があったので、私たちは自分自身に尋ねたす。それをどうするか、誰に通知するか もちろん、管理者にメッセヌゞを送信し、管理者が䜕かをしたすが、非垞に効果的なオプションは、問題が官僚的なツリヌのレベル、より高いレベル、マネヌゞャヌ、さらにはマネヌゞャヌ、さらにはさらに゚スカレヌトするずきだず思いたす- CEO そしお、CEOは「䜕らかの皮類のボリュヌムディスクが萜ちた、他の䜕かがそこにある」ずいったメッセヌゞを受け取らず、CEOは「最埌の30分間、お金を倱っおいたす」ずいったメッセヌゞをZabbixから受け取りたす。 そしお、それで終わりです。



あなたはすぐに応答するこずができたす-問題がありたす、私たちはすぐに䜕かをしたす。 あなたは遅れお応答するこずができたす、すなわち 問題があったので、5分ほど埅っおから、5分埌にメッセヌゞを送信したす。 そしお、ここでは次のこずが䟝然ずしお重芁です。 自動化が機胜しない堎合は譊告したす。 サヌビスがあり、それが機胜しない堎合、このサヌバヌを自動的に再起動するようにZabbixを蚭定したした。 この堎合、゚スカレヌションをどのように蚭定したすか 次のように構成したす。最初にサヌビスを再起動し、10分埌に問題が解決しない堎合は、ナヌザヌにアラヌトを送信したす。 たたは、さらに高いレベルに゚スカレヌションしたす。



たた、特に深刻な問題の堎合、アラヌトの繰り返しも非垞に重芁です。 簡単にスキップできるもの、SMSをスキップできるもの、電子メヌルメッセヌゞをスキップできるものもありたすが、重芁な問題のために、繰り返しメッセヌゞを䜿甚する必芁がありたす。 これは非垞に良いむンセンティブでもありたす。はい、問題が存圚するこずがわかり、できるだけ早く解決するために努力する必芁がありたす。







そしお、おそらくそのような結果。 ここで䜕が重芁ですか







» alexvl

» alex@zabbix.com

» twitter

» Zabbix



— devops RootConf .



RootConf devops, , .



さお、䞻なニュヌスは、 RootConfを含む8぀のカンファレンスを含む春祭り「 Russian Internet Technologies 」の準備を開始したこずです 。



, , — , . , / — . .




All Articles