無料のMitrendサヌビスを䜿甚したスト​​レヌゞパフォヌマンスの゚クスプレス分析の䟋





パフォヌマンスの問題の研究ず解決策の怜玢は、倚くの人がよく知っおいたす。 I / O統蚈甚の倚数の芖芚化および解析ツヌルがありたす。 珟圚、むンタヌネットサヌビスに基づくマむニングの自動化が勢いを増しおいたす。



この投皿では、これらのサヌビスの1぀Mitrendに基づいお、ストレヌゞパフォヌマンスの問題を分析する䟋を共有し、それを解決する方法を提案したいず思いたす。 私の意芋では、この䟋は興味深い研究であり、私の意芋では、幅広いIT読者に圹立぀かもしれたせん。



そのため、顧客はEMCに、SANに展開されたVNX5500ハむブリッドストレヌゞシステムのパフォヌマンスを確認するように䟝頌したした。 VMwareサヌバヌは、むンフラストラクチャタスクからファむルボヌルやデヌタベヌスサヌバヌに至るたで、すべおが回転するストレヌゞシステムに接続されおいたす。 この迅速な評䟡の理由は、VNXに接続されたサヌバヌに展開されたアプリケヌションのフリヌズに関する苊情でした。



前凊理には、無料で利甚可胜なMitrendサヌビスを䜿甚したした。

このサヌビスの詳现な説明はこの投皿の目的ではないため、すべおの人にこのサヌビスの詳现を孊んでもらいたす。Web サむトにアクセスしお、自分で確認しおください。



Mitrendは、調査䞭のシステムからI / O統蚈を含む入力ファむルを受け取り、最も頻繁に芁求されるパラメヌタヌのグラフを䜜成し、予備分析を行いたす。その結果は埌で䜿甚されたす。







このような分析の䞀䟋は、システムのさたざたなコンポヌネントがさたざたな時点でどれだけ忙しいかを瀺すヒヌトマップです。 実際、これはシステムずそのコンポヌネントの抂略図であり、それぞれに負荷のグラフが構築されたす。 それを䞀般的に芋るず、朜圚的に問題のある堎所を芋るこずができたす。 この堎合、曞き蟌みキャッシュが問題であるこずがわかりたす。 グラフは次のずおりです。







曞き蟌みキャッシュの廃棄は高レベルで、通垞の「腰痛」からレッドゟヌン90を超えるが発生したす。



これは、パフォヌマンスの問題の兞型的な症状です。 䞀皮の「高枩」。 この堎合、このような状況に぀ながるものを正確に調査し、解決策を抂説する必芁がありたす。



ディスク、プロセッサヌ、入出力ポヌト、ディスクバスはロヌドされたせん。 レコヌドキャッシュが「詰たっおいる」ずいう事実の䞭で、これは少し奇劙です。















次に、ディスクをさらに詳しく芋おみたしょう。 わかりやすくするために、さたざたな皮類のディスクをカラフルな線で囲み、以䞋の凡䟋に眲名したした。 分析ファむル自䜓では、これは凡䟋なしで衚瀺されたす。







䞀般的なディスクシステムを詳しく芋おみたしょう。各200 GBの3぀のフラッシュドラむブのうち、2぀は183 GBの有効容量でFAST Cacheに構成され、3぀目はホットスタンバむになりたす。 ぀たり ホットスタンバむを備えた非垞に信頌性の高いミラヌフラッシュキャッシュ。 その䜜業の有効性は、以䞋のグラフで芋るこずができたす







システムには、たったく䜿甚されおいない5぀の900 GBのディスクがありたす。 これらはシステムディスクであるため、パフォヌマンスの問題を匕き起こすずいう意芋があるため、習慣から倖さないようにしおいたす。 このテヌマに関する私の意芋は、あなたが有意矩にそれを行えば䜿甚できるずいうこずです。 パフォヌマンスの問題は通垞、たったく異なる理由によりたす。



通垞、異なるタむプのディスクがハむブリッドプヌルに結合されるため、システム自䜓がデヌタを配眮するのに適した堎所を決定したすFAST VPを䜿甚。 しかし、この堎合、実装を実行する専門家は、この重芁な問題に぀いお圌女を信頌せず、ドラむブのタむプごずにデヌタを厳密に分割したした。 したがっお、ディスクは2぀の個別のグルヌププヌル0ずプヌル1に分割されたす。これは、パフォヌマンスの芳点からディスクを分離し、重芁でないアプリケヌションが速床を必芁ずするアプリケヌションに圱響しないようにするためです。



プヌル0RAID5は、重芁なアプリケヌションサヌバヌ甚に蚭蚈されおおり、SAS 10kドラむブで構成されおいたす。



プヌル1RAID6-これらはナヌザヌの「ボヌル」であり、あらゆる皮類の芁求の厳しいパフォヌマンス環境です。 NL SAS 7.2kドラむブで構成されおいたす。



ディスクグルヌプの抂芁を調べるず、プヌルグルヌプ1でFAST Cacheが無効になっおいるこずがわかりたす。







顧客ずの䌚話により、これはパフォヌマンスが重芁なプヌル0のリ゜ヌスの優先床を䞊げるこずを目的ずしお行われたこずが明らかになりたした。



これにも関わらず、ディスクがほずんどロヌドされおいないプヌル0を䜿甚しおいるアプリケヌションから苊情が寄せられおいるこずに泚意しおください。 さらに、このプヌルのすべおの読み取り操䜜の80およびすべおの曞き蟌み操䜜の91がFAST Cacheによっお凊理されたす。











぀たり、FAST Cacheアプリケヌションの驚くべき効果にもかかわらず、問題が発生しおいたす。 なんで 先に進むために、LUNずそれらの間の負荷分散を芋おみたしょう。







最も負荷の高い3぀のLUNは、RAID6の最も䜎速なNL-SASディスクに配眮されおいるこずがわかりたす。 それらに぀いおの苊情はありたせん。 ナヌザヌずの䌚話から、VNXに切り替えおからファむルサヌバヌがすぐに機胜し始めたこずに非垞に満足しおいるこずがわかりたした。



プヌル0のLUNに぀いお苊情がありたす䞊のグラフの緑。 具䜓的には、以䞋の衚にリストされおいる0から8たでの番号を持぀LUNに぀いお説明しおいたす。







ここで、LUNの䜿甚率を芋るず、プヌル0のLUNの䜿甚率がかなり䜎いこずがわかりたす。 䞋のグラフは、LUNの氎平方向の番号を瀺しおいるため、どのLUNが「私たち」であるかを簡単に識別できたす。 それらの䞭で最も「ロヌド」されおいるのは40だけです。







システムは「平均的な善」で動䜜したす。 10ミリ秒以内のボリュヌムの平均応答時間。 これは病院の平均気枩です。



問題のあるLUNの負荷が䜎いずいう事実を背景に、問題は共通のリ゜ヌスに察する競合であるず結論付けるこずができたす。







システムキャッシュの仕組みを芋おみたしょう。 キャッシュからの読み取りは非垞に効率的です。







曞き蟌みキャッシュの動䜜を分析するず、その負荷は60〜80の指定フレヌム内に維持され、最倧90以䞊の呚期的なバヌストが発生したす。 これはあたり良くありたせん。







キャッシュを蚱容可胜なレベルにクリアするために、システムが極端な手段に頌らなければならない頻床を芋おみたしょう。







これは、システムが蚘録のバヌストを解決する時間がないこずを意味したす。 ただし、䞊限ず䞋限をより快適なレベルに移動するこずにより、システム蚭定を倉曎できたす。 たずえば、30〜50。 しかし、これは患者の䜓枩を䞋げるこずず同じです。 これを行うには、最初に蚺断ず根本原因を䜜成する必芁がありたす。 次に、プヌルを芋お、匷制的にキャッシュフラッシュが発生する原因を正確に理解しおみたしょう。







䞡方のディスクプヌルで、定期的な匷制ドロップが発生するこずがわかりたす。 さらに、これがプヌル0孀立したケヌスで非垞にたれに発生する堎合、プヌル1ではこの状況は非垞に困難です1時間あたり数十および数癟のむベント。 しかし、私たちはたさにプヌル0に興味がありたす。すべおが順調ですよね。



私たちは解決策に近づきたした。 ただし、先に進むために、VNXの曞き蟌みキャッシュの完党性を管理するロゞックを説明する必芁があるため、䜙談です。 以䞋に説明したす。





通垞モヌドでは、システムは2぀の境界-高氎準点ず䜎氎準​​点の間のキャッシュを維持したす。



䞋限は、それ以䞋の曞き蟌みキャッシュがフラッシュされないしきい倀です。キャッシュに含たれるデヌタは、読み取りたたは䞊曞きが必芁になる堎合があるためです。 さらに、VNX曞き蟌みキャッシュはその性質䞊、特定の数のデヌタブロックを保持したす。それらは、物理ディスクぞの曞き蟌みのために、他の近くのブロックずの蚘録に結合できるこずを期埅しおいたす。 これにより、バック゚ンドの負荷が軜枛されたす。



䞊限は、ディスク䞊の曞き蟌みキャッシュのフラッシュを有効にするためのしきい倀です。 High Watermark Flushingモヌドがオンの堎合、キャッシュからディスクぞのデヌタは䞋䜍レベルにフラッシュされ、その埌スタンバむモヌドに戻りたす。



キャッシュを100にしたくないのは、新しい゚ントリ甚のスペヌスを提䟛できないためです。 したがっお、䞊限を100から安党な距離に維持しようずしたす。 通垞、80が正垞です。 しかし、それは䜎くなる可胜性がありたす。 それはすべお負荷の性質に䟝存したす。



キャッシュが100たでいっぱいになった堎合、High Watermarkフラッシュモヌドから、システムは匷制キャッシュフラッシュたたは匷制フラッシュを有効にしたす。



匷制フラッシュモヌドは、ストレヌゞぞのすべおの曞き蟌み操䜜に倧きな圱響を䞎えたす。 新しいデヌタはストレヌゞシステムに远加の遅延で曞き蟌たれたす。 ぀たり ストレヌゞシステムにデヌタブロックを曞き蟌むには、最初にLRU最長時間未䜿甚アルゎリズムなどを䜿甚しお、叀いデヌタからスペヌスを解攟する必芁がありたす。



状況に戻りたしょう。 明らかに、遅いプヌル1は曞き蟌みキャッシュの点で匱点です。 RAID6の䜎速ディスクに到着したデヌタは、必芁以䞊にキャッシュに残り、匷制フラッシュでは、物理ディスクに切り替えるのに時間がかかりすぎたす。



プヌル0はFAST Cacheを䜿甚し、ほずんどの芁求はフラッシュドラむブから提䟛されるこずに泚意しおください。 匷制フラッシュが到着するたで、フラッシュ応答時間は、デヌタがNL-SASにフラッシュされる速さに䟝存し始めたす。 匱いリンクが芋぀かったようです。 この結論が真実である限り、実際の仮説のテストは瀺すべきです。



それでは、「容疑者」のアリバむ-NL-SASディスク䜿甚率の䜎䞋をどのように説明できたすか 負荷倀は時間間隔党䜓の平均であり、この堎合は統蚈収集間隔が10分だったため、この時間䞭にデヌタ蚘録の短いバヌストが発生し、アプリケヌションの短い「フリヌズ」が発生し、平均10分で負荷がそれほど倧きくなかった可胜性がありたす。 匷制フラッシュが最も重芁であるこずがわかったため、このディスクプヌルの「眪悪感」に぀いお疑いの䜙地はありたせん。



これに぀いお䜕ができたすか



新しい䞖代のアヌキテクチャを備えたシステムでの構成の叀いアプロヌチが䜿甚されるため、それ自䜓で行われた実装には蚈画゚ラヌが含たれたす。 顧客ずのコミュニケヌションは、問題が以前に採甚された基準にあり、蚈画時に修正されおいないこずを明確にするのに圹立ちたした。 しかし、システムはすでに戊闘状態にあり、再構築できないため、アプリケヌションの動䜜を䞭断させないために、オンラむン再構成の分野で解決策を暡玢しおいたす。



私は、個別にたたは䞀緒に、盞互に補完するこずができる少なくずも3぀の手段を芋぀けたした。 実装の耇雑さの皋床でリストしたす。



  1. ストレヌゞシステムが定期的な負荷のバヌストを解決するには、䜎/高りォヌタヌマヌクを30/50のレベルたで䞋げお、これらのバヌストが正垞に凊理される方法を確認する必芁がありたす。 理想的には、バヌスト䞭の曞き蟌みキャッシュの充填が90に達しおはなりたせん。
  2. プヌル1でFAST Cacheを有効にしたす。最も頻繁に曎新されるデヌタは、䜎速ドラむブからSSDに切り替わりたす。 SSDの曞き蟌みキャッシュのフラッシュははるかに高速です。 これにより、匷制フラッシュが発生する可胜性が䜎くなりたす。
  3. 無料のSAS 900GB 10kディスク4個にRAID10 RAIDグルヌプを䜜成し、最も頻繁に曎新されるLUNをプヌル1からそれらに転送したす䜜成されたRAIDグルヌプで、曞き蟌みキャッシュをオフにしたす。




他の最適化方法もありたすが、可胜なアプロヌチの1぀をよりコンパクトに瀺すために、この䟋を耇雑にしないように具䜓的に詊みたした。



䞊蚘の倉曎はすべお元に戻すこずができ、任意の順序で適甚たたはキャンセルできるため、これらの手段から始めるこずができたす。



システムの動䜜をさらに研究する過皋で、他の有甚な結論を䞋すこずができたす。



あずがき



むンテリゞェントストレヌゞシステムには、分析ずパフォヌマンスチュヌニングの䞡方のための豊富な組み蟌み機胜がありたす。 ただし、詳现な手動分析ずチュヌニングは、この投皿で衚面的にのみ觊れた非垞に時間のかかるタスクです。 通垞、管理者はストレヌゞの操䜜ずその最適化を完党に研究する時間はほずんどありたせん。 動的なワヌクロヌドずたすたす耇雑になるITむンフラストラクチャでは、新しいレベルの開発ず自動化が必芁です。



これらの問題を解決するために、あらゆるレベルでさたざたな技術が開発されおいたす。



より䟿利で高速なパフォヌマンス分析から、新しいむンテリゞェントで自己最適化システムたで。

以䞋に䟋を瀺したす。




All Articles