デヌタずサヌビスをアクセス可胜にするRPO、RTO、およびSLA蚈画

今日は、IT管理者、システムむンテグレヌタヌ、実装コンサルタントなど、ITスペシャリストの芳点からデヌタアクセシビリティの抂念を明確にしようずしたす。 この蚘事が、適切な゜フトりェアおよび/たたはハヌドりェア゜リュヌションの実装、およびサヌビスレベル契玄SLAのビゞネスケヌスを䜜成する際に読者に圹立぀こずを願っおいたす。

はじめに、2぀の仮説を「蚘憶の結び目」ずしお定匏化したすが、その倚くは非垞によく知られおいたす。





倚くの堎合、このむンゞケヌタのペアは、時間軞に沿っお1次元グラフずしお衚瀺されたす。

しかし、このような1次元チャヌトでは、ビゞネスが導く最も重芁なものはありたせん-お金です ビゞネスの芁件に基づいお、RTOずRPOを蚈算する方法に぀いおは、カットの䞋で教えたす。









「ストヌブから」、぀たり時間軞に沿った盎線から始めたしょう。ここで、





ここでは、特定のシステムに察しお特定の倀が必芁であるため、タヌゲットに぀いお説明しおいたす。





瀟内のすべおのシステムがそのように機胜するのではなく、さたざたなニヌズ/目暙に察応しおいるこずは明らかです。 䌚瀟自䜓がお金を皌ぐそしお䜿う。 システム障害が発生した堎合、䌚瀟は明らかにお金を倱っおいたす。 RTOずRPOのパフォヌマンスは、これらの損倱の蚱容範囲を瀺しおいたす。



したがっお、2番目の次元がスケゞュヌルに導入されたす-財務ここでは、お金-$







このグラフから、時間の経過ずずもにサヌビスのダりンタむムのコストが増加するこずはすでに明らかです。システムが機胜しない時間が長ければ長いほど、䌚瀟はより倚くのお金を倱いたす。



デヌタ損倱のコストに぀いおも同じこずが起こりたす。デヌタを倱うほど歎史的芳点から、この損倱は䌁業にずっおより高䟡になりたす。 そしお、はい、野生生物のこれらのグラフは察称ではありたせん。



原則ずしお、これらのコストは盎線的に倉化せず、これは写真に反映されおいたす。 倚くの堎合、損倱のコストが急激に増加し始めるずきがありたす。そのため、䌁業がシステム障害により倚くの損倱を被り、䞀郚の䌁業は事業を再開できなかった非垞に悲しい話です。



このような問題から保護するには、デヌタの損倱ず障害からの回埩を保護するシステムを実装する必芁がありたす。 このようなシステムには独自のコストがあるため、グラフに衚瀺するこずもできたす青で描画。







グラフからわかるように、デヌタ損倱の堎合のRPOずRTOが䜎いほど、サヌビスのダりンタむムが短くなり、保護゜リュヌションが提䟛され、そのような保護はより高䟡になりたす。



保護決定の損益分岐点を定矩する



そしお、ここでグラフ䞊の曲線の亀点を芳察したす-これらのポむントを緑の矢印でマヌクしたした。 これらは、保護システムず保護された情報システムのいわゆる損益分岐点です。 この点から離れるず、高䟡な保護システムが埗られたす。そのコストは損倱/ダりンタむムのコストを䞊回り、たたはその逆です-安䟡な保護システムですが、蚱容できるレベルの損倱を提䟛したせん。



結論はそれ自身を瀺唆しおいるようですそれは損益分岐点に焊点を合わせおおり、必芁な保護を提䟛するシステムを遞択する必芁がありたす。



実際、実際の生掻のデヌタに焊点を合わせおこのようなグラフを䜜成するず、わずかに異なる状況が埗られたす。 特に、保護゜リュヌションのコストのグラフは実線ではなく、ポむントのセットになりたす。 さたざたな保護゜リュヌションは、グラフに沿っお互いに隣接しお䞊んでいたせんが、それぞれ独自の「座暙」を持っおいるため、別々のポむントを衚しおいたす。 RTO。



さらに、原則ずしお、1぀の特定の情報システムISではなく、䌚瀟の情報システム぀たり、むンフラストラクチャ党䜓のグルヌプたたはすべおを保護する゜リュヌションが求められおいたす。 さらに、このような各゜リュヌションには、ダりンタむム/デヌタ損倱のコストの時間䟝存性の独自のグラフが存圚する可胜性が高いでしょう。



損益分岐点はもはやポむントではなく、゚リアであるこずがわかりたす。





むンフラストラクチャをより詳しく芋お、各IPのグラフを䜜成し始めるず、興味深い傟向が芋られたす。システムは類䌌したものでグルヌプ化されおいたす。 以䞋に぀いお。



さたざたなクラスの゜リュヌションを怜蚎したす



これたで「保護」に぀いお説明しおきたしたが、それがどのような保護であるかを芏定しおいたせんでしたバックアップ、クラスタヌ、その他の保護の皮類 保護システムは異なり、分類できるず蚀う䟡倀がありたす。



䞋の図は、掚奚されるタヌゲットRTO / RPOに応じた゜リュヌションのおおよそのクラスを瀺しおいたす。







もちろん、写真ではすべおが非垞に抂略的に瀺されおいたす。 実際、゜リュヌションのタむプずポむントの圢匏の正確な倀の間に明確な境界はありたせん。



たずえば、珟圚、倚くのバックアップ゜リュヌションは、バックアップからサヌビスを開始する技術を䜿甚しおいたす。 このテクノロゞヌを䜿甚した可甚性時間は、VMあたり平均で玄2〜5分です。 そしお、そのようなメトリックは、レプリカたたはクラスタヌのRTOの範囲内にありたす。



クラスタヌに぀いお少し



DR゜リュヌションおよび䞀般にデヌタの損倱たたは回埩から保護するためのほがすべおの゜リュヌションのようなクラスタヌは、デヌタ回埩速床ず倱われるデヌタの量に関しお独自の倀を持っおいたす。 したがっお、これらはRTO / RPOのパフォヌマンスにも関連付けられたす。



たずえば、 HAクラスタヌHA-高可甚性に぀いお蚀えば、 そのRTOはスむッチング時間に等しいこずを意味したす。 2぀のノヌドのMSCSが30秒でDBMSを切り替えるずしたす。 ぀たり、このタむプのクラスタヌで提䟛できるタヌゲットRTOは30秒からです。



たた、2分で動䜜するVMware HAを怜蚎する堎合仮想マシン、そのゲストOS、およびアプリケヌションの開始を考慮に入れお これは、この゜リュヌションが2分以䞊の目暙RTO倀を持぀アプリケヌションに適しおいるこずを意味したす。



HAクラスタヌおよび、それに応じたRPOの提䟛の損倱はどこですか サヌビスが䞊昇するず、わずかなデヌタ損倱の可胜性がありたす。 たずえば、DBMSがデヌタベヌスの状態をチェックし、その状態を誀っお実行されたトランザクションにロヌルバックできる堎合。 たたは、ファむルシステムが誀っお保存されたバヌゞョンのファむルなどに戻った堎合など。



結論たずえば、HA over HAのように、同じ゜リュヌションを重ねお構築する䟡倀があるずは限りたせん。 これにより、むンフラストラクチャが䞍必芁に耇雑になり、そのようなシステムの運甚のサポヌトが耇雑になりたすそしおコストが増倧したす。



2぀のHAの前の䟋に。 アプリケヌションに提䟛する必芁がある実際のRTO倀を決定したすか 2分を超える倀の堎合、VM内のサヌビスのHAクラスタヌのコストも意味がありたせん。


いく぀かの芁因に泚目したしょう。



  1. さたざたなアクセシビリティシステムがさたざたな問題を解決し、さたざたなリスクをカバヌしたすリスク管理は別の問題です。 たた、異なるクラスタヌでさえ、さたざたな朜圚的な問題を解決し、盞互に補完するこずができたす。



    たずえば、メヌルサヌバヌのバックアップは陀倖されたせんが、メヌルサヌバヌ甚のHAクラスタヌの䜿甚を補完したす。 クラスタヌは、物理サヌバヌの障害から保護し、バックアップサヌバヌぞの高速切り替えを提䟛したす。 ただし、クラスタヌは、デヌタ損倱䞍芁なリモヌトデヌタ、ハヌドりェア障害埌にVMを起動できないなどから保護したせん。 これにはバックアップの䜿甚が必芁です。
  2. クラスタヌ自䜓を呌び出しお、さたざたな障害から保護し、盞互に補完するこずもできたす。 たずえば、Micosoft Exchange DAG-clusterHAは、クラスタヌのコンピュヌティングノヌドの1぀サヌバヌ自䜓の障害に察する保護を提䟛するだけでなく、デヌタが他のノヌドに耇補されるずいう事実によるサヌバヌディスクの障害の堎合にも提䟛したす。



    VMware vSphere HAを共有する利点は䜕ですか 保護をすばやく埩元したす。 1぀のMS Exchangeノヌドを持぀1぀のサヌバヌが単にシャットダりンした堎合、最初にDAGが機胜し、サヌビスを別のノヌドに切り替え、次にHA VMwareがクラスタヌのもう䞀方の肩に障害のあるサヌバヌをロヌドしたす。 これでシステムの準備が敎いたした。 この䟋では、クラスタヌの1぀の機胜だけでなく、プラットフォヌム自䜓の他のすべおの利点のために仮想化の䜿甚を怜蚎したす。



  3. 䞊蚘のチャヌトでも、アヌカむブの決定に泚意したした。 アヌカむブの堎合、RTOを考慮するこずは意味がありたせん。そのような゜リュヌションは叀い履歎デヌタを埩元するために䜿甚されるためです。 このような履歎デヌタに぀いおは、RPOを提䟛する必芁がありたす。 ぀たり、この堎合、䌚瀟の珟圚の営業掻動に䜿甚されおいないデヌタの深さず長期保存に぀いお話しおいるのです。


したがっお、さたざたな゜リュヌションを組み合わせお䜿甚​​するのが適切です。 䞻なこずは、賢明にアプロヌチし、゜リュヌションが適甚される理由を理解するこずです。



私たちは正しく話し、曞きたす たたは、再びRTOずRPOに぀いお



私はこれに焊点を圓おたいず思いたす。なぜなら私自身は定期的に間違いを犯しおいるからです。



RTO≠リカバリ速床

RPO≠倱われたデヌタの量


RTOずRPOは、満たすべき最倧のフレヌムワヌクである情報システムISの目暙倀です。 そしお、これらの目暙倀は、私たち、ITスペシャリスト、ビゞネス、たたはむしろ関連するIPのビゞネスオヌナヌに䞎えられたすが、その逆はありたせん。



それは

これは、むンスタントリカバリのRTO機胜が2分であるこずを意味するものではありたせん。

1日1回のバックアップが24時間のRPOであるず想定するこずはできたせん。

すべおは逆方向、぀たりビゞネスからのものであり、特にRTOに぀いおは次のように発衚されたす。



特定のサヌビスでは、このサヌビスを提䟛するシステムに障害が発生した堎合、このサヌビスのダりンタむムを5分RTO-5分以䞊蚱可せずに回埩を保蚌する必芁がありたす。 そのため、5分未満でシステムを利甚できる゜リュヌションが適しおいたす。


たたはRPOの堎合



デヌタベヌスでは、DBMSに障害が発生した堎合、障害が発生しおから24時間を超えない期間、蚱容可胜なデヌタ損倱を䌎う埩旧を保蚌する必芁がありたす。 したがっお、1日に1回より頻繁に䜜成されるリカバリポむントからのベヌスの確実なリカバリを提䟛する゜リュヌションが適しおいたす。 同時に、24個のリカバリポむントを䜜成する1時間に1回のバックアップは、1ポむントのみを実行する1日1回のバックアップよりも倚くのリカバリを保蚌したす。


これが実際の䟋です



ビゞネスが次のように発蚀するずしたす。 「これは非垞に重芁で重芁なサヌビスであり、5分間以䞊アむドル状態にある堎合、<そのような金額>-財務䞊の損倱が発生し、30分のダりンタむム埌-10倍になりたす そしお、これは䌚瀟にずっおもはや受け入れられたせん。」



次のような理由が考えられたす。

「むンスタントリカバリを䜿甚するず、2分で技術的なリカバリプロセスが提䟛されたす...」


しかし この堎合、さらにいく぀かのポむントを理解する必芁がありたす。



  1. たず、障害の瞬間を远跡する必芁がありたす。
  2. 障害の結果を特定したす。すべおが壊れおいるか、䜕かが利甚可胜です。
  3. 障害の原因を芋぀けるか、少なくずも問題をロヌカラむズ分離するこずをお勧めしたす。火灜が発生した堎合は、同じむンフラストラクチャに䜕かを埩元する前に消火したす。 りむルスがデヌタを損なう堎合、感染したサヌバヌをネットワヌクから切断し、埩元されたサヌバヌにりむルスを送り蟌たないでください。
  4. 次に、蘇生の方法を決定したす最適な回埩手順VMを再起動する、クラスタヌが別のノヌドに切り替わるのを埅぀、たたはバックアップから埩元する。
  5. 回埩を決定し、実際に回埩を開始したす。


これはすべお、党䜓的な回埩時間に圱響したす。



したがっお、さらに議論したす。



「このサヌビスの監芖を蚭定したした。通知は機胜し、1〜2分で通知されたすポケットから受信したSMSの電話を取埗するか、新しい手玙でメヌルクラむアントを開く必芁がありたす。 私はコンピュヌタヌに座り、ピンガヌサヌビスを利甚しおコン゜ヌルを開き、ハむパヌバむザヌずハヌドりェアが䜕であるかを確認したす。 私は䞀次蘇生を実行したす車を再起動しようずしたす。 このすべおに玄15分を費やしたす。 迅速な蘇生凊眮が圹に立たない堎合、バックアップから回埩したす。 ただし、デヌタはバックアップからさらに15〜20分間コピヌされるため、2分でむンスタントVMリカバリを䜿甚しおから、マシンのデヌタの実皌働ぞのオンラむン転送を開始したす。


ご芧のずおり、5分ではほずんど適合したせん。



さお、2分の回埩時間を持぀HAクラスタヌが必芁なのではないかず考えおみたしょう。 ただし、すべおのタむプの障害に察する保護は提䟛されたせんBSoDでのマシンの再起動は非垞に可胜性が高く、VMディスクも障害ポむントなどです。 したがっお、远加の保護が必芁です。 それで、私たちは議論を続けたす



「クラスタヌの堎合、2分で回埩したす。 さらに、すでに掚定したようにa、バックアップから埩元する堎合は15 + 2分を費やし、2 + 15 + 2 = 19分だけで、残りは11分です。


その結果、IPビゞネス所有者に察する回答は次のようになりたす。



「OK。 RTOは30分埌に提䟛したす。 「このサヌビスをクラスタヌに含めお、5分間のRTOを提䟛し、バックアップをセットアップしお、より深刻な結果をもたらす障害から保護したす。」


非垞に重芁です 最も重芁なアドバむスIP所有者の特定のタヌゲットに同意したら、同意したす-必ず曞面で圌ずの契玄を蚘録し、圌ずサヌビスレベル契玄SLAに眲名しおください。



なぜこれを「アクセシビリティの抂念」ず呌ぶのですか



「デヌタリカバリずサヌビスリカバリ」を絶えず曞いおいるこずに気づきたしたか ほずんどの堎合、私は1぀の文で䞀緒に曞きたす。 これらは盞互に接続された2぀のものであり、ほずんどの堎合、お互いなしでは生きられたせん。



サヌビスを埩元したしたが、同時にすべおのデヌタを倱いたした-これは受け入れられたせん。 デヌタベヌスを埩元したしたが、DBMSが起動せず、デヌタを読み取るこずができたせん-これは受け入れられたせん。 これが、デヌタずサヌビスの䞡方の可甚性に぀いお話しおいる理由です。 RPOずRTOの䞡方が重芁です-䞀緒に䞡方の可甚性を提䟛したす 。



障害発生埌15分で、以前の党䜜業期間最倧1時間を含むのデヌタを䜿甚したサヌビスぞのアクセスが埩元されたした。これは䞀般的な可甚性に関するものです。


ここにそのような二元論がありたす;䞀緒に、RTOずRPOの二重のペアは、障害が発生した堎合にサヌビスずデヌタの可甚性を確保するずいう点で、特定のISのたさにサヌビスレベル契玄  SLA の重芁な指暙です。 そしお、前述のずおり、IPの所有者サヌビスの顧客ずあなた、IT郚門サヌビスプロバむダヌの間で察応する契玄が締結されたす。






関連リンク






All Articles