劄想的な䜜業灜害埩旧/継続蚈画、met石、ゟンビの黙瀺録、1000人のクリヌナヌ、地獄ぞのポヌタル



「マルチカヌト」の第1レベルの事故を解決するスキヌム



2007幎頃たで、倧䌁業向けのフォヌルトトレラントなむンフラストラクチャがなかったずいう神話がありたす。 同様に、DRP灜害埩旧文曞が出珟し始め、リスク管理郚門が際立っおいたなどです。



これは真実ではありたせん。 その盎前には方法論も英語名もありたせんでしたが、システム自䜓はそうでした。 「芏則によっお呌ばれる」ようになった最初のプロゞェクトは、アルファのむンフラストラクチャでした。 SberbankずTransneftでは、私の知る限り、フォヌルトトレラントむンフラストラクチャも䜕䞖玀にもわたっお存圚しおいたしたが、「バックアップデヌタセンタヌ」ず呌ばれおいたした。 などなど。



そしお、DRPず継続性に関する他の神話を払拭したしょう。 それず同時に、私たちの最新プロゞェクトである「マルチカヌド」の緊急蚈画、぀たりロシアでのすべおのカヌド支払いが行われるシステムに぀いおお話ししたす。



そしお、もちろん、壮倧な倱敗の物語。



-リスク管理は、最初の重倧なレヌキの埌に行われたす。

これは郚分的には神話ですが、前䟋は確かにそうです。 誰かのデヌタセンタヌが燃え尜き、誰かが望みよりも近い光回線で掘削機に出䌚った、などなど。 そしお、繰り返したくない。 しかし、倚くの堎合、問題の可胜なバリ゚ヌションの開発は単玔に評䟡され、各オプションにはコストず確率がありたす。 確率にコストを掛けるず、仮想むベントから非垞に具䜓的な物理的損傷が生じたす。 そしお、それは簡単です。この損害が瀟内での緊急手順を維持するためのコスト以䞊であれば、圌らは単に良い投資になりたす。



歎史的にモスクワにありたしたが、深刻な蚈画のほずんどは2005幎に曞かれ始めたした。 その埌、倚くのこずが倱敗したした。 2005幎たでは、単玔に機噚を隣の建物に運ぶこずが可胜であり、これが暙準ず考えられおいたした。 倉電所が倒れ、電力網が郜垂の半分だけで厩壊したずき、新しいビゞョンがすぐに倚くの人々にもたらされたした。 亀通枋滞のサンルヌムがデヌタセンタヌに届かなかった堎所。 ディヌれル゚ンゞンが2幎間チェックされなかった堎所で、ディヌれル燃料がフラクションに分解され、その結果、ディヌれル゚ンゞンが氎に奪われたした。 VTBが新しいデヌタセンタヌの堎所を遞んだずき私たちは少し助けたした、私たちはモスクワの゚ネルギヌゟヌンの地図を芋たした。



-損害のコストの評䟡は、すべおの圱響芁因に぀いお行われたす。

よくない。 私の蚘憶では、事故による盎接的な損害は、䌚瀟が事実䞊芋たものよりも数倍倧きいこずが繰り返し刀明したした。



䟋は次のずおりです。デヌタセンタヌの建物の火灜は2぀のシナリオです。 最初は、実際に、消火ずバックアップデヌタセンタヌぞの切り替えサヌビスをトリガヌする「マむナス100䞇」の話です。 盎接的な技術コスト。 次に、非皌働のATM銀行の堎合、他の銀行に出向く顧客、芏制圓局に远い぀くなど、評䟡が困難なその他の倚くのATM。



たたは、オフィスが燃えおいたす。 ある銀行のオフィスの骚nにたばこの吞い殻が投げられたケヌスを知っおいたす。 投祚箱がくすぶり始め、誰かが消火開始ボタンを抌したした。 消防士が到着したした。 入り口で、圌らはチヌフITスペシャリストず譊備員に䌚いたした。 圌らは動揺し、手で抱かれ、入り口を死䜓で芆った。圌らは䜕もするこずはなく、たばこの吞い殻だず蚀った。 しかし、消防士には指瀺がありたす。 圌らはオフィス党䜓を取り、床から0.5メヌトルの泡で満たしたした。 付属の機噚ずすべおの曞類の䞊に盎接。 その埌、銀行での暙準的な手順は、1か月間の調査のために建物を封印するこずです。 ITの芳点からは、すべおを転送する必芁がありたす。 この銀行は玄30幎間このような状況の蚈画を曞いおきたため、予備の仕事がありたした。 再開、立ち䞊げ。



-継続性蚈画を曞くためのこのようなレベルの劄想は、銀行のみにありたす。

もちろん、これはそうではありたせん。 過去7〜8幎にわたっお、銀行、保険䌚瀟、通信、小売の4぀の業界が継続性に取り組んできたした。 最初の3぀は理解できたす。実際の構造に関しおは銀行であり、同じモバむルオペレヌタヌず倧芏暡銀行のむンフラストラクチャレベルの違いは、2぀のむンタヌネットプロバむダヌの違いよりもはるかに小さいこずがよくありたす。 実際、圌らは同じこずをしおいるからです。 神話は、金融機関のみが、䞭倮銀行の基準レベルの管理の圢で芏制の枠組みを持ち、芪組織からの監査の圢で囜際的なものを持぀ずいう事実に関連しおいたす。 すべおの銀行ずほずんどのオペレヌタヌは、幎に䞀床怜査を受けたす。 問題が発生した堎合、ラむセンスを取り消すこずができたす。 祖母が幎金を取埗できなかった理由をテレビで説明したい人はいたせん。



小売店は独立しおいたす-原則ずしお、利益に基づいおそれ自䜓にのみ焊点を圓おおおり、シンプルは受け入れられないこずを完党によく理解しおいたす。 1日を過ごすず、1日の売䞊高に加えお、将来の顧客を倱いたす。



たた、䌁業の成熟床が高たっおいるため、範囲が拡倧したす。 そしお、誰もが䜕を、なぜを理解しおいたす。 小売業-競争力。 たた、海倖では、保険率も䜎くなっおいたす。 オペレヌタヌず銀行は、PRなどのたすたす重芁な問題を抱えおいたす。 最埌の倧きな領域から-DRP業界はDRPに匷く悩み始めたしたが、ここでは、原則ずしお、継続性を単にビゞネスの基本芏範ず芋なし、西郚の所有者が抌しおいたす。



-灜害埩旧はIT郚門の仕事です。

䞻なリスクはほずんどの堎合、ITむンフラストラクチャノヌドの障害の領域にあるずいう事実にもかかわらず、これはただIT郚門によっお行われおいたせん。 そしお、セキュリティではありたせん。 そしお、もちろん、財務郚ではありたせん。 ただし、リスク管理のむニシアチブは通垞これらの3぀のポむントから発生するため、最初は瀟内で䞻芁なITリスクが匷調され、それを解決し始めるのはITスペシャリストですこれらは2000幎から2005幎の話です。 原則ずしお、ビゞネスの各段階で冷静な財務評䟡が開始され、他のリスクがあるこずが明らかになりたす-PR郚門、サポヌトサヌビスたずえば、䞀時的なオフィスを展開するため、人員などがプロセスに含たれたす。 その結果、リスクを最小限に抑えるこずに取り組んでいる別のチヌムたたは郚門が遞ばれたす。



これは通垞起こりたす圌らはむンフラストラクチャず管理プロセスの調査を始めたす。 䜿甚される方法は非垞に異なりたす-ISOからITILたで。 脅嚁のオプションが収集され、その圱響が分析されたす。 それから、政策の構築、継続条項、緊急蚈画の出珟。 基本郚分が完了するず、すべおのプロセスの詳现化が行われたす。特定のむンシデントの管理、「緊急事態の封筒」、定期的なメンテナンス蚈画、偏執的なスクリプトの開発です。 継続性管理のプロセスが構築されおいたす。 次に、テスト、挔習、「䜕をすべきか」の皮類に関する盞談、盞談。



残念ながら、倧䌁業で最初から最埌たでDRPを提䟛できる専門家はそれほど倚くありたせん。 財務資栌、管理職、ITが必芁です。 したがっお、人は本圓に指で数えるこずができたす。 原則ずしお、各銀行ず通信䌚瀟、たたは特定のビゞネスに結び぀いおおり、他の䌚瀟の詳现に察しおあたり準備ができおいないチヌムには、1人の明るい人栌がありたす。



䟋から、Rosevrobankの継続性に関するコンサルティングサヌビスを提䟛したした。 䞻な郚分は管理リスク管理に関するものでしたが、はい、結果にはハヌドりェアおよびITプロセスの䜜業が含たれおいたした。



「ディザスタリカバリプランの開発には、非垞に費甚がかかりたす。」

はい、いいえ。 事実、通垞、そのような䜜業ITだけでなく、リスク管理に぀いお話すは、倧䌁業で倧芏暡なプロゞェクトのポヌトフォリオを持぀䌁業の監査ずコンサルティングを任されおいたす。 自慢したくない しかし、実際には、ロシアの倧芏暡なITむンフラストラクチャの少なくずも3分の1が独自の手を構築したため、同様のサヌビスは安䟡であり、同時にビゞネスに぀いおもよく知っおいたす。 もちろん、私たちは名前を亀換したせんが、うたくいっおいるのはビゞネスの継続性です。



「ビッグフォヌ」の偎面には、西掋垂堎で理想的になめられた方法論ず優れた自動化補品がありたす぀たり、それらは垂堎の「マクドナルド」の䞀皮です。 高速で予枬可胜。 しかし、生埒はポテトをフラむしたす。 実際、これはロシアのこれらのタフな男たちず競争するこずを可胜にする別の結果をもたらしたす圌らはプロセス、巊たたは右ぞの䞀歩-実行に埓っお正確に動䜜したす。 しかし、実際のビゞネスではこれは必ずしも適切ではありたせん。 状況はさらに楜しいです経隓的経隓ず実際のむベントに基づくずしたしょう、そのようなプレヌダヌが私たちの垂堎に来お、巚倧な䟡栌を出しお、支払いを受けおから、䞋請けに地元の人を雇いたす。 圓然、圌らはそのような申し出で私たちのずころに来たした。



-あなたは意志の努力によっおDRP蚈画を立おる必芁があり、心配しないでください。

残念ながら、これは機胜したせん。 セキュリティのようなものです。䞀床ルヌルを蚭定しお党員に教えるこずはできたせん。 䌚瀟に新しいプロゞェクトが衚瀺されたら、すぐにセキュリティず灜害埩旧の䞡方の芁件をその䞭に定める必芁がありたす。 たずえば、圌らはサヌビスを行った-内郚暙準のレベルですぐに、デヌタセンタヌの2番目のサむトぞの移行を芁求し、それでの事故チャネルの劣化䞭たたは停止䞭の堎合に䜕をどのように行うかを説明し、埩元の優先床を割り圓お、技術サヌビス、セキュリティ担圓者、IT郚門のドキュメントを倚数曎新したす。 どのメンテナンス䜜業がい぀必芁かを曞き留めおください。 そしお、これは最も簡単です。



倖郚リスクは垞に倉化しおいたす。 たずえば、2011幎以降の地政孊的リスクが優先されたした。 これは、すべおの蚈画を倉曎するこずを意味し、堎合によっおは管理プロセス自䜓を倉曎するこずもありたすそのレベルでDRPを䜿甚する堎合。 繰り返しになりたすが、モスクワの倧芏暡なロシアの銀行の本瀟近くで10䞇人が参加しお集䌚が開かれたずき、圌はすべおをバックアップデヌタセンタヌに投入したした。 OMONが走り始めたので、もしOMONが近くを走るず光を遮るこずができるずいう兆候がありたす。



たたは、ある倧芏暡な携垯電話䌚瀟が西偎から監査を受けたした 。 それらの䞋で、厚いレンガで継続蚈画を立おたした。 これらの蚈画を曎新した人はいたせんでした。 数幎が経ちたした。 新しい領域が出珟し、挔算子自䜓の構造が倉曎されたした。 そしお、遠く離れた銀河で、途切れるこずのない電力がデヌタセンタヌに萜ち始めたした。 ゚ンゞニアはサヌバヌをシャットダりンし、再び電源を入れたす。 そしお、そのようなカルヌセルは玄30分です。 灜害埩旧蚈画が含たれおおり、すべおのIPアドレス指定は既に新しいものです。 こんにちは



ちなみに、オンオフの掚枬はDRPずは関係ありたせんでしたが、非垞に面癜かったです。 UPSが離陞したした-その結果、サヌバヌがりォヌムアップし始めたした。 ゚ンゞニアはそれらを消したした。 このサヌマルショットダりン䞭に、バッテリヌは切断されたした。 負荷が䜎䞋し、すべお冷华され、すべおが自動的にオンになりたした。 加熱が再開されたした。 その結果、問題を探しおいる間、ゞャンプは切り替えからただ1時間半でした。



-灜害埩旧蚈画では、すべおの状況を考慮する必芁がありたす。

䞀般にそうではありたせん。 第䞀に、蚈画の本質は、問題の発生を防ぐこずです予防。 第二に、原則ずしお、入門的なもの-圌らは「電源を切る」のではなく、「そのようなサヌビスは機胜したせん」。 動䜜しない理由はそれほど重芁ではありたせん。飛行したストレヌゞシステム、砎壊されたデヌタセンタヌ、たたは実際の電源が二次的です。 別のサむトでこのサヌビスを実行するために最初に必芁なこず。 むンシデントのSLAは、内郚暙準があるか、倚くの状況でたったく存圚しないため、垞に芏定されおいるわけではありたせん。



必芁なドキュメントは次のずおりです。





-私たちはアクティブ-アクティブを行い、心配しないでください

実際には、経隓豊富なCIOはデヌタセンタヌ間のバランスを本圓に嫌いたす。 事実、私の蚘憶では、アクティブ-アクティブに関する単䞀のストヌリヌが時の詊緎をパスしおいたせん。 最初は、すべおが完璧に芋えたす。 チヌムが入っお、バランスを取り、プロセスが始たりたす。 そしお、それは䌞びる、䌞びる...



1぀のシステムでは、200〜300の統合ポむント-監芖するこずは䞍可胜です。 シナリオは珟実的でなければなりたせん。 顧客が絶えず曎新される蚈画ずむンフラストラクチャに぀いお話す堎合でも、詊甚テストを行う䟡倀がありたす。 これは、単に教育目的のために、象城的なお金のために行いたす。 私の蚘憶では、誰も合栌したせんでした。 顧客自身が珟実の䞖界の始たりを理解しおいたす。



テストに関する倧芏暡な挔習があったこずを芚えおいたす-アクティブ-アクティブ-バックアップスキヌムのアクティブなデヌタセンタヌの1぀をオフにしたした。 これは、バランス調敎を行っおから玄1幎埌に起こりたした。 テスト蚈画は毎分、非垞に詳现でした。 すべおは順調に進んでいたが、VMwareを切り替えたずきに初めお、仮想マシンの違いが転がるような堎所があるこずが突然明らかになった。 2番目のデヌタセンタヌのゎヌルデンむメヌゞ自䜓のみが、バヌゞョンのわずかに遅れおいたした。 少しだけ。 そしお、曎新されたマシンをフックしようずするず、Linuxクラスタヌは冬の収穫のようにカヌネルパニックに陥りたした。 ダりンタむムの30分ではなく、5時間になりたした。 それから恐ろしい蚀葉「窓に圓たらなかった。」



このテストは軜床でした-スむッチが匕っ匵られたのではなく、単にメむンデヌタセンタヌを正しく分離したした。 䞀方、私はオフィスサヌビスのたったく異なるテストを芚えおいたす。 そこでは、シナリオをチェックするためにサむトが切り替えられたずきに、同期のすべおの穎が塞がれたわけではありたせん。 たた、コヌルセンタヌの䞀郚の呌び出しずオフィスのトラフィックは、間違った方向にcいたした。 デヌタが砎損しおいたす。 そしお、取匕のある顧客カヌドがありたす。 箄200のサブシステムに関連付けられおいたす。



たずえば、契玄の合意。 支払い泚文の亀枉から支払いたでの最も簡単なプロセスは、14の論理ステップです。 たずえば、ステヌゞの1぀で、ベヌスが10秒の拡匵で回埩したした。 そしおそれだけです、ドキュメントにこんにちは。 オラクルは䞊昇したしたか はい ベヌスは良いですか はい ドキュメントを䜿甚できたすか いや 䌚蚈は泚文ですか たあ、ほが-40コペックでは、バランスは収束したせん。 そしお、これを芋お䜕かの䞻任䌚蚈士はヒステリックに転がりたす。



論理的には、30分ドロップしおから数か月埌に手を遞ぶか、配線ロゞックを自動的に確認する必芁がありたす。 そのため、次の2぀の結果がありたす。



  1. たたは、通過が完了したチェックされたずきに、cなリアルタむム監芖システムが䜜成されたす。 そしお、すべおのサブシステムに察しお、リク゚ストが成功したかどうかを確認したす。 たずえば、トップ5の銀行は、このようなすべおのプロセスの敎合性の監芖に明らかに関心を持っおいたす。 合蚈9個のれロを持぀翻蚳がある堎合がありたす。 このようなトランザクションを台無しにした堎合-たあ、それは少し悲しいでしょう。
  2. たたは、バックアップデヌタセンタヌは予備です。 郚分的な䜿甚なし、アむドル容量の䜿甚。 どちらかずいえば、私たちはそれを保存し、その䞭に最倧6か月間䜏んでいたす。そのため、鉄の力で十分です。




-DRPを䜿甚するず、プロセスが倉わりたす。

いいえ、プロセスを倉曎できるのは䌁業管理者のみです。 プロセスの継続性に関する䜜業䞭、誰もプロセス自䜓に觊れたせん。 連続性の芳点からどのように機胜するかに぀いお説明したす。 それは正しいか間違っおいないかもしれたせん-しかしそれはビゞネスの芳点であり、連続性ではありたせん。 ビゞネスがより重芁です。 私たちのタスクは、そのリスクず脅嚁を特城付けるこずです。



-はい、来幎は䌚瀟党䜓の緊急蚈画を立おたしょう...

動䜜したせん。 最も可胜性が高い。 これは䞭小䌁業では機胜したすが、倧芏暡では機胜したせん。 270のサブシステムがあるずきに、デヌタセンタヌをDRPに転送するこずはできたせん。 ブロック切り替えをゆっくりず実装するには、ブロックに分割し、ゟりが现かく分割する必芁がありたす。



別の機胜-このアプロヌチの倚くのこずは、実際には商業運甚に取り入れられたせん。 圌らは動䜜したすが、ドキュメントによるず-テストモヌドで。 ストヌリヌは、護衛が生のたた受け入れたくないずいうこずです正確な䞍枬事態察応蚈画なしに曞類に眲名しないでください。



時々それは人々を救いたす、私は蚀わなければなりたせん。 圌らが新しい機噚、「重い」ラックを蚭眮したずきのケヌスを知っおいたす。 郚屋の最初の特城は、ホヌルの入り口にある倧きな気密ドアです。 2぀目-非垞に厚い䞊げ床タむルがあり、それらにケヌブルを入れる必芁がありたした。 圌らはドリルを始めたした。 䞊郚には枩床ず煙の二重回路センサヌがありたす。 煙攟出。 圌らはそれを西で行い、気密ドアが閉じおガスが行きたす。 幞いなこずに、私たちは操䜜を受け入れられなかったため、ドアはブロックでロックされおいたした。



たたは別の質問。 すべおが管理者の頭の䞭にある堎合、DRPはどのように機胜したすか テストのお気に入りのフレヌズ「うヌん...どうやっお解決するの たあ、DNSレコヌドからの䞊べ替え... IPアドレスはどこにありたすか さお、どこかで蚘録された...」。



-怖がらないで デヌタセンタヌは倧人によっお䜜られおおり、...

...そしお、圌らはただ、非垞に成熟した、集められた人々の間でさえ萜ちたす。 䟋





...







— . , , .





, , . . , .

— .

— .

— / / .

— , .

— .

— .

— .

— .

— .

— .

— - ( ).

— .

— .

— .

— .

— .

— .

— .

— .

— . (. . , ).

— -. .

— .

— .

— / .

— -.

— , .

— , . . . . . .

— , , ( ).



参照資料






All Articles