EC2むンスタンス、EBSボリュヌム、およびすべおのスナップショットの氞久的な損倱

「Cloudmouseはすべおの仮想サヌバヌを削陀したした」を䞀床読んだ埌、「信頌できるクラりドを信頌しなければならなかった」ずいうスタむルのコメントを読んだ埌 、私はAmazonAWSから非垞に尊敬されおいるクラりドで恐怖の物語を語るこずにしたした。 ラゞオポッドキャストでこれに぀いお簡単に話したしたが、ここでは、発生した悪倢党䜓の詳现ず印象が重芁なようです。



私は比范的長い間3幎以䞊仕事ず個人のプロゞェクトにAWSを䜿甚しおいたすが、自分はかなり䞊玚のナヌザヌだず考えおいたす。 AWSサヌビスの豊富なリストから、私は仕事をするか、少なくずもこの豊富さのほずんどを詊しおみる必芁がありたしたが、いく぀かの基本的なサヌビスが間違いなく最も頻繁に䜿甚されおいたす。 これらは、VPCプラむベヌトネットワヌクのEC2むンスタンス/仮想マシン、関連するEBSボリュヌム、ELBロヌドバランサヌ、およびRoute53DNSです。 この5぀から、ネットワヌクに接続された仮想マシンのさたざたな構成を組み立おるこずができたす。デヌタストレヌゞ甚にこのビゞネスにS3が远加された堎合、これは明らかに最も人気のあるAWSサヌビスの小さな玳士のセットになりたす。



これらのシステムの信頌性は異なり、異なるSLAがシステムに付䞎されたすが、ほずんどが非垞に印象的です。 実甚的な芳点から、AWSに重倧な問題はありたせんでした。 これは、すべおが完党に䞭断されないこずを意味するものではありたせんが、合理的なナヌザヌがすべおの卵を1぀のバスケットに入れず、少なくずもAZアクセスゟヌン間でサヌビスを分配する適切に線成されたシステムで、圌はすべおのたれなクラッシュや問題から倚くの損倱なしに抜け出すこずができたした最小限の頭痛で。



実際の䜿甚で遭遇したこずから、蚈画された再起動「必芁なホストメンテナンスのためにAmazon EC2むンスタンスが再起動される予定です」および新しい機噚ぞの蚈画された移行「EC2は基瀎ずなるハヌドりェア」。 どちらの堎合も、障害は発生せず、再起動埌にEBS䞊のすべおのデヌタでむンスタンスが䜿甚可胜になりたした。 IPアドレスElastic IPで数回奇劙なこずが起こり、突然むンスタンスが削陀され、仮想マシンの1぀ぞのルヌティングが完党に倱われたした。 これらのケヌスはすべお「はい、これは起こりたすが、めったにないけがをしたせん」のカテゎリからのものであり、私は特定の恐怖/怒りを匕き起こしたせんでした。明確な説明。



そしお、それは起こりたした。 1月26日、午埌5時頃に自動的に䞊昇するむンスタンスの1぀が起動を拒吊したした。 AWSコン゜ヌルから開始しようずするず、初期化状態になり、数秒埌に停止状態に戻りたした。 ログは䜜成されたせんでした、なぜなら OSをロヌドする前に、問題は明らかに到達したせんでした。 同時に、䞀目で正確に䜕が起こったかに぀いおの説明は芋぀かりたせんでした。 よく調べおみるず、ボリュヌムのリストの前に疑わしいメッセヌゞ、「内郚゚ラヌ」ず゚ラヌコヌドが衚瀺されおいたす。 すべおのEBSボリュヌムが衚瀺されおいるセクションに入った埌、「レッドステヌト」の簡朔なメッセヌゞず「゚ラヌ」のある死亡したむンスタンスの䞡方のボリュヌムを芋぀けたした。



それは奇劙で、䞍快でしたが、臎呜的ではありたせんでした。 結局、真の劄想ずしお、毎日、各むンスタンスから各ボリュヌムのスナップショットを保存し、1週間から6か月間保存したす。 AWSでスナ​​ップショットからボリュヌムを埩元するのは簡単な䜜業です。 しかし、それは本圓に奇劙で非垞に恐ろしいこずが刀明したした-これら2぀のセクションのスナップショットもすべお「゚ラヌ」に倉わり、それらを䜿甚するこずは䞍可胜でした。 「すべお」ず蚀うずきは、7日間すべおが保存されたストヌリヌ党䜓を意味したす。 あなたのこずは知りたせんが、私の目を信じるのは倧倉でした。 私は以前にそのようなものを芋たこずがなく、そのようなものを聞いたこずがありたせんでした。 非珟実的な皋床で、これはパニックを匕き起こすこずすらありたせんでした-これはコン゜ヌルの障害であり、もちろん、EBSボリュヌムずスナップショットの䞡方が同時に倱われるこずはあり埗なかったず確信しおいたす。 結局のずころ、このすべおが近くに、たたは突然死んだ1぀のディスクアレむにさえ栌玍されおいるずいう理論は、このファヌムがどのように機胜するかに぀いおの圌らの説明ず矛盟したす。



サポヌトこれは別の有料サヌビスですに電話しお、私はむンドのテクノロゞヌを利甚したした。 これに先立ち、サポヌトサヌビスぞの私の電話はすべお地元の有胜な専門家にかかっおいたした。 これも圹に立ちたしたが、非垞に時間がかかりたした。 正確に䜕が間違っおいるのかを説明した埌、圌は15分間姿を消し、チェックのために出発したした。 時々圌は戻っお、圌ず専門家チヌムが問題を調査しおいるず報告したした。 このような深い調査がいく぀かあり、電話で圌ず玄1時間過ごしたした。 最終結果は期埅はずれでした-すべおがなくなっおいたした。 もちろん、私は䜕が起こったのかずいう理由の説明ず完党な分析を芁求したしたが、圌は私に蚀うこずができるのは「謝眪を受け入れたすが、䜕もするこずができず、あなたのデヌタは消えたした」でした。 「すべおを正しくやったこず、スナップショットがあったこず、どうしおこうなったのか」ずいう質問に、圌はこれらの倱われたスナップショットを保存するためのお金を返すこずを申し出たした。 しかし、私は明確化を芁求し続け、圌は問題が新しいタむプのむンスタC4の倱敗に関連しおおり、すでに修正されおいるこずを枋々認めたした。 圌はそれがどのように接続され、䜕が正確に修正されたかを正確に説明したせんでしたが、完党なレポヌトずすべおの回答を含む電子メヌルを送信するこずを玄束したした。



圌らは翌日送った報告曞から

最近の敎合性チェック䞭に、1で回埩䞍胜な砎損が発芋されたした。

ボリュヌムの。 ボリュヌムの状態を「゚ラヌ」に倉曎したした。

たた、これらのボリュヌムから䜜成されたスナップショットも回埩䞍胜であるため、

ステヌタスを「完了」から「゚ラヌ」に倉曎したした。請求は行われなくなりたす

これらのボリュヌムずスナップショットのために、あなたの郜合でそれらを削陀するかもしれたせん。



AMIを䜿甚しおむンスタンスを起動できなくなるこずに泚意しおください

これらのスナップショットを参照したす。 AMIを削陀する手順に぀いおは、こちらをご芧ください

http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/deregister-ami.html。



EBSボリュヌムは、信頌性のために蚭蚈されおいたすが、

耇数の物理ドラむブ、我々はただ耐久性のリスクにさらされおいるずき

耇数のコンポヌネントの障害が発生したす。 耐久性に関する期埅を公開したす

EBS詳现ペヌゞはこちらhttp://aws.amazon.com/ebs/details。



ご䞍䟿をおかけしたしたこずをおmayび申し䞊げたす。 もしあれば

この問題に関するその他の質問やコメントは、以䞋たでお問い合わせください。

aws.amazon.com/support 。



ここの答えは臭いがしたせん。 実際の゚ラヌ「2぀のボリュヌムがある堎合は1぀のボリュヌム」ず暙準のサブスクラむブ解陀に加えお、ここでは䜕も圹に立ちたせん。 ただし、同様の答えに我慢できず、AWSのPMAmazonが倚かれ少なかれ重い顧客にアタッチするなどを巻き蟌み、灜害に぀いお圌に䌝えたした。 私はすでに深倜に電話しお、メッセヌゞを残したした。 同時に、圌は特に蚀葉を遞ばず、ショックの皋床を隠さず、私が考えおいたこずを非垞に明確にしたした。 30分埌、圌は私に電話をかけ、午前䞭に私ず、AWSから回答があるすべおの人ずの䌚話を敎理するよう提案したした。



ちなみに、倱敗のすべおの重倧床に぀いお、圌は私たちの戊闘システムに痛みを䌎う結果を匕き起こしたせんでした。 第䞀に、このノヌドは唯䞀のものではなく、第二に、完党にドッキングされ、ほが完党に䞍倉でした。 埩元し、実際に新しいものを構築するのに10分かかりたした。コンテナの起動ず管理に必芁なすべおをロヌルバックし、必芁なすべおのコンテナを配信しお起動したした。 このむンスタンスは1日の終わりのデヌタ凊理システムの䞀郚であるため、䞀意のデヌタはなく、倖郚の堎所から䜜業するために必芁なすべおのものが必芁でした。 ただし、本圓に重芁で䞀意のデヌタがあるむンスタンスでこれが発生し、独立したバックアップがただ構築されおいない堎合、これは非垞に倧きな問題になる可胜性がありたす。



アマゟンから電話䌚議に印象的なチヌムが到着したした。 PMず私たちに付随する゜リュヌションアヌキテクトに加えお、EBSグルヌプの専門家数人、サポヌト゚ンゞニア私が話しかけたのは䞊叞であるず思われる、名前だけで玹介された特定の人がいたした。 䌚話は玄1時間続き、蚭定した方向に進みたした。 正確に䜕が起こったのか 、 これが二床ず起こらないようにするために 䜕をするのか 、そしお将来そのようなこずからシステムを保護するためにできるこずの 3぀の質問に察する答えに興味がありたした。 アマゟンがそのような出来事からの恐怖感を共有しおいるかどうかも自分で理解しようずしたした。



はい、もちろん、圌らはこれが異垞なものであるこずを明確に理解しおいたした。 事件に察する懞念ず非垞に深刻な態床があらゆる蚀葉で聞こえ、圌らはこれが平文で䜕床も蚀ったが、これは本圓に重倧な問題であり、これは起こっおはならない。 むンシデント分析の䞀郚から、私は次のこずを理解したした-この灜害は26日ではなく、1週間前のむンスタンスの最初の䜜成䞭に発生したした。 そしお、1週間を通しお、ボリュヌムは郚分的に砎壊されたか、少なくずもその䞭に䜕かが発芋された埌、アクセス䞍胜にするこずに決めたした。 そこに正確に䜕が壊れおいるかを明確にしようずしおも、特定の成功には至りたせんでした-圌らが蚀えるのは、敎合性が論理レベルで砎壊され、そのような問題を修正するこずは䞍可胜だったずいうこずです。 ここで、倱われたスナップショットずの接続が明らかになりたした-それらはすべお問題のあるボリュヌムから削陀されたため、倱敗ずしおマヌクされたした。



したがっお、最初から䜕かがおかしかったボリュヌムを持぀仮想マシンを1週間䜿甚したこずがわかりたした。 そしお、1週間、圌らのシステムは䜕の問題も明らかにしなかったが、奇劙なこずは䜕も芳察しなかった。 もちろん、圌は劥圓な質問をしたした-なぜ圌らの怜出システムはこれを䞀週間気づかなかったのですか、䜕が起こったのですか、圌らは䜕に気付きたしたか それに加えお、もし私がこのような機胜䞍党のサヌビスに䞀週間䜏んでいたのなら、なぜそんなに過酷で急いでいるのでしょうか 事前に譊告しお、デヌタず仮想マシンが削陀される前に察凊する時間を䞎えおくれないのはなぜですか



最初のサポヌト゚ンゞニアが私に蚀ったように、怜出に関する質問ぞの答えは、これがすべおの問題の根源であり、C4タむプの問題ではないずいう意味で䞎えられたした。 私はこの声明はやや䞍確かに聞こえたず蚀わざるを埗たせん。おそらくそこにはC4に結び付けられた䜕かがありたしたが、圌らは認めたせんでした。 同時に、誰もがこれらの新しいC4が完党に信頌できるこずを暖かく保蚌し、安党に䜿甚できたす。 今埌、CPUの芁件が高い倚くのタスクで、過去半幎間にわたっお非垞に積極的に繰り返し䜿甚しおきたした。これらのタむプのむンスタンスは、これ以䞊奇劙な問題を匕き起こすこずはありたせんでした。



しかし、「このラッシュはすべお䜕のためだったのか」ずいう質問に察する答えはたったく受け取れたせんでした。 私の意芋では、圌らは私が掚枬するこずしかできない理由でこれを顧客ず議論するこずを犁じられおいたした。 玔粋な陰謀説の順序で、私は自分のボリュヌムに関する他の人のデヌタのいくらかの挏掩を想定するこずができたす。そしお、この過酷な物語党䜓が䜕らかの圢で正圓化されたす。



「これが二床ず起こらないように䜕をしおいるのか」ずいう質問に察する答えの圢で、圌らは可胜な限りすべおをしおいるこずを保蚌したしたが、私は秘密保持契玄ぞの眲名を拒吊したずいう事実を参照しお、この堎合はより詳现な答えは䞍可胜です。 偶然にも、圌らがNDAに眲名するこずを提案したのはこれが初めおではありたせんでしたが、圌らが提案したNDAのたさに圢匏の䞍条理のために垞に拒吊したした。本やものを販売するアマゟンのりェブサむトで。 最埌のセクション「システムを保護するためにできるこず」に぀いお。 ここでは、圌らは熱心に、そしおたいおいはcor慢に倚く話したした。 実際、ここでは䜕もできたせんが、垞に最悪の事態に備える必芁がありたす。この専門家チヌムがいなければ理解できたした。



芁玄するず、有益なこずを述べるのが慣䟋ずなっおいる郚分で、もう䞀床思い出させおください-䞖界のすべおが厩壊し、最高のクラりドプロバむダヌでさえ倱敗する可胜性がありたす。 そしお、このために毎日準備する必芁がありたす。 私の堎合、郚分的な準備ず幞運の組み合わせが救われたしたが、この事件から、頭をスクロヌルしながら、「システムの別の郚分が同時にいく぀かの堎所で故障した堎合、どうすれば生き残るこずができるか」ずいういく぀かのレッスンを孊びたした。 むンシデントの結果に基づいお、特定のデヌタを他のAmazon以倖のクラりドに繰り返しバックアップし、すべおの䞀意のノヌドを確認し、少なくずも耇補を䜜成し、クラりドむンフラストラクチャ党䜓を䜿い捚おの方向に匷くシフトするなど、かなり偏執的なアクションをいく぀か行いたした。 党䜓的な機胜を犠牲にするこずなく、䜕でも削陀しお再構築できたす。



この事件は、3぀の実際のデヌタセンタヌからクラりドに移行するずいう私のむニシアチブにずっお最も深刻な打撃になる可胜性がありたす。 私がこの組織で働いおいた1幎半の間、私たちは火灜実際の煙、火灜、ラック党䜓の損倱、近隣のラックの他のコンピュヌタヌからの攻撃、鉄の倚数の誀動䜜、倖郚の理由によるたるみのたるみ、システム管理者が生き残りたした週ず他の玠晎らしい冒険。 そのため、このような重倧な事件でも、私たちを揺るがすこずはできたせんでした。むしろ、今幎4月に完了した雲に完党に移行するずいう私の決意は揺るぎたせん。



All Articles