ポゴレルツレポート

入門:私たちはhosting.uaでサーバーをレンタルしました。このサーバーでは、クライアントのかなりの数のサイトが回転していました(合計数万人)。 まともな売り上げのあるショップは、バグトラッカー、jira、DNSをホストしていました。







彼らは、すべての人が2種類に分かれていると言います:1はバックアップを作成し、2はすでに行っています。 私たちは真ん中のどこかにいました。

私たちの仕事の歴史の中で、すでにハードドライブがストリーミングされ、マザーボードが焼け、ファイルシステムが飛んでいました。 そのため、毎日のバックアップシステムは同じサーバーのハードドライブで構成され、場合によっては、同じデータセンターの別のサーバーにコピーが作成されました。 このようなシステムでは、軍用ハードドライブの紛失は迷惑ですが、この現象は非常にまれであり、バックアップが同時に2つのsevresで消えるには、信じられないようなことが起こるはずです(当時はそうでした)。







すべての記事で、バックアップの推奨事項が記載されており、バックアップは物理的に異なる場所に保存する必要があります。 当局やその他の自然災害の「火事の場合」の行動は、おかしいように聞こえます...









土曜日 夕方。



21.30に、サーバー可用性監視システムから最初のメッセージを受け取り、何が起こったのかを調べようとしました-データセンターが完全にあることがわかりました。 ホスティングサイトもサーバーもpingを実行しませんでした。 私はこれらがチャンネルの問題であり(すでに何度も発生している)、ロシアへの「週末」に落ち着いたと判断しました(まあ、何が起こる可能性がありますか、火事か?)。







日曜日 朝



真夜中を過ぎて最初の積み替え地点に到着すると、監視システムが停止しないことに気付き、SMS通知をオフにしました。 国境近くの村ですでに朝目が覚めたとき、サーバーがまだ利用できないSMSの数に不愉快な驚きを覚えました。 早朝にもかかわらず、私は管理者に電話をかけ、そこに何があるかを尋ねました。







10分後、「すべての希望が完全に崩壊したことを示す」6文字の単語を含むメッセージを受け取りました。 私は友人に電話をかけ、会話の後、この言葉が何が起こったかを非常に正確に説明していることが明らかになりました。 噂によると(!)データセンターで火災が発生し、自動消火システムが機能しなかったため、消防士が火災で生き残ったものに大量の水を注ぎ込んだ...公式の情報はなく、サポートは対応していません。









日曜日 日。



それからすべてが戦争のようです

1.「インスタント」アクティベーションを使用して新しいサーバーを注文しました。どちらが重要かは関係ありません。すぐに重要です

2.何が起こったのか、当社の行動計画および起こりうる結果について主要顧客に通知した

3.彼らはオフィスに「特別。 naz»管理者および主要開発者

4.私たちは、公式ソースから何が起こったのか、そして私たちのサーバーがどのような状態にあったのかを知るために、ホスティング業者に連絡しようと試みました

5.新しいサーバーで、DNSを上げて、制御されたすべてのドメインをそこに転送しました

6.通信が失われないように、ドメインのメールレコードを作成しました

7.すべてのリクエストへの応答として、彼らは50 2 3エラーと説明テキストを含むページを提供し始めました

8.すべての情報が失われた場合にインデックス化されたコンテンツを保存するために、Yandexキャッシュグラバーを作成しました。 また、修復作業中にサイトが検索エンジンにアクセスできないようにするため

オフィスの調整された仕事のおかげで、電話でかなりたるまなければならなかったが、私は緊急に戻る必要はなかった。









月曜日



月曜日の半ばまでに、私たちは主要なサイトを略奪し、最終的にはホスト(C)は火事の影響を特に受けておらず、データが残っている可能性があるとホストに連絡しました。 彼らがこれを私に渡したとき、私は初めて吐き出しました。









火曜日。



火曜日、私はすでにオフィスにいましたが、午前中にメインサイトの「合板バージョン」を上げ始めました。 昼食時までに、訪問者はすでにコンテンツをまともなデザインで見ていて、リンクをクリックして、事故に関するメッセージと店に直接電話する要求を受け取ったものを注文しようとしました。







並行して、データセンターにある情報へのアクセスを試み続けました。 問題は距離(私たちはオデッサのミンスクにあります)、およびホスティングの請求が破壊されたという事実、そして厳密に言えば、彼らは誰のサーバーかを知りませんでした(事故から2.5日が経過したにもかかわらず)。 私たちは、月曜日に、ハードドライブがデポジットと明細書と引き換えに私たちに与えられるという熱い追求に同意することができたという事実によって救われました。





失う時間はありませんでした。その場でこれらの問題を解決できる人を探し始めました。 結局のところ、いくつかのオプションがありましたが、すべてのオプションは頑固に答えませんでした。 最大の店のオーナーは、オデッサに飛ぶためにすでにアシスタントのチケットを注文しています。私は見た人全員に尋ねました。「オデッサには信頼できるLinuxがありますか?」 そのような奇妙な方法で、私たちを助けるために引き受けた男が見つかりました(彼を管理者と呼びましょう)。







DCへの最初の呼び出しは失敗し、彼らは誰にもハードドライブを提供しないと答えました。 それから私達は再度電話をかけ、約束について思い出さなければならなかった。 2番目のレース(夕方遅く)からハードドライブが使用されました。 彼らが受け取った形では、それをつけることは不可能だったので、彼はすぐに緊急修理のためにワークショップに行きました。









水曜日



15時間と250ドルの後、彼は管理者に戻り、ファイルシステムを復元した後、サーバーにアップロードするデータを設定しました。

その瞬間、誰もが息を吐きました。 夜、旗艦サイトはすでに機能しており、夕方、最終的にhosting.uaからの最初の公式メッセージがサイトに表示されました(火事があり、情報がここに公開されます)。 木曜日の終わりまでに、ほとんどのサイトが引き上げられ、徐々に残りのサイトの修復作業が終了します。







私たちは何を学びましたか?



1.開放性は非常に役立ちます。 緊急事態と行動について比較的迅速に報告できたという事実は、私たちとクライアントの両方にとって多くの神経を節約しました。 hosting.uaと同様に黙っていれば、ほとんどすべての顧客を失っていたでしょう。

2.物理的に異なる場所にバックアップを保持することは非常に重要です。 二度目にそのような間違いをしない場合、バックアップは異なる大陸にあります(戦争の場合)。 保険料は月額約40ドルで、3日間のダウンタイムによる損失は2年以上の「保険」にかかります。

3.緊急事態の計画が必要です。 誰が何をするかを事前に知っていること。 私たちの場合、私は連絡が取れてラッキーだったし、ドメイン管理用のすべてのパスワードを備えたラップトップを持っていた。 この部分で「幸運」でなかったら、結果はもっと劇的だったでしょう。

4.グラバーは良い=)

この経験が、誰かが私たちの過ちから学び、深刻なショックなしにバックアップのカテゴリーに移行するのに役立つことを願っています








All Articles