サーバー履歴

この話は、2009年1月26日から1月31日までの1週間に起こりました。人生のこの非常に小さな期間を過ごした後、私は単純なものの必要性を認識し、「ケース」の存在を信じ、ますます人々に失望しました。 今週のタグは、RAID、Infobox、およびバックアップでした。 それははるかに早く始まりましたが...



パート1



2008年1月、私はサンクトペテルブルクの会社Infoboxでサーボチカを借りました。 パフォーマンスの面で平凡で、比較的安価で、現在のニーズに完全に適合していました。 レンタルサービスには、オペレーティングシステムの初期インストールが含まれていました。これは、もちろんfreebsdであり、必要なパーティション分割です。 また、親切なテクニカルサポートワーカーは、ソフトウェアRAID 1(ミラー)に120ギグのネジを組み合わせました。 私は友人をサーバーの世話をするよう頼みました。彼は一度に多くの場所でシステム管理者として働いています。 彼はWebサーバーをインストールし、1日に2回アーカイブへのデータの完全バックアップを含むすべてのサービスを構成しました。 自宅のコンピューターで、これらのバックアップを定期的に取得してパパに保存するスクリプトを作成しました。 私はこのパパを定期的に掃除しました。



読者は、一般にすべてがかなりうまくいったことに同意する必要があります。RAID1 +サーバー上のアーカイブ+自宅のコンピューター上のアーカイブ(24時間オンになっています)。



すぐに、 CakePHPの Webサイトをホスティングから新しく作成したサーバーに転送しました。その後、 MyNotifierCodeIgniter 、私のホームページなどの有名なhabra-audienceだけでなく、私の話とはかけ離れた他の多くのプロジェクトも登場しました。



パート2



だから私は幸せに暮らし、今年の1月に私の古くなったホームUbuntuを更新することにしました。 番号8.04から番号8.10まで、同時にデスクトップライフを最初に開始します-ネジをフォーマットし、OSを「クリーン」にします。 この高貴な原因は1月23日に発生しました。 蓄積されたバックアップを保存することにはあまり意味がありませんでした。「システムを再インストールします-スクリプトを再構成し、アーカイブを収集します」と思いました。 しかし、人生は速くて予測不可能であり、次の数日間で私は新しい8.10のセットアップに多くの時間を費やすことができませんでした。



26日の夕方に帰宅したところ、メッセージが詰まったジャバーとICQの連絡先リストを見つけました。 私のサイトで「はい」が機能しないと書いたように。 これを確認するのは難しくありませんでした。プロジェクトを開いて、データベースエラーでページが読み込まれるまで30分待ちます。 問題は単純であると判断したので、mysql pranksterをリブートしましたが、これは望ましい効果をもたらしませんでした。 さらに、サーバーはssh経由で亀の速度で、またはそれより少し遅い速度で応答しました。 当時の私の仲間の管理者が「サンクトペテルブルク-モスクワ」という列車に平穏に乗っていたという事実によって状況は悪化しました。



サーバーを再起動するようにというリクエストがあり、Infoboxのテクニカルサポートに頼りました。 そこで私は彼らとの通信を開始しました。この時は53文字でした。



サーバーは再起動しましたが、何も変更されませんでした。その後、何かが燃え尽きたことを示唆しました。それはクーラーまたはネジの可能性があります。 それはハードドライブであることが判明しました。テクニカルサポートスタッフは、1時間と少し後に、古いネジからバックグラウンドコピーを実行することで親切に交換しました。 それは夜で、サーバーに到達するための無益な試みを数回行った後、私はベッドに行き、サーバーを非常に忙しくしていたバックグラウンドコピーは朝までに終了すべきであると判断しました。 しかし、朝には何も変わっていません。



その間、私の管理者がモスクワに到着し、しばらくして、新しいハードドライブへの記録に失敗したログを投げました。 こんな感じです。

...

1月27日10:44:44 oowlカーネル:ad6:タイムアウト-WRITE_DMAの再試行(1回の再試行)LBA = 74274048

1月27日10:46:14 oowlカーネル:ad6:タイムアウト-WRITE_DMA再試行(残り1回再試行)LBA = 74344960

1月27日10:47:05 oowlカーネル:ad6:タイムアウト-WRITE_DMA再試行(残り1回再試行)LBA = 50792319


次の半日は、Infoboxのエンジニア自身が記録の不可能性と新しいハードドライブの誤動作を確信することに費やされました。 ハードディスクが再び変更され、実際のバックグラウンドコピーがすでに開始されています。 何が起こったかについての質問をユーザーから50通の手紙で受け取りました。



サーバーが許容可能な速度で要求に応答し始めたとき、これは不快な話の終わりだとすでに思っていましたが、結局のところ、私は過去にいたので冒険が始まったばかりです! 最近のフォーラムの投稿は2008年5月24日でした。 MyNotifierのジョブが私のテレポートを確認しました。 私が狂っていないことを確認するために、私はカレンダーを見なければなりませんでした。 冬でしたが、昨年、サーバーはすでに春です。



サポートとの交渉の後、私は彼らから以下を受け取りました。

これで、2台目のハードドライブがクラッシュするまでRAIDにあったサーバーがハードで実行されています。 2番目のハードドライブは物理レベルで障害が発生しました。5月にハードハードドライブが同期されるはずだったため、データ復旧は不可能です。




パート3



したがって、私は何もしませんでした:最初のハードドライブ、5月に咲き、2番目の「データリカバリが物理レベルで正常に機能しません」、およびバックアップを収集するためのスクリプトがローカルコンピューターでまだ構成されていません(8.10への移行を覚えていますか?) そのため、重複していない一部のプロジェクトの完全なソースコードを含め、ほぼ1年にわたって蓄積された情報を失いました。



5月に管理者とのやり取りをすべて掘り下げた後、5月には何もインストールされておらず、消去されず、実際には過負荷になっていないという結論に達しました。 どのログでも、ハードドライブの障害は失敗しませんでした。



できるだけ早く何かをする必要がありました。 データ復旧に携わっている真面目な会社に電話して、私はデータセンターへの訪問に同意し、彼らは私に領収書のための死んだねじを与えることにした。 DCには午前10時からしか行けません。 9:30に、私はすでに急流を張りました。 ウィンチェスターの温暖化した死体をつかんで、彼は彼のような人々の集中治療に急いだ。



パート4



10時15分に、すでに状況をマスターに説明しました。 「わかります」と彼はつぶやき、カウンターの後ろの暗い部屋に入り、セクションのボリューム、情報の場所、何を最初に復元する必要があるかについての質問をアンケートに記入しました。 マスターは「冗談だろ?!」という言葉を使い果たしたので、私は5分間それを取りませんでした。 あなたは退屈か何かですか?! なぜウィンチェスターを全部持ってきたの?!」



厄介な一時停止がありました。 技術者は私を非難して見て、私は彼を見て、彼の専門的な能力を信用せずに、すでに精神的にネジを埋めました。 「できません。もう一度確認してください」私は自分の耳を信じていませんでした。 マスターは、ネジをクライアントラックの後ろのWindowsマシンに接続し、UFS Explorerユーティリティを使用して、ネジの内容、ドキュメント、データベース、写真、および私が要求しなかったすべてのものを見せて、異常なクライアントを取り除こうとしました。



私はハードドライブを持ち帰りましたが、恐ろしいことに、接続する場所がないことに気付きました。固定PCはありません。 すべての友人に電話して、私は人々がラップトップの所有者ではない場合、SATAコネクタ付きのハードドライブを挿入する場所がないと確信しました。 もちろん、これは私の管理者にとって問題ではありませんでしたが、彼はモスクワにいました。



一方、怒っている通信は、情報ボックスの技術サポートを続けました。 言い訳として、彼らは次のフレーズを選びました。

このドライブを使用できませんでした。サーバーの構成が原因である可能性があります。
そして彼らはまた書いた:

...難しいものを私たちに戻すことができます。情報をコピーするか、サーバーに接続しようとします。


私には選択肢がなく、翌朝、ハードドライブをデータセンターに戻しました。 一方、状況の説明を求める手紙の数は80を超え、リースされたサーバーに配信された新しいハードな手紙はゆっくりと拒否し始めました。



パート5



2009-01-29 11:03:32 <...>さて、日中にデータをコピーします。
2009-01-29 19:18:28コピーはまだ行われていません。500MBのルートファイルシステムのみがマウントされた「古いハード」に問題がありました。今では/ var / usr / homeパーティションをマウントできましたが、エラーが表示されます。 <...>


そして、絶えずハングし始めた更新されたサーバーについて:

サーバーがハングし、コンソールに信号が出力されず、pingを実行してリブートされました<...>




翌日、夜遅くに、管理者が連絡を取り、必要なデータの場所を説明しました。 この情報をすぐにテクニカルサポートに送信しました。
2009-01-30 17:36:59情報をありがとう、お知らせします。


2009-01-30 21:53:53 :現在のプロセスの状態は?

2009-01-30 21:55:57 エンジニア :データをコピーしようとしています。




パート6



ご存知のとおり、私の忍耐力は「コピーしようとしている」というフレーズを2日経ってしまい、翌日の土曜日の朝、私は再びハードドライブを手に入れることができました。 ガスを打って、私はピーターズバーグに戻ったばかりの管理者に行きました。



彼が単にすべてのデータをコピーしたと言ったとき、私は驚きました。 エラーは、1つのinnodb'shnyベースを読み取ることによってのみ発生し、失敗するとひどく落ちました。 残りのファイルは問題なく抽出されました。 合理的な疑問が生じます。2日間サポートが何をしたか、回復プロセスに関するレポートを私に書いてください。 しかし、ちなみに、ハードドライブからデータを読み取ろうとする「試み」で、それを彼に書き込んだエンジニアの良心に任せましょう。



おわりに



ハッピーエンドの私の物語。 すべてのデータが返され、プロジェクトは機能します。 サーバーを借りることを拒否し、自分自身をコロケーションにしました。 レンタル期間の残りのお金は3段階で私に返されました:最初に、彼らは私をしっかりと拒否し、次に彼らは方向に800ルーブルの誤りを私に入金し、その後、別の手紙の後にそれを修正しました。



私に起こった話が、信頼できるバックアップの必要性の確認、データセンターの選択、または情報の価値について考えるのに役立ったかどうかはわかりませんが、彼女は私に多くを教え、私の神経をかなりボロボロにして、貴重な人生経験を与えました。 1週間にわたるサポートとのやり取り、サイトユーザーからの119通の手紙、そして無限に走り回った結果、私はまだ失われた以上のものを見つけました。



ご清聴ありがとうございました。



All Articles