雷が鳴るまで......

おそらく、誰かがすでに不快な状況に陥っている-何らかの理由でRAIDコントローラーに障害が発生した場合、またはアレイが単に「バラバラになった」場合。 特に、これはマザーボードに組み込まれた安価なコントローラーで発生します。 管理者としてのキャリアの夜明けに起こった、小さいながらも有益な話をお話しします。

画像










それで、ある日、それにもかかわらず、悪夢にしか現れないことが起こりました。

ある晴れた朝、テスターが私のところに来て、「TFSはどうなったの?」と尋ねます。 TFS-Team Foundation Serverは、MS Visual Studioに関連付けられた一種のWebアプリケーションであり、プログラマがバグを追跡するために使用します。少なくとも私にとっては、このTFSは「ブラックボックス」でした。

このアプリケーションが起動されたサーバーは、外部Adaptec 2410S SATA RAIDコントローラを備えた通常のシステムユニットでした。 RAID5アレイは、すべてがインストールされた3つの149GB SATAディスク上に作成されました。 コントローラーにはバッテリーがありませんでした。 はい、トマトが飛ぶようになりましたが、悲しいかな-サーバーは私の前で育てられ、ブランドにお金を渡さなかったので、私はそれについて本当に考えませんでした。 しかし、無駄に。

したがって、何も悪いことを疑うことなく、TFSがインストールされたサーバーにpingを実行します。 応答しません。 自分に誓って、ケーブルを確認するためにサーバーに行きました。すべてが正常に動作しているようで、サーバーがオンになっており、ネットワークカードの「リンク」ダイオードがオンになっています。 私はKVM'aでサーバーにアクセスします-ここにあります:「非システムディスクまたはディスクエラー」。 Holy Trinity(Ctrl-Alt-Del)を使用して、サーバーを再起動します。 POSTが成功すると、RAIDコントローラーが初期化され、突然...「配列#0に必要なメンバーが見つかりません。 0個のアレイが見つかりました。」今、私は大声で宣誓し始めています。 Ctrl-Aを押して、コントローラーBIOSに入ります。

私は見ます-そして、アレイのステータスはFAILEDです。 3つのドライブのうち2つは灰色で表示されます。

「だから君はいる、白いキタキツネ!」と思った。 私は実際に何が起こったのか考え始めました。 コントローラは動作しているようです。 ディスクも表示されます。 コントローラBIOSのユーティリティを使用して、両方の「問題」ディスクのチェックを開始します。 検証は成功し、「0個のエラーが見つかりました」。 再起動-再びアレイが見つかりませんでした。

事前に辞任状を書いたので、サーバーケースのねじれを解き、コンピューターの横に置き、ハードドライブを接続します(残念ながら、それらはSATAであり、マザーボードに直接接続しました)。

ネジが決まっているようです。 ここで、何らかの方法でデータを抽出する必要があります。つまり、TFSデータが保存されているMS SQL Server 2005データベースです。 最大の問題は、データを失うことなく、何らかの方法でRAIDアレイの構造を再作成しなければならなかったことです。

インターネットをさまよって、Runtime RAID Reconstructor(www.runtime.org)というプログラムに出会いました。

説明では、配列の構造を自動的に決定できると述べています。 ダウンロードして実行します。

プログラムウィンドウは次のようになります。

画像






ウィンドウの左側で、ドライブを選択しました。 ところで、このプログラムを使用すると、フルディスクイメージを作成し、「ライブ」ディスクの代わりにそれらを接続できます。ディスクが「崩れ」始め、いつでも失敗する可能性がある場合に役立ちます。

次に、「ドライブを開く」と「分析」をクリックして、アレイの構造を分析しました。

ちなみに、分析ウィザードでは、512Kbのブロックサイズはありません(私が使用しているように見えます)が、実際に行ったカスタムサイズを追加できます。 分析用のセクターの数はデフォルト(10000)のままにしました。

分析は成功し、アレイの構造が決定されました。

その後、彼女は仮想イメージファイルを作成しました。これは、* .vim拡張子を持つ小さな(1Kb未満)ファイルで、アレイの構造を記述しています。

次に、同じプログラムが、ランタイムのさまざまなユーティリティ(Captain Nemo、GetDataBack、Disk Explorer)でファイルを開くことを提案します。 どうやら、Captain Nemoが必要だったようです。タスクはディスクからデータを削除することでした。 ダウンロード。 きっと。

私は彼女に私のヴィムを開きます-そして、ああ、奇跡! -フォルダの完全なツリーを見ました! 必要なデータベースファイルを見つけて、Captain Nemoを使用してネジに保存し、新しくインストールしたTFS'eに接続しました。 「キャリー」と言えます。 辞表はシュレッダーに届きました。

今-要約する。

サーバーとして、通常のシステムユニットが使用されました。

システムは、データベースとともに、1つのパーティション上の1つの3ディスクRAID5アレイに配置されました。

アレイは、Adaptec 2410SAコントローラを使用して3本のSATAネジで構築されました。

失敗の理由を特定できませんでした。 私の疑いによると、原因は停電でした。 RAIDコントローラーにはBBU(バックアップバッテリー)が搭載されておらず、ディスクへの書き込み中に電源障害が発生したようです。その結果、アレイの構造に関する情報が失われ、コントローラーは2台のハードドライブが誤動作していると見なし始めました。

このf話の教訓はこれです:RAIDを完全に信頼することはできません! 特に-安価なハードウェアで作られました。 RAIDは、別のメディア上のバックアップを置き換えることはありません。

同様の状況に陥った人の助けになることを願っています。 しかしさらに、私はそれがそれに入らないのに役立つことを願っています。 ご存知のように、管理者は、まだバックアップしていない人と、すでにバックアップしている人に分かれています。 この記事を読んだ人の少なくとも1人が最初の記事を迂回して2番目の記事に進むと、私の目標は達成されたと考えます。 この楽観的なメモで、私はおそらく終了します。



All Articles