現代のSSDがクラッシュする理由





今日、 新しい Linux ファイルサーバーの 1つでSSDの1つ死にました。 これは私たちが直面するSSDの最初の死ではなく、おそらく最後の死ではありませんが、そのような場合にはほとんどいつものように、私は神経がいたずらだと感じました-そしてすべてはSSD障害の性質、「ブラックボックス」との類似性の組み合わせのためです「固体状態の性質。



他のほとんどのSSD障害と同様に、これは突然発生しました。 ディスクは完全に機能する状態から、SMARTなどの警告なしに50秒間まったく反応しない状態になりました。 彼は読み書きのリクエストを喜んで処理します(チェックサムについて文句を言わなかったZFSを含むすべての外部標識による)が、現在SASポートにはCrucial MX300がありません。



IOオペレーションの失敗に関するLinuxカーネルからの最初のメッセージは20:31:34に送信され、ドライブは20:32:15に正式に欠落していると宣言されました。 ただし、実際には、ディスクがすぐに応答を停止する可能性があります-ドライバーのメッセージがよくわかりません。



これらの突然のSSDの障害で最も気になるのは、それらがどれほど理解しにくいのか、そして何が間違っているのかを自分で説明できないことです。 ハードドライブが回転しているとき、突然死ぬこともありますが、少なくともこれまでに何が起こったのかを説明できます-モーターが詰まったか、別の物理的な障害が発生して突然停止しました。 SSDは堅実で神秘的であり、特にディスクがまだ若く、フラッシュセルの寿命の限界に近づいてはいけなかったとき、何がうまくいかなかったかについての説明はありません。



HDDが若い年齢で死ぬとき、それは結果として生じる製造上の欠陥を明らかにしなかったと想像することができます。 理論的には、これはSSDで起こるべきではないため、彼の早期死亡は特に心配です。 フラッシュセルにも検出できない製造上の欠陥がある可能性があります。



そして、何が起こっているのか説明がないとき、私の考えは不安の道をたどり始めます-例えば、SMART診断での健康状態についてディスクが私たちをだまして、最後の予備のセルを実際に使用し、その後、彼はファームウェアに何らかのエラーがありましたが、私たちが誤ってそれに触れた後、彼はレンガになりました。



SSDがこのように死んで、引き抜かれて再び動かなくなったときに復活しました-そして、それは完全に健康に見えました。 しかし、それは別のタイプのSSDでした。 また、Crucial MX500 SSDシリーズから奇妙なエラーが発生しました。



さらに、SSDの障害について説明がない場合、それらはそれぞれ予測不可能な時限爆弾のように思えます。 彼らは健康ですか、明日死にますか? 私は統計に頼るべきであるようです。つまり、あまりにも多くの統計が死ぬことはなく、また、それらを変更できるようにあまりにも速くしないでしょう。 そして、この希望でさえ、障害の相関関係がないという前提に基づいています-このSSDに起こったことは、そのSSDの隣に立っている他の人には起こりそうにないということです。



また、この問題はファイルサーバーだけでなく、自宅のコンピューターにも同じ不安があります。 すべてのデータをミラーリングしますが、両方のSSDが実際に故障する可能性はどのくらいですか?



理論的には、SSDは回転する錆びたドライブよりもはるかに信頼性が高いはずです。 また、長年にわたって静かに動作しているSSDがたくさんあります。 しかし、そのような不可解な突然の失敗の後、彼らはもはやそれほど信頼できるようには見えません。 私は、HDではかなり頻繁に可能だったので、SSDの障害について何らかの警告を表示したいと思っています(たとえば、動作中のデスクトップコンピューターの1つでHDに関する警告を受け取りました-無視しましたが) 。



All Articles