レガシーブレードサーバーでのデススクリーンとの戦い

ハードウェアを追加した後に生じた古いハードウェア上の新しいソフトウェアの問題にどのように取り組んだかについての投稿。







サーバーハードウェアに興味があり、catの下でエラーに苦しんでいるすべての人に尋ねます。



すべてを適切に行うために、HP C3000サーバーシェルフの各ブレードサーバーに2つの追加のCiscoスイッチとメザニンカードを注文しました。 ネットワークを物理レベルで共有し、パフォーマンスと信頼性を向上させたいと考えました。

構成は次のとおりです。



シェルフhp c3000、その中









各ブレードには2枚のメザニンカード(HP NC382mデュアルポート1GbEおよびHP NC364mクアッドポート1GbE)と統合FlexFabricデュアルポート10GbEがあります。



メザニンカードは次のようになります。





HP NC382m





HP NC364m



サーバーはVmware ESXi 5.5を実行しています。



最初は、tsiskaと4ポートメザニンなしですべてが安定して動作しました。 1つのHPスイッチは仮想マシンのネットワーク用で、2つ目のスイッチは管理およびiSCSIネットワーク用です。 2番目のパフォーマンスは十分ではなかったため、iscsiネットワークを別のスイッチに転送することにしました。 このために、彼らは2つのツィスカとメザニンカードを獲得しました。



ご存じのとおり、460番目のサーバーはかなり古いですが、まだサポートされているはずです。 最新のHPサービスパックの配布が受信され、シェルフ全体が更新されました。



クラスターからvmwareは460番目のホストを持ち込み、そこにカードのメザニンを挿入し、シェルフに貼り付けて、すぐにPSODをロードします。





この場合、エラーコードは文字列です

PCPU0:32840 / helper14-0


最初は、これはマザーボードの問題であると考えました。これは、ブレードの1つが既にネットワークアダプタの問題のためにマザーボードを変更したためです。 彼らは時々姿を消した。

しかし、問題が2番目のブレードサーバーで複製されたとき、私はこの考えを拒否しました。 異なるスロットのメザニンカードを1枚使用してサーバーを起動しようとしましたが、すべてが問題なく機能しました。つまり、問題はカードまたはスロットにありません。



サーバーブレードはデバッグモードです。ログを読み、vmwareフォーラムを読みます。 これはハードウェアの問題であり、メーカーのフォーラムへのリンクであると述べています。 HPフォーラムに目を向けると、最新のvmware製品を使用する場合、古い機器では問題が発生することが多いと書いています。 vmware esxi 4.1を配置しました-すべてが安定して動作しますが、問題はesxi 5.5のライセンスがVgate 2.7などのこのライセンスに付随するソフトウェアであることです。 Windows Server 2012 R2を使用して、問題が実際にソフトウェアと... BSODにあることを確認しました。





NMI_HARDWARE_FAILURE


次回Windowsを起動すると、すべてが安定し動作しているように見えるので、テストのために残しておきます。 翌日、私はbsodを見つけます。

同時に、IML(統合管理ログ)の修正不可能な PCI Expressエラー(組み込みデバイス、バス0、デバイス9、機能0、エラーステータス0x00000000)の管理者のオンボードコンソールにエラーがあります。 つまり 致命的なハードウェアエラー。デバイス9は2番目のメザニンカードです。



HPフォーラムを読み続けていますが、iLOファームウェアが影響する可能性があると書かれています。 新しいiloファームウェアがあり、両方のブレードを変更していることがわかりましたが、役に立ちません。 さらに、フォーラムでは、FlexFabricファームウェアとドライバーの間に非互換性があると述べています。 FlexFabricを変更しています-それでもエラーです。



さまざまなディストリビューションを試します。vmwareesxi 5.5の標準ディストリビューションと、同じビルドのメーカーHPのディストリビューションです。 結果は1つです。

私はログでそれを読みましたが、エラーは特にbnx2にあります(これはネットワークFlexFabricアダプターです)。 Broadcomドライバーをvmware Webサイトからインストールしています(さらに、ドライバーの書き換えはesxi自体のコンソールからのみ機能します。vcenterからインストールした場合、vcenterは上書きしません)。 再起動して飛行は正常です! 490ブレードのEmulex FlexFabricでも同じことが起こりました。 また、FlexFabric BIOSを更新し、ドライバーを書き直しました。 すべてが迅速かつ安定して機能し、

...しかし、長くはない。





このスクリーンショットでは、エラーコードは次の行です。

PCPU0:32802 / UplinkWatchdogWorld


メザニンカードに2番目の問題がありました。

しばらくして、ブレードの1つで、ホストBIOSからでも4ポートメザニンカードが完全に消えました。 再起動、BIOSのリセット、メザニンPCIアダプターの操作に関する項目がBIOSで見つかるまで何も助けになりませんでした。 pciラインを使用して、信号ゲインレベル(6dbと3.5dbの2点のみ)を選択できるようになりました。 はい、4ポートカードを追加するとこのアイテムが表示されたため、そのようになりました。 ゲインレベルを切り替え、再起動後すぐにカードがBIOSに表示されました。



2週間が経過し、紫色の画面は1つもありませんでした。

ファームウェアの更新後、ネットワークカードにwake on lan機能が現れましたが、これは以前は存在しなかったため、vcenterで電源管理が構成されました。 ホストは必要に応じて起動します。



そして結論として、新しいハードウェア(BIOSの追加アイテムなど)を追加するときに表示される機能に注意する必要があり、すべての致命的なハードウェアエラーが致命的ではないことを伝えたいと思います。 標準ドライバーと古いBIOSは、いくつかのエラーにつながります。



ブレードに対する私の苦痛が誰かに役立つことを願っています。



All Articles