サーバーハードウェアに興味があり、catの下でエラーに苦しんでいるすべての人に尋ねます。
すべてを適切に行うために、HP C3000サーバーシェルフの各ブレードサーバーに2つの追加のCiscoスイッチとメザニンカードを注文しました。 ネットワークを物理レベルで共有し、パフォーマンスと信頼性を向上させたいと考えました。
構成は次のとおりです。
シェルフhp c3000、その中
- 2 hp bl460c g6
- 2 hp bl490c g7
- 2つのスイッチHP GbE2c
- 2台のスイッチCisco 3020
各ブレードには2枚のメザニンカード(HP NC382mデュアルポート1GbEおよびHP NC364mクアッドポート1GbE)と統合FlexFabricデュアルポート10GbEがあります。
メザニンカードは次のようになります。
HP NC382m
HP NC364m
サーバーはVmware ESXi 5.5を実行しています。
最初は、tsiskaと4ポートメザニンなしですべてが安定して動作しました。 1つのHPスイッチは仮想マシンのネットワーク用で、2つ目のスイッチは管理およびiSCSIネットワーク用です。 2番目のパフォーマンスは十分ではなかったため、iscsiネットワークを別のスイッチに転送することにしました。 このために、彼らは2つのツィスカとメザニンカードを獲得しました。
ご存じのとおり、460番目のサーバーはかなり古いですが、まだサポートされているはずです。 最新のHPサービスパックの配布が受信され、シェルフ全体が更新されました。
クラスターからvmwareは460番目のホストを持ち込み、そこにカードのメザニンを挿入し、シェルフに貼り付けて、すぐにPSODをロードします。
この場合、エラーコードは文字列です
PCPU0:32840 / helper14-0
最初は、これはマザーボードの問題であると考えました。これは、ブレードの1つが既にネットワークアダプタの問題のためにマザーボードを変更したためです。 彼らは時々姿を消した。
しかし、問題が2番目のブレードサーバーで複製されたとき、私はこの考えを拒否しました。 異なるスロットのメザニンカードを1枚使用してサーバーを起動しようとしましたが、すべてが問題なく機能しました。つまり、問題はカードまたはスロットにありません。
サーバーブレードはデバッグモードです。ログを読み、vmwareフォーラムを読みます。 これはハードウェアの問題であり、メーカーのフォーラムへのリンクであると述べています。 HPフォーラムに目を向けると、最新のvmware製品を使用する場合、古い機器では問題が発生することが多いと書いています。 vmware esxi 4.1を配置しました-すべてが安定して動作しますが、問題はesxi 5.5のライセンスがVgate 2.7などのこのライセンスに付随するソフトウェアであることです。 Windows Server 2012 R2を使用して、問題が実際にソフトウェアと... BSODにあることを確認しました。
NMI_HARDWARE_FAILURE
次回Windowsを起動すると、すべてが安定して動作しているように見えるので、テストのために残しておきます。 翌日、私はbsodを見つけます。
同時に、IML(統合管理ログ)の修正不可能な PCI Expressエラー(組み込みデバイス、バス0、デバイス9、機能0、エラーステータス0x00000000)の管理者のオンボードコンソールにエラーがあります。 つまり 致命的なハードウェアエラー。デバイス9は2番目のメザニンカードです。
HPフォーラムを読み続けていますが、iLOファームウェアが影響する可能性があると書かれています。 新しいiloファームウェアがあり、両方のブレードを変更していることがわかりましたが、役に立ちません。 さらに、フォーラムでは、FlexFabricファームウェアとドライバーの間に非互換性があると述べています。 FlexFabricを変更しています-それでもエラーです。
さまざまなディストリビューションを試します。vmwareesxi 5.5の標準ディストリビューションと、同じビルドのメーカーHPのディストリビューションです。 結果は1つです。
私はログでそれを読みましたが、エラーは特にbnx2にあります(これはネットワークFlexFabricアダプターです)。 Broadcomドライバーをvmware Webサイトからインストールしています(さらに、ドライバーの書き換えはesxi自体のコンソールからのみ機能します。vcenterからインストールした場合、vcenterは上書きしません)。 再起動して飛行は正常です! 490ブレードのEmulex FlexFabricでも同じことが起こりました。 また、FlexFabric BIOSを更新し、ドライバーを書き直しました。 すべてが迅速かつ安定して機能し、
...しかし、長くはない。
このスクリーンショットでは、エラーコードは次の行です。
PCPU0:32802 / UplinkWatchdogWorld
メザニンカードに2番目の問題がありました。
しばらくして、ブレードの1つで、ホストBIOSからでも4ポートメザニンカードが完全に消えました。 再起動、BIOSのリセット、メザニンPCIアダプターの操作に関する項目がBIOSで見つかるまで何も助けになりませんでした。 pciラインを使用して、信号ゲインレベル(6dbと3.5dbの2点のみ)を選択できるようになりました。 はい、4ポートカードを追加するとこのアイテムが表示されたため、そのようになりました。 ゲインレベルを切り替え、再起動後すぐにカードがBIOSに表示されました。
2週間が経過し、紫色の画面は1つもありませんでした。
ファームウェアの更新後、ネットワークカードにwake on lan機能が現れましたが、これは以前は存在しなかったため、vcenterで電源管理が構成されました。 ホストは必要に応じて起動します。
そして結論として、新しいハードウェア(BIOSの追加アイテムなど)を追加するときに表示される機能に注意する必要があり、すべての致命的なハードウェアエラーが致命的ではないことを伝えたいと思います。 標準ドライバーと古いBIOSは、いくつかのエラーにつながります。
ブレードに対する私の苦痛が誰かに役立つことを願っています。