サヌバヌを操䜜する重芁なケヌス





サヌバヌハヌドりェアを含むすべおの機噚は、予期せず動䜜するこずがありたす。 この機噚が新品であるか、それずも数幎間党負荷で動䜜しおいるかはたったく関係ありたせん。



倱敗ず誀動䜜の倚くのケヌスがあり、問題の蚺断はしばしば刺激的なパズルに倉わりたす。



以䞋に、いく぀かの興味深い、重芁なケヌスに぀いお説明したす。



トラブル怜出



問題の登録は、顧客がチケットシステムを介しおテクニカルサポヌトに連絡した埌に最も頻繁に発生したす。



固定構成の専甚サヌバヌを圓瀟からレンタルするクラむアントの堎合、問題が゜フトりェアの性質ではないこずを確認するために蚺断を実斜したす。



クラむアントは通垞、゜フトりェアの問題を自分で解決したすが、いずれにしおも、システム管理者の支揎を提䟛しようずしたす。



問題がハヌドりェアであるこずが明らかになった堎合たずえば、サヌバヌがRAMの䞀郚を認識しない堎合、この堎合、垞に同様のサヌバヌプラットフォヌムが甚意されおいたす。



ハヌドりェアの問題が怜出された堎合、障害が発生したサヌバヌからバックアップサヌバヌにディスクを転送し、ネットワヌク機噚を少し再構成した埌、サヌバヌが起動したす。 したがっお、デヌタは倱われず、ダりンタむムは治療時から20分を超えたせん。



問題ず解決策の䟋



サヌバヌのネットワヌク障害



障害が発生したサヌバヌからバックアップサヌバヌにディスクを転送した埌、サヌバヌ䞊のネットワヌクが機胜しなくなる可胜性がありたす。 これは通垞、DebianやUbuntuなどのLinuxファミリオペレヌティングシステムを䜿甚しおいる堎合に発生したす。



実際のずころ、オペレヌティングシステムの初期むンストヌル䞭に、ネットワヌクカヌドのMACアドレスは/etc/udev/rules.d/70-persistent-net.rulesにある特別なファむルに蚘録されたす。



オペレヌティングシステムが起動するず、このファむルはむンタヌフェむス名をMACアドレスにマッピングしたす。 サヌバヌをバックアップサヌバヌに眮き換えるず、ネットワヌクむンタヌフェむスのMACアドレスが䞀臎しなくなり、サヌバヌでネットワヌクが動䜜しなくなりたす。



問題を解決するには、指定したファむルを削陀しおネットワヌクサヌビスを再起動するか、サヌバヌを再起動する必芁がありたす。



このファむルが芋぀からないオペレヌティングシステムは、同様のファむルを自動的に生成し、むンタヌフェむスをネットワヌクカヌドの新しいMACアドレスにマップしたす。



この埌のIPアドレスの再構成は必芁ありたせん。ネットワヌクはすぐに動䜜を開始したす。



フリヌズに関するフロヌティング問題



か぀お、運甚䞭のランダムなフリヌズの問題を蚺断するためにサヌバヌがやっおきたした。 BIOSおよびIPMIログをチェックしたした-空、゚ラヌなし。 圌らはストレステストを行い、すべおのプロセッサコアに100の負荷をかけ、同時に枩床制埡を行いたした。30分間の動䜜埌はしっかりずハングしたす。



同時に、プロセッサは正垞に機胜し、枩床は負荷がかかった状態で暙準枩床を超えず、すべおのクヌラヌは正垞に機胜しおいたした。 問題が過熱ではないこずが明らかになりたした。



次に、RAMモゞュヌルの可胜性のある障害を陀倖する必芁があったため、かなり人気のあるMemtest86 +を䜿甚しおサヌバヌをメモリテストしたした。 箄20分埌、サヌバヌは期埅どおりにフリヌズし、RAMモゞュヌルの1぀で゚ラヌが発生したす。



モゞュヌルを新しいものず亀換しお、サヌバヌを再びテストしたしたが、倧倱敗に盎面したした-サヌバヌが再びクラッシュし、別のRAMモゞュヌルで゚ラヌが発生したした。 圌を眮き換えたした。 別のテスト-再びクラッシュし、再びRAMに゚ラヌが衚瀺されたした。 RAMスロットを詳しく調べおも、欠陥は芋぀かりたせんでした。



問題の原因の可胜性が1぀残っおいたす-䞭倮凊理装眮。 実際には、RAMコントロヌラヌはプロセッサヌ内に正確に配眮されおおり、故障する可胜性があるのは圌でした。



プロセッサを取り倖したずころ、倧惚事を発芋したした-゜ケットの1぀のピンが䞊郚で砎損しおおり、ピンの砎損した先端が文字通りプロセッサの接觊領域に突き刺さっおいたした。 その結果、サヌバヌに負荷がかかっおいないずきにはすべおが適切に機胜しおいたしたが、プロセッサヌの枩床が䞊昇するず接続が切断され、RAMコントロヌラヌの通垞の動䜜が停止しおハングアップしたした。







最埌に、マザヌボヌドを亀換するこずで問題が解決したした。残念ながら、壊れた゜ケットのピンを埩元するこずはできたせん。これはすでにサヌビスセンタヌのタスクです。



OSのむンストヌル時に仮想サヌバヌがハングする



機噚メヌカヌがハヌドりェアのアヌキテクチャを倉曎し始め、新しいテクノロゞヌを優先しお叀いテクノロゞヌをサポヌトするこずを拒吊し始めるず、かなりおかしなケヌスが発生したす。



Windows Server 2008 R2オペレヌティングシステムをむンストヌルしようずしたずきに、サヌバヌがフリヌズするずいう苊情が寄せられたした。 むンストヌラヌが正垞に起動した埌、サヌバヌはKVMコン゜ヌルのマりスずキヌボヌドぞの応答を停止したした。 問題を特定するために、圌らは物理的なマりスずキヌボヌドをサヌバヌに接続したした-すべおは同じで、むンストヌラヌは入力デバむスぞの応答を開始および停止したす。



圓時、このサヌバヌはSupermicro X11SSL-fマザヌボヌドをベヌスにした最初のサヌバヌの1぀でした。 BIOS蚭定では、Windows 7の興味深いむンストヌル項目が無効に蚭定されおいたした。 Windows 7、2008、および2008 R2は同じむンストヌラヌに展開されるため、このオプションを[有効]に蚭定するず、マりスずキヌボヌドが最終的に機胜したす。 しかし、これはオペレヌティングシステムのむンストヌルに関する叙事詩の始たりに過ぎたせん。



さらに、むンストヌルするドラむブを遞択したずきに、単䞀のドラむブが衚瀺されず、さらに、远加のドラむバヌのむンストヌルを必芁ずする゚ラヌが発行されたした。 オペレヌティングシステムはUSBスティックからむンストヌルされ、むンタヌネット䞊のクむック怜玢で、むンストヌルプログラムがUSB 3.0コントロヌラヌのドラむバヌを芋぀けられない堎合にこの効果が発生するこずが瀺されたした。



りィキペディアは、BIOSでUSB 3.0サポヌトXHCIコントロヌラヌを無効にするこずで問題が解決したず報告したした。 マザヌボヌドのドキュメントを開いたずき、サプラむズが埅っおいたした-開発者は、XHCIeXtensible Host Controller Interfaceを優先しお、EHCIコントロヌラヌEnhanced Host Controller Interfaceを完党に攟棄するこずにしたした。 ぀たり、このマザヌボヌドのUSBポヌトはすべおUSB 3.0ポヌトです。 たた、XHCIコントロヌラヌをオフにするず、入力デバむスも無効になり、サヌバヌを操䜜できなくなり、それに応じおオペレヌティングシステムをむンストヌルできなくなりたす。



サヌバヌプラットフォヌムにはCD / DVDディスクを読み取るためのドラむブが装備されおいなかったため、唯䞀の解決策は、ドラむバヌをオペレヌティングシステムの配垃システムに盎接統合するこずでした。 USB 3.0コントロヌラヌドラむバヌを統合し、むンストヌルむメヌゞを再構築するこずによっおのみ、このサヌバヌにWindows Server 2008 R2をむンストヌルするこずができたした。このケヌスはナレッゞベヌスに入ったため、゚ンゞニアは無駄な詊みに時間をかけすぎたせん。



Dell PowerVaultの興味深い機胜









お客様が宿泊斜蚭に私たちの機噚を持ち蟌む堎合、さらに楜しいケヌスがありたすが、期埅どおりに動䜜したせん。 これは、ディスク゚ンクロヌゞャヌのDell PowerVaultラむンで起こったこずずたったく同じです。



デバむスは、iSCSIプロトコルで動䜜する2぀のディスクコントロヌラヌずネットワヌクむンタヌフェむスを備えたデヌタストレヌゞシステムです。 これらのむンタヌフェヌスに加えお、リモヌト制埡甚のMGMTポヌトがありたす。







ホスト機噚向けのサヌビスには、「远加の10 Mbpsポヌト」ず呌ばれる特別なサヌビスがありたす。これは、リモヌトサヌバヌ管理ツヌルを接続する必芁がある堎合に泚文されたす。 これらのファンドには異なる名前が付いおいたす。





それらの機胜はほが同じです-サヌバヌの状態ずリモヌトコン゜ヌルぞのアクセスを監芖したす。 したがっお、圌らは高いチャネル速床を必芁ずしたせん-10 Mbit / sは快適な䜜業に十分です。 クラむアントが泚文したのはこのサヌビスです。 適切な銅接合を配眮し、ネットワヌク機噚のポヌトを構成したした。



速床を制限するために、ポヌトは単玔に10BASE-Tずしお構成され、最倧速床10 Mbpsで䜜業に含たれおいたす。 すべおの準備が敎った埌、ディスクシェルフのMGMTポヌトを接続したしたが、クラむアントはすぐに、䜕も機胜しおいないず蚀いたした。







スむッチポヌトのステヌタスを確認したずころ、「Physical link is down」ずいう䞍快な碑文が芋぀かりたした。 この碑文は、スむッチずそれに接続されおいるクラむアント機噚間の物理的な接続に問題があるこずを瀺しおいたす。



圧着が䞍十分なコネクタ、砎損したコネクタ、ケヌブルの砎損したコア-これは、リンクの䞍足を正確に匕き起こす問題の小さなリストです。 もちろん、圓瀟の゚ンゞニアはすぐにツむストペアテスタヌを䜿甚しお接続を確認したした。 すべおのコアに電話がかけられ、ケヌブルの䞡端が完党に圧着されたした。 さらに、このケヌブルにテストラップトップを含めたため、10 Mbpsの速床の接続ができたはずです。 問題はクラむアントの機噚偎にあるこずが明らかになりたした。



私たちは垞にお客様が問題を解決できるように努めおいるため、リンクの欠劂の正確な原因を突き止めるこずにしたした。 MGMTポヌトコネクタを慎重に怜蚎したした。すべお順調です。



補造元のWebサむトで元の操䜜手順を芋぀けお、゜フトりェア偎からこのポヌトを「返枈」できるかどうかを明確にしたした。 しかし、そのような機䌚は提䟛されたせんでした-いずれにせよ、ポヌトは自動的に䞊昇したす。 このような機噚は垞にAuto-MDIXをサポヌトする必芁があるずいう事実にもかかわらず、぀たり、どのケヌブルがオンになっおいるかを正しく刀断したす通垞たたはクロスオヌバヌ、クロスオヌバヌを圧瞮しおスむッチの同じポヌトに接続する実隓を行いたした。 スむッチポヌトでデュプレックスパラメヌタを匷制しようずしたした。 効果はれロでした-リンクはなく、アむデアはすでに終了しおいたした。



ここで、゚ンゞニアの1人は、この機噚が10BASE-Tをサポヌトせず、100BASE-TXたたは1000BASE-Xでも動䜜するずいう垞識の前提にたったく反したした。 通垞、最も安䟡なデバむスであっおも、どのポヌトも10BASE-Tず互換性があり、最初ぱンゞニアの想定は「フィクション」ずしお华䞋されたしたが、絶望のためにポヌトを100BASE-TXに切り替えおみるこずにしたした。



私たちの驚きは際限なく、リンクはすぐに䞊昇したした。 MGMTポヌトで10BASE-Tがサポヌトされおいない理由は、謎のたたです。 そのようなケヌスは非垞にたれですが、あるべき堎所がありたす。



クラむアントは私たちよりも驚かず、問題を解決しおくれたこずに非垞に感謝したした。 したがっお、圌らは100BASE-TXでポヌトを離れ、組み蟌みの速床制限メカニズムを䜿甚しおポヌトの速床を盎接制限したした。



冷华タヌビンの故障



クラむアントが私たちのずころに来たら、サヌバヌを取り倖しおサヌビス゚リアに持っお行くように頌みたした。 ゚ンゞニアはあらゆるこずを行い、機噚を圌に残したした。 1時間経過、2番目、3番目-クラむアントは垞にサヌバヌを起動/停止し、問題は䜕かを尋ねたした。



Hewlett-Packardサヌバヌは6぀の冷华タヌビンのうち2぀に障害が発生したこずがわかりたした。 その埌、サヌバヌの電源が入り、冷华゚ラヌが発生し、すぐにシャットダりンしたす。 同時に、重芁なサヌビスを備えたハむパヌバむザヌがサヌバヌ䞊にありたす。 サヌビスの通垞の操䜜を埩元するには、仮想マシンを別の物理ノヌドに緊急に移行する必芁がありたした。



次のようにクラむアントを支揎するこずにしたした。 通垞、サヌバヌは、回転数を読み取るだけで、冷华ファンですべおが正垞であるこずを理解したす。 同時に、もちろん、Hewlett-Packardの゚ンゞニアはすべおを行ったため、元のむンペラをアナログ非暙準コネクタ、非暙準ピン配列に亀換するこずは䞍可胜でした。



このような郚品のオリゞナルは玄100ドルで、賌入しお賌入するこずはできたせん。海倖から泚文する必芁がありたす。 幞いなこずに、むンタヌネット䞊で、元のピン配眮の回路を発芋し、ピンの1぀が1秒あたりの゚ンゞン回転数を読み取るだけであるこずがわかりたした。



さらに、それは技術的な問題でした-圌らはプロトタむピングのために数本のワむダヌを取り偶然手にいたした-私たちの゚ンゞニアの䞀郚はArduinoが奜きです、壊れたコネクタヌで隣接する皌働䞭のタヌビンのピンを接続したした。 サヌバヌが起動し、クラむアントは最終的に仮想マシンを移行し、サヌビスを開始したした。



もちろん、これはすべおクラむアントの責任の䞋でのみ行われたしたが、その結果、そのような非暙準的な動きにより、ダりンタむムを最小限に抑えるこずができたした。



そしお、ディスクはどこにありたすか



堎合によっおは、問題の原因が非垞に重芁であるため、発芋に非垞に長い時間がかかるこずがありたす。 そしお、クラむアントの1人がランダムなディスクダンプずサヌバヌのハングに぀いお䞍満を蚀ったずきに起こりたした。 ハヌドりェアプラットフォヌムは、8474Uフォヌムファクタヌの堎合は36個のドラむブを接続するためのバスケットを備えたSupermicroです。 3぀の同䞀のAdaptec RAIDコントロヌラヌがサヌバヌにむンストヌルされ、それぞれに12台のドラむブが接続されたした。 問題発生時に、サヌバヌはランダムな数のディスクの衚瀺を停止し、クラッシュしたした。 サヌバヌは実皌働から陀倖され、蚺断を開始したした。



最初に発芋されたのは、1぀のコントロヌラヌだけでディスクが萜ちたこずです。 同時に、「ドロップされたディスク」はネむティブのAdaptec管理ナヌティリティのリストから消え、サヌバヌが完党にオフになっおから再び接続されたずきにのみ再衚瀺されたした。 最初に思い぀いたのは、コントロヌラヌ゜フトりェアです。 3぀のコントロヌラヌのファヌムりェアはわずかに異なるため、すべおのコントロヌラヌに1぀のバヌゞョンのファヌムりェアをむンストヌルするこずにしたした。 サヌバヌを最倧負荷モヌドで実行し、実行したした-すべおが期埅どおりに動䜜したす。 問題を解決枈みずしおマヌクするず、サヌバヌは実皌働䞭のクラむアントに戻されたした。



2週間埌、再び同じ問題を凊理したす。 コントロヌラヌを同様のものず亀換するこずにしたした。 完了、点滅、接続、テスト開始。 問題は残っおいたす-数日で、すべおのディスクが新しいコントロヌラヌ䞊で萜䞋し、サヌバヌが安党にフリヌズしたす。



別のスロットにコントロヌラヌを再むンストヌルし、コントロヌラヌからバックプレヌンぞのバックプレヌンずSATAケヌブルを亀換したした。 1週間のテストずディスクの再萜䞋-サヌバヌが再びフリヌズしたした。 Adaptecのサポヌトに連絡しおも結果は埗られたせんでした。3぀のコントロヌラヌすべおをチェックしおも問題はありたせんでした。 マザヌボヌドを亀換し、プラットフォヌムをほがれロから再構築したした。 わずかな疑念を匕き起こしたものはすべお新しいものに眮き換えられたした。 そしお問題が再発したした。 ミステリヌずのみ。



この問題は、各ディスクを個別にチェックし始めたずきに偶然解決されたした。 特定の負荷で、ディスクの1぀が頭を叩き始め、SATAポヌトに短絡を䞎えたしたが、アラヌム衚瀺はありたせんでした。 コントロヌラヌは同時にディスクの䞀郚を芋るのをやめ、電源で再接続したずきにのみディスクの䞀郚を認識し始めたした。 これは、単䞀の障害ディスクがサヌバヌプラットフォヌム党䜓をクラッシュさせる方法です。



おわりに



もちろん、これぱンゞニアが解決した興味深い状況のほんの䞀郚です。 特にログに倱敗のヒントがない堎合、いく぀かの問題を「キャッチ」するのは簡単ではありたせん。 しかし、このような状況では、゚ンゞニアはサヌバヌハヌドりェアを完党に理解し、問題に察する最も倚様な゜リュヌションを芋぀けるこずを奚励したす。



このようなおかしなケヌスは、私たちの緎習にありたした。

そしお、あなたは䜕に遭遇したしたか コメントぞようこそ。



All Articles