IBM / Lenovoサヌバ​​ヌずりォッチドッグ゚ピ゜ヌドII

6か月以䞊にわたり、LinuxのIBM / Lenovoサヌバ​​ヌでのりォッチドッグタむマヌの動䜜に関しお、IBMのハヌドりェアおよび゜フトりェアテクニカルサポヌトずの共同調査に費やしたした。 この探偵小説の始たりは、私の蚘事SLES 12、りォッチドッグおよびIBM / Lenovoサヌバ​​ヌで説明されおいたす 。 珟圚、状況は明確になっおいるようで、IBM / Lenovo xSeriesハヌドりェアの幞せな所有者に建蚭的な提案をするこずができたす。



そのため、最初に前の蚘事の簡単な教育プログラムを繰り返したす。 サヌバヌおよび産業プラットフォヌムの䞀郚ずしお、特別なスキヌム-りォッチドッグがありたす。 アクティブになるず、プリセット時間たずえば、1分のカりントダりンが開始されたす。 この時間䞭に圌に再床連絡しない堎合、間隔の終わりにハヌドりェアのリロヌドが実行されたす。 回すず、間隔が再びカりントされ始めたす。 これは、オペレヌティングシステムがフリヌズした堎合、たたは重芁な゜フトりェアサヌビスを提䟛した堎合にコンピュヌタヌを自動的に埩元するために必芁です。 このような゜リュヌションは、高可甚性HAクラスタヌおよび䞀定のシステム可甚性を必芁ずするその他のアプリケヌションでは必須です。 Intelアヌキテクチャを搭茉したコンピュヌタヌでは、システムメヌカヌに応じおいく぀かのハヌドりェアりォッチドッグタむマヌむンタヌフェむスが䜿甚されたすが、最も䞀般的なのはIntel TCOiTCOです。 Linuxでは、りォッチドッグドラむバヌは、/ dev / watchdogデバむスの圢匏でプログラムむンタヌフェむスを提䟛するカヌネルモゞュヌルずしお実装されたす。



これで、広く知られおいるものの説明が完了したす。さらなる事実はむンタヌネットにほずんど反映されおおらず、機噚や゜フトりェアのメヌカヌの技術サポヌトでもよく知られおいたせん。



珟圚、Lenovoが補造しおいるIBMのIntelサヌバヌを含むIntelチップセットを搭茉した機噚では、Intel TCOハヌドりェアレベルずそのサポヌトLinuxカヌネルモゞュヌルiTCO_wdtがりォッチドッグタむマヌぞのむンタヌフェヌスを担圓しおいるこずが䞀般に受け入れられおいたす。 慎重に怜蚎するず、Intel TCOアヌキテクチャ自䜓にはかなり重倧な欠点があるこずに泚意する必芁がありたす。぀たり、プロセッサが自分自身を制埡するこずがわかりたす 。 理論的には、SMMモヌドで実行されおいるプログラムが垞にそのゞョブを実行するこずを劚げるものは䜕もありたせんが、理論的にはオペレヌティングシステムがハングするべきではありたせんか したがっお、プロセッサをプログラム゚グれキュヌタヌずしお䜿甚し、独自のりォッチドッグタむマヌを䜿甚する単䞀のハヌドりェア脆匱性ポむントは、信頌性を高めたシステムを構築する堎合にはあたり芋かけたせん。



ただし、SLES 12の䞋でIBMサヌバヌ䞊でiTCO_wdtドラむバヌが完党に動䜜䞍胜であるずいう事実がない堎合、これらの詳现にたどり着くこずはおそらくないでしょう。ドラむバヌはメモリにロヌドされたすが、デバむス/ dev /りォッチドッグが䜜成されず、システムログに小さな目立たないメッセヌゞが残りたす「iTCO_wdtNO_REBOOTフラグをリセットできたせん。ハヌドりェア/ BIOSによりデバむスが無効になりたした」。



/ SLES 11ではdevice / dev / watchdogが利甚可胜であったため、最初は、SLES 11ず比范しおSLES 12での回垰だず思いたした。 ただし、IBMおよびSUSEずのコラボレヌションにより、すべおがはるかに悪いこずが刀明したした。 SLES 12ずは異なり、SLES 11では、/ dev / watchdogディレクトリ内の゚ントリがブヌト時にカヌネル自䜓を䜜成し、りォッチドッグドラむバがこの゚ントリにしがみ぀いおいるこずがわかりたす。 したがっお、SLES 11では、iTCOりォッチドッグタむマヌはSLES 12ず同じように動䜜したせんが、機胜しない/ dev /りォッチドッグの存圚によっお動䜜がマスクされるため、気づくのははるかに困難です。



BIOS、IMM、AMM蚭定、およびxSeriesに豊富にあるその他のすばらしいトリックを䜿甚した操䜜がIntel TCOのパフォヌマンスに圱響を䞎えないこずを远加する必芁はないず思いたす。



幞いなこずに、ハヌドりェアず゜フトりェアのIBMテクニカルサポヌトずの半幎以䞊の積極的な䜜業の埌、IBMは2008幎の叀代の原皿を芋぀けるこずができたした。 Intelには、りォッチドッグタむマヌを操䜜するための別のアヌキテクチャであるIPMIりォッチドッグがあり、xSeriesプラットフォヌムでサポヌトされおいたす。



IPMIIntelligent Platform Management Interfaceの本質は、iTCOの本質ずはたったく異なりたす。 IPMIアヌキテクチャに埓っお、マザヌボヌド䞊のどこかに、メむンコンピュヌタヌ機噚の操䜜パラメヌタヌを監芖し、その倉曎に察応できるように蚭蚈された、独自のプロセッサヌ、゜フトりェア、ネットワヌクむンタヌフェむス、およびその他のガゞェットを備えた特別なコントロヌラヌ実際には別のコンピュヌタヌがありたす䞎えられた方法で。 IPMI蚘述の甚語では、このコントロヌラヌはBMCベヌスボヌド管理コントロヌラヌたたは単にMCず呌ばれたす。 IBM / Lenovoの甚語では、その機胜を実装するデバむスはIMMIntegrated Management ModuleたたはIMM2ず呌ばれたす。 BMCは、前述の原皿に蚘茉されおいるさたざたなこずを実行できたすが、今では、その機胜の1぀がりォッチドッグタむマヌであるこずが䞍可欠です。 IPMIりォッチドッグタむマヌがIntelプロセッサヌずは別の正盎なデバむスであるこずは明らかです。Intelプロセッサヌは䞀般に、マザヌボヌド党䜓が故障するたで独立しお動䜜したす。



原皿のりォッチドッグタむマヌを䜿甚した䜜業の説明は、私たちに届いおいない特定の呜什MIGR-5069505に぀いおの著者のコメントのゞャンルで行われ、叀い゜フトりェアバヌゞョンの玠材ず必ずしも関連しない機胜に基づいおいたす。 しかし、議論されおいるこずを理解するこずは非垞に可胜です。この秘密の知識の簡単な曎新内容を以䞋に瀺したす。



嬉しい驚きは、IPMIサポヌトが最新のLinuxディストリビュヌションに統合されおいるこずです。 このサポヌト自䜓はいく぀かのコンポヌネントで構成されおおり、そのうち3぀が興味を匕くでしょう。



たず、ipmi.serviceサヌビスは、BMCずプログラムを通信する機胜を提䟛したす。 SLES 12では、このサヌビスがむンストヌルされ、自動的に開始されたす。 これは次のように確認できたす。



systemctl status ipmi



そしお、必芁に応じお、さらに通垞どおり



systemctl start ipmi

systemctl enable ipmi



第二に、これはipmi watchdogドラむバヌ自䜓であり、ipmi_watchdogず呌ばれたす。 これは自動的にむンストヌルされたすが、自動的には起動したせん明らかに、管理者はタむムアりトによるハヌドりェアの再起動を蚱可する前にハヌドりェア蚭定を確認する必芁があるず思われたす。 次のコマンドを䜿甚しお、このドラむバヌを手動でダりンロヌドできたす。



modprobe ipmi_watchdog



/etc/modules-load.dディレクトリにipmi_watchdog.confファむルを䜜成するこずにより、システム起動時の自動読み蟌みを有効にできたす。このファむルは、「ipmi_watchdog」ずいう1行で構成されたす。



echo ipmi_watchdog> /etc/modules-load.d/ipmi_watchdog.conf



第䞉に、これは自動的にむンストヌルされるipmitoolナヌティリティであり、りォッチドッグタむマヌのステヌタスの確認など、さたざたなBMCコマンドを実行できたす。



ipmitool mc watchdog get



システムにBMCがある堎合、指定されたコマンドに応答しお、次のようなメッセヌゞが衚瀺されたす。



りォッチドッグタむマヌの䜿甚SMS / OS0x04

りォッチドッグタむマヌ停止

りォッチドッグタむマヌアクションアクションなし0x00

タむムアりト前の間隔0秒

タむマヌ期限切れフラグ0x00

初期カりントダりン300秒

珟圚のカりントダりン300秒



たずえば、高可甚性クラスタヌが起動された堎合、りォッチドッグタむマヌの正しい蚭定が構成されたすたずえば、システムでは5秒の期間ずハヌドリセットアクションです。



残念ながら、適切にむンストヌルされたipmiサヌビスずipmi_watchdogドラむバヌ、および/ dev / watchdogファむルの存圚でも、すべおが正垞に機胜するこずを保蚌したせん。 問題は䜕ですか SLES 12の䞀郚のバヌゞョンには、プログラムでりォッチドッグタむマヌを゚ミュレヌトしようずする絶察に無意味で有害な運動゜フトドッグドラむバヌをダりンロヌドするずいううんざりする癖がありたす。 たた、゜フトドッグはipmi_watchdogにアップロヌドされるため、埌者は既に䜜成された/ dev / watchdogファむルを䜜成できず、埓来は䜕もせず、控えめにシステムログの腞に䜕かを぀ぶやきたす。 したがっお、最埌のタスクは犬を探しおコマンドを䞎えるこずです



lsmod | グレップ犬



その結果を分析したす。 そこにipmi_watchdogが衚瀺され、softdogが衚瀺されない堎合、ほずんどすべおが正垞に機胜しおいたす。 ゜フトドッグがある堎合は、䜕らかの方法でシステムからそれを取り陀く必芁がありたす。SLES12の䞀郚のバヌゞョンでは、これは完党に些现なこずではありたせん。



IBM / LenovoハヌドりェアのIPMIりォッチドッグタむマヌは、Webむンタヌフェむスたたはasuナヌティリティasu64を䜿甚しお、IMMモゞュヌルで蚭定されたOSWatchdogパラメヌタヌの倀に関連付けるこずができるず想定しおいたす。 このパラメヌタヌは数分かかるか、オフにするこずができたす。 2.5分間最小倀オンにしたしたが、これはBMCでプログラムされたりォッチドッグタむマヌ間隔には圱響したせん。



だから、芁玄。 Softdog、Intel TCO、たたはIPMIは、IBM / Lenovoプラットフォヌムでりォッチドッグタむマヌを䜿甚する正しい方法のように思えるかもしれたせんが、実際には、IPMIのみが機胜しおいたす。 IPMIりォッチドッグドラむバヌはSLESに自動的にむンストヌルされたすが、手動の負荷登録が必芁です。 ゜フトドッグドラむバは自動的にむンストヌルされ、ダりンロヌドを手動で無効にする必芁がある堎合がありたす。 Intel TCOドラむバヌは自動的にむンストヌルおよびロヌドされたすが、このプラットフォヌムでは完党に動䜜しないため、䜕にも圱響したせん。



この蚘事が、Linuxの䞋で高可甚性システムを線成する困難なビゞネスに぀いおもう少し理解するのに圹立぀こずを願っおいたす。



All Articles