リアルタイム制御システムにおける永続プロセスの実装の問題について(パート2)

記事の続き。



開始:パート1



3.ハードウェアとファームウェア



制御システムのこのレベルの実装は、開発者にとって非常に大きな選択の自由によって特徴付けられます。 この記事では特殊なハードウェアソリューションを検討しないことに上記で同意したため、汎用シリアル機器に限定します。



まず第一に、私たちの深い信念では、フォールトトレランスに関する重大な記事は、IBMおよびz SystemsおよびPower Systemsプラットフォームに敬意を払わなければ考えられません。 Z SystemsメインフレームおよびPower Systems HAクラスターは、ハードウェア、ファームウェア、およびシステムレベルでユーザーアプリケーションに単一のフォールトトレラントプラットフォームを提供するように特別に設計されており、より一般的なIntelアーキテクチャで実装可能なソ​​リューションよりも信頼性が優れている可能性があります。 残念ながら、前述のIBMソリューションにはいくつかの欠点もありますが、最も一般的なのはコストです。 開発者の経験によれば、現在のz、pおよびIntelソリューション(ハードウェア自体とそのライセンスプログラム)および現在のドルからルーブルの為替レートでは、ロシアの条件では、独自のアーキテクチャへの新しい投資を経済的に正当化することは非常に困難ですIntelソリューションの信頼性指標を確実に設定するために、大幅な追加の人件費を考慮します。 一般に、「ビッグアイアン」で作業している同僚は自分の理由をよく知っており、彼らの道は非常に尊敬されていますが、初心者にはお勧めできません。



公共部門への注意
ここでは、プレゼンテーションの論理を分岐させ、ロシアのフォールトトレラントシステム市場の大部分が公共部門のニーズに焦点を合わせているという事実を考慮に入れなければなりません。 したがって、他の心配事の中でもとりわけ、国家の願いに応えるという名誉ある義務を負っている開発者のために、次のことに注意します。 現在、ご存知のように、ロシア連邦政府は輸入代替の方針を宣言しています。 最も基本的な形では、このポリシーはロシアとEAEU諸国で製造された製品の排他的使用を意味します。 しかし、多くのガイダンス文書はより寛大な要件を確立し、NATO諸国、欧州連合、およびロシア連邦に対する部門制裁体制をサポートするその他の国による製品の使用に対する制限を規定しています。 IT業界にとっては、中国(台湾を含む)と日本がこのような緩やかな制限に該当しないことは重要であり、Lenovoのサーバーシステム(IBM互換のIntelビジネスを非常に上回っています)と日立は検討の最前線にいます。




フォールトトレラントハードウェアの分野でIntel互換のソリューションを検討する場合、特に次の点に注意する必要があります。

-サーバーのホットバックアップ。

-ネットワーク機器とサーバー間の接続のホットバックアップ。

-ストレージシステムのディスクメモリのホットバックアップ。

-障害に対するファームウェアの安定性;

-OSの動作状態の制御。



サーバー、ネットワーク機器、ディスクメモリのホットバックアップに便利な既製のプラットフォームは、多くのメーカーが製造したブレードシステムとフレックスシステムです。 製作者は、苦い経験を​​積んだときにのみ発生する可能性のある多くの問題を事前に解決しているため、著者はフォールトトレラントソリューションの初心者開発者に同様のシステムを推奨する傾向があります(予算が許せば)。 同時に、個別に取り付けられたコンポーネントを組み合わせることにより、ホット冗長性を提供できます。 何らかの方法で、データアクセスサブシステムに障害が発生した場合の単一障害点を排除するために、代替アクセスを備えた集中データストレージシステムを編成する問題を解決する必要があることに注意してください。



ファームウェアの障害に対する安定性は、サーバープラットフォームでUEFIとサービスコントローラーをフラッシュするための特別なアルゴリズムによって提供されます。 たとえば、サーバーの場合、ファームウェアの自動バックアップと復元、オペレーティングシステムのブートローダーの自動バックアップなどを提供できます。



コンピューティング環境のフォールトトレランスを確保するための基本的な重要性は、サーバープラットフォームによって実装されるさまざまなウォッチドッグタイマーの使用です。 アプリケーションおよびクラスタソフトウェアレベルでは、機器が提供するIPMIまたはiTCOウォッチドッグが使用されます。 オペレーティングシステムを読み込むとき、多くのサーバープラットフォームでは、このプロセスの成功を制御する独自のタイマーを設定できます。



かつて、著者は、クラッシュが発生したオペレーティングシステムのブートローダーを更新する際にLenovoブレードサーバーの動作を観察することができ、ブートローダー構成ファイルにエラーが書き込まれました。 ブートローダーはLinuxカーネルのロードを開始し、その後クラッシュしました。 しばらくして、サーバーのサービスプロセッサでOSロードタイムアウトが機能し、サーバーが再起動しました。 UEFIサーバーファームウェアは、以前のブート試行が失敗したことを発見したため、アーカイブディレクトリから以前のバージョンのブートローダーにロールバックする決定を独自に行い、それを呼び出して、システムが正常にブートしました。 したがって、修復パーティションから手動で起動されるまで通常のワークステーションレベルのプラットフォームで動作しなかったシステムは、次の更新で正しいブートローダーが復元されるまで、サーバープラットフォームで2つのステップに自動的に起動します。 システムが最初にセットアップされたとき、管理者は正しいブートタイマー値を設定するだけでした。



サーバーの復元力を確保する一般的な方法としては、ECCメモリ、ディスクメディアを冗長RAIDアレイに結合、すべてのサーバーコンポーネントとサーバーシャ​​ーシの複製、サーバーシステムコンポーネント間の代替通信パスの提供などがあります。



現在、十分な種類の特殊なサーバーシステムが市場に出回っていることを要約すると、フォールトトレランスを確保するためのハードウェア機能を無視することはできません。



結論として、一般的な誤解-最小フェールオーバークラスターは3つのノードで構成されるべきであるという意見に注意してください。これは、冗長性を提供すると同時にノードの1つが失敗した場合に多数決をもたらす最小数であるためです。 実際、3つのうち1つのノードの障害またはサービスへの転送により、残りの2つのノードは非常に不安定な相互競合状態になり、わずかな通信障害で3番目のノードが作動し、3番目のノードが動作を開始すると、相互の射撃が発生する可能性があります順番にそれらとの関係。 したがって、実際のフェールオーバークラスター構成には、少なくとも4つまたは5つのノードを含める必要があります(投票の確率は2:2であり、2つのノードで同時に問題が発生するため、それ自体は非常に低く、非対称クラスタートポロジによって排除できます)。



4.ホストされたオペレーティングシステム



フォールトトレラントなアプリケーションにホストオペレーティングシステムを選択するという問題は、多くの重要なポイントへの極端な依存性を明らかにしています。 この選択で役割を果たす主な要因には、次のものがあります。

-物理的な機器のサポート。

-仮想化およびクラスタリング環境のサポート。

-費用;

-認証とセキュリティの要件。



フォールトトレラントサーバープラットフォームは、製造元によって、少数のオペレーティングシステムとのみ互換性があると宣言されています。 通常、Intel互換プラットフォーム用のこのようなシステムには、Windows、Red Hat Enterprise Linux(RHEL)、SUSE Linux Enterprise Server(SLES)、およびVMware ESXiが含まれます。 他のオペレーティングシステムのインストールは可能ですが、原則として、フォールトトレランスを確保するために重要なハードウェア機能(たとえば、ディスクコントローラーをバックアップするためのマルチパスツール)の定期的なサポートが不足します。



制御システムを構築するためのプラットフォームとしてWindowsを選択するということは、基本的に、未熟なユーザーの機器を通じて配信される悪意のあるソフトウェアの集中的で攻撃的な環境に制御サーバーを配置することを意味します。 著者の観点からすると、そのような選択はほとんど正当化できません



Unix互換システムで現在使用されている主なサーバー仮想化ツールは、VMware ESXi、KVM(RHELおよびSLES)、Xen(SLES)です。 これらのプラットフォームはすべて(追加オプションとして)仮想マシンのクラスタリングを提供します。つまり、障害が発生したノードからバックアップノードへの仮想マシンの自動移行をサポートします。



ハイパーバイザーの機能的特徴によると、VMware ESXiは今日のリーダー的地位を占めています。 ただし、プロセッサの数が非常に多い高可用性クラスターのVMwareライセンスのコストは非常に大きい場合があります。



KVMとXenは、よりシンプルで安価なソリューションです。 KVMの利点には、仮想マシンの多数のインターフェイスの高度な洗練が含まれます。Xenの利点は、マイクロカーネルで機能することです。これにより、理論的には、ハイパーバイザーの信頼性が向上します。



最後に、開発されたフェールセーフシステムが対象とする業界で有効な認証およびセキュリティ要件は、上記のオペレーティングシステムのいずれも業界標準への準拠を保証できないため、上記のすべてを無効にできることに注意してください。 この場合、開発時には、規制文書の要件に合わせて踊る必要があります。



終了:パート3



All Articles