スーパーコンピューターはどのようなコンピューティングに必要でしたか?
多くの問題は、分析よりも数値的手法で解決する方がはるかに簡単です。 通常、これらは、化学反応器、熱交換器、溶接機のトーチなど、さまざまな生産ユニットの数学モデルの適用された問題です。 信頼性の高いモデルを使用すると、特定の動作パラメーターの変更に応じて、実際のデバイスの動作を正確に予測して改善できます。 信頼できるモデルを取得するには、通常、計算されたデータを実際の実験のデータと複数回比較し、モデルを調整して再計算する必要があります。 精度が低下したモデルの中間バージョンを計算している場合でも、計算の点で非常にコストがかかります。 通常のコンピューターでの数日または数週間の和解は、一般的な現実です。
NArFUでは、このようなリソース集約型の計算が複数の科学分野および応用分野で同時に使用されます。
最初の方向は、分子動力学の分野の問題です。 これは、たとえば、ガス混合物の拡散、吸収、物質移動のモデリングなど、すべて数百および数千の分子の挙動まで、高精度で計算されます。 実際には、フィルター材料の特性を改善し、混合物の分離および化学物質の精製の技術を改善するという問題を解決します。
2番目の方向は、ハイドロガスダイナミクスです。 これらは、生産、特にエンジニアリング向けの応用タスクでもあります。 一例は、ガスバーナー内の炎の挙動の数値計算です。 異なるガス層の速度、圧力、温度の計算、乱流により、溶接技術の改善、ツールの改善、品質と速度の改善が可能になります。 セベロドビンスクのNArFUの支部も同様のタスクに従事しています。 これがフリートのフォージであり、そこで生産技術の改善に真剣に取り組んでいます。
3番目の領域は、熱工学、熱力学の分野での計算です。 スーパーコンピューターで検討された最初のタスクが来たのは、熱工学部からでした。 学士号の学生の仕事では、熱交換器の数学モデルが作成されました-加熱されたガスの形で工業炉からの副産物の熱を選択するための熱交換器。
さらに、NArFUの数学、情報、および宇宙技術研究所は、並列アルゴリズムの作成と最適化に関するトレーニングと実際の作業にスーパーコンピューターを積極的に使用しています。
何で構成されていますか?
NArFUスーパーコンピューターは比較的小さく、20の計算ノードがあり、それぞれが各プロセッサーに10コアを持つ2プロセッサーのサーバーです。 合計40個のプロセッサと400個のコア。 これは1000プロセッサのモンスターと比較するとそれほどではありませんが、大学レベルでは非常に優れており、NArFUの計算問題を解決するには十分です。
これら20個のノードのうち8個にはIntel Xeon Phiコプロセッサが搭載されています。これらは、nVidia GPUと機能が似ている60個の核脱穀機です。 彼らは非常に迅速に多くの特定の問題を考慮します。まず第一に、大きな行列を用いた計算と微分方程式系の数値解法です。 それらを使用することで、特に対象とする特定のタスクで生産性を目に見える形で高めることができます。
Intel Xeon Phiは高価な喜びではありませんが、コプロセッサーを使用しない方が、コプロセッサーを使用しない通常のコンピューティングノードで同じタスクを数えるよりも、パフォーマンス/コスト比の点ではるかに有益です。
コンピューティングノードに加えて、コンピューティングおよびクラスター管理のためのタスクをキューに入れるためのヘッドサーバーがさらに2つあります。 また、4台のサーバーがストレージシステムを提供します。詳細については、以下を参照してください。
スーパーコンピューター通信
クラスターには、2つの最も重要なパフォーマンス要因があります。
1.ノード間の通信速度、
2.大きなファイルへのアクセス速度。
ポイントは、プログラムがI / O操作を待つ時間を無駄にせずにカウントすることです。 これは、ボトルネックを最初に除去する必要がある場所です。
異なるノードで実行されているプロセス間でデータを交換するには、独立した最速のネットワークが使用されます。 これは、非常に高い帯域幅(最大56ギガビット/秒)と低遅延を備えたInfiniBandネットワークです。 このネットワークは非常に高い強度で使用され、図ではピンク色で示されています。
2番目の別のネットワーク(図にオレンジ色で示されている)は、ノードに接続し、コマンドとサービスメッセージを送信するためにジョブ管理システムによって使用されます。 ここでの速度要件は、最初のネットワークよりもはるかに低くなっています。
また、図の緑色で示されている3番目のネットワークは、ハードウェアコンポーネントをサービスするための技術的なネットワークです。 最新のサーバーでは、インストールされているシステムに関係なく、ハードウェアレベルで自分自身を管理できます。 オン/オフ、ハードウェアコンポーネントのパラメーターの確認、診断の実行、再起動-これはすべてハードウェアレベルで可能であり、すべてこのネットワークを介して行われます。
データ保存
60 TB Fujitsu Exabyte File System(FEFS)ネットワークストレージは、1秒あたり1.7ギガバイトの帯域幅を提供します。 どのハードドライブよりもはるかに高速です。 物理的には、これらは4つのサーバーによって処理される2つのバスケットのハードドライブです。
FEFSファイルシステムには、ネームスペースに関するメタデータと、実際にはファイルを含むいくつかのサーバーストレージオブジェクトを格納するメタデータサーバーが含まれています。
ソフトウェア
計算ノードのオペレーティングシステム-Redhat Linux。
PBS Professionalジョブ管理システム。
Fujitsu HPC Gatewayクラスター管理システムのタスクは、コンピューティングノードのインストールと再インストール、オン/オフの切り替えなどです。
Ansysシステムは商用エンジニアリングソフトウェアから購入されたものであり、実際には計算そのものを担当しています。
ユーザーの観点から見た場合のすべて
ユーザーがリモートからアクセスするヘッドサーバーがあります。 sshを使用して、ファイルを配置してコンパイルし、生成されたタスクを計算のためにキューに送信できます。 これは、PBS Proを介して行われます。 タスクが計算されると、結果を確認し、必要に応じて繰り返します。
2番目の方法は、エンジニアリング作業環境の1つのボタンを使用して、モデルをスーパーコンピューターで送信することです。 これは、Ansysおよび他のエンジニアリングソフトウェアからも実行できます。 それらをジョブ管理システムと正しく統合する必要があるだけです
物理的にどのように見えるか
大学の中央の建物にはかなり大きなサーバールームがあり、複数列のラックがあり、スーパーコンピューター機器は3つのラックに分散されています。
コンピューティングノードは、ハーフ幅1Uフォームファクターのデュアルプロセッサ(Intel Xeon E5-2680 v)サーバーです。 2つのモデル:Fujitsu PRIMERGY CX250 S2およびCX270 S2は、2番目のIntel Xeon Phiコプロセッサーの存在によって区別されます。
Fujitsu PRIMERGY RX300およびR200ラックサーバーは、ストレージシステムのメンテナンスおよびヘッドノードとして使用されます。
スーパーコンピューターは最大50キロワットの電力を消費する可能性があります(冷却と電力のバックアップを考慮に入れると)。これは、アルハンゲリスクの都市規模の大規模なものです。 幸いなことに、接続すると、大学の既存の保護区とインフラストラクチャに統合することができました。 しかし、一般的に大学では、高エネルギー消費が問題になる可能性があります。
クラブへようこそ
多くのロシアの大学はすでに独自のスーパーコンピューターを構築しており、ロシア大学のスーパーコンピューターコンソーシアム( http://hpc-russia.ru/ )に統合されており、NArFUも含まれています。 コンソーシアムの主なタスクは、並列コンピューティングの普及と参加者の相互支援です。 より多くのリソースを消費する何かを見つける必要がある場合は、パートナーに頼ることができます。 共同作業の結果、スーパーコンピュータコンソーシアムのイベントのリストに、NArFUで開催された毎年恒例の若者科学実践学校「GRIDシステムでの高性能コンピューティング」( http://itprojects.narfu.ru/grid/ )が追加されました。
スーパーコンピューターを購入する前に、NArFUの従業員は、ロシアと、北西部に隣接する国(スウェーデン、ノルウェー、フィンランド)の他の大学のクラスターでのタスクを検討していました。 そして今、他の場所の同僚がNArFUのクラスターを使用しています。
NArFU応用数学および高性能コンピューティング部門の主要なソフトウェアエンジニアであるAlexander Vasilievich Rudalevによるこの記事の執筆にご協力いただきありがとうございます。