HPC HUB仮想クラスタヌでのInfiniBand Latency Networkパフォヌマンス

゚リア






今日の耇雑な物理プロセスのモデリングは、倚くの珟代䌁業によっお重芁な技術的機䌚ず芋なされおいたす。 耇雑なモデルを蚈算できる蚈算機を䜜成するために広く䜿甚されおいるアプロヌチは、コンピュヌティングノヌドが䜎遅延ネットワヌクに接続され、独自のOS通垞はGNU / Linuxファミリからによっお管理される汎甚サヌバヌであるクラスタヌシステムの䜜成です。



コンピュヌティングクラスタのシステム゜フトりェアに仮想化局を導入するず、数分で「仮想クラスタ」を䜜成できたす。 1぀のOpenStackむンフラストラクチャ内のこのような仮想クラスタヌは完党に独立しおいたす。 ナヌザヌのニヌズに応じお、内郚のナヌザヌプログラムは倉曎される可胜性があり、ナヌザヌずの調敎は必芁ありたせん。たた、ナヌザヌデヌタが配眮されおいる論理デバむスは、他の仮想クラスタヌでは䜿甚できたせん。



仮想化゜リュヌションで䜎遅延ネットワヌクを維持するこずは、別個の耇雑な問題です。 ほずんどの堎合、アプリケヌションの堎合、最新のKVMベヌスの仮想化により、蚈算胜力の損倱が最小限に抑えられたす1未満。 ただし、䜎遅延ネットワヌクの特別なテストでは、同期操䜜での仮想化のオヌバヌヘッドは20以䞋です。



HPCの䜎遅延ネットワヌクの重芁性



物理プロセスのモデリングに関する珟代の問題には、珟実的な時間で実際に蚈算を実行できるように、倧量のメモリず蚈算胜力が必芁です。 珟代のテクノロゞヌを䜿甚しお、1぀の叀兞的なOSの制埡䞋で、1぀のシステムでこのような倧量のRAMず非垞に倚くのコンピュヌティングコアを組み合わせるのは難しく、費甚がかかりたす。



はるかに安䟡で広く䜿甚されおいる代替アプロヌチは、コンピュヌティングノヌドが独自のOSによっお制埡される汎甚コンピュヌタヌであるクラスタヌシステムを䜜成するこずです。 同時に、クラスタヌのコンピュヌティングノヌドは、いわゆる「䞊列アプリケヌション」の起動、保守、およびシャットダりンを保蚌する特別な゜フトりェアによっお同期され、共同で制埡されたす。 埌者は、ネットワヌク内の盞互䜜甚により互いに同期されたノヌドのOS内の独立したプロセスです。 さらに、このようなネットワヌクを「コンピュヌティングネットワヌク」、コンピュヌティングノヌド-「クラスタヌノヌド」たたは単に「ノヌド」、制埡゜フトりェア-「クラスタヌ゜フトりェア」ず呌びたす。



最新のプログラミング抂念では、デヌタずプロセスに応じお、2぀の䞻芁な䞊列化方法を䜿甚したす。 自然珟象をシミュレヌトするには、デヌタの䞊列化が最もよく䜿甚されたす。





プログラミングの芳点から芋るず、蚈算機は、少なくずも1぀のプロセッサ、䞀定量のメモリ、および他の蚈算機ずの亀換のためのコンピュヌタヌネットワヌクぞのアクセスを持぀ものであれば䜕でもかたいたせん。 実際、コンピュヌタヌは比范的小さいずはいえコンピュヌティング胜力を備えたコンピュヌタヌネットワヌクの加入者です。 蚈算機は、プロセス内のスレッド、OS内のプロセス、1぀以䞊の仮想プロセッサを備えた仮想マシン、および切り捚おられた特殊OSを備えたハヌドりェアノヌドなどです。



最新の䞊列アプリケヌションを䜜成するための最も䞀般的なAPI暙準はMPIであり、これはいく぀かの実装に存圚したす。 マルチプロセッサノヌド䞊の同じOS内で䞊列アプリケヌションを䜜成するように蚭蚈されたIntel OpenMP API暙準も広く配垃されおいたす。 最新のクラスタヌノヌドには倧量のメモリを備えたマルチコアプロセッサが含たれおいるため、デヌタの䞊列化パラダむムのフレヌムワヌク内で「蚈算機」を決定するための倚数のオプションず、䞊列アプリケヌションアプロヌチに基づくこのパラダむムの実装が可胜です。 最も䞀般的なのは2぀のアプロヌチです。



  1. 1぀のプロセッサコア-1぀の蚈算機
  2. 1぀のマルチプロセッサノヌド-1぀の蚈算機


最初のアプロヌチを実装するには、実際に䜜成されたMPIを䜿甚するだけで十分です。 2番目のアプロヌチでは、MPIがノヌド間の通信に䜿甚され、OpenMPがノヌド内の䞊列化に䜿甚されるMPI + OpenMPバンドルがよく䜿甚されたす。



圓然、䞊列アプリケヌションが耇数のノヌドで実行される状況では、党䜓のパフォヌマンスはプロセッサずメモリだけでなく、ネットワヌクパフォヌマンスにも䟝存したす。 たた、ネットワヌクを介した亀換がマルチプロセッサシステム内の亀換よりも遅いこずも明らかです。 ぀たり クラスタシステムは、ほずんどの堎合、同等のマルチプロセッサシステムSMPよりも䜎速です。 SMPマシンず比范しお為替レヌトの䜎䞋を最小限に抑えるために、特別な䜎遅延コンピュヌタヌネットワヌクが䜿甚されたす。



コンピュヌティングネットワヌクの䞻な機胜



特殊なコンピュヌタヌネットワヌクの䞻な特城は、埅ち時間ずチャネル幅倧量のデヌタの亀換レヌトです。 倧量のデヌタの転送速床はさたざたなタスクで重芁です。たずえば、次のステップの初期デヌタを収集するために、ノヌドが珟圚の蚈算ステップで埗られた結果を盞互に送信する必芁がある堎合です。 レむテンシヌは、ノヌドがデヌタを必芁ずする他のノヌドの状態を知るために必芁な、同期メッセヌゞなどの小さなメッセヌゞの送信においお重芁な圹割を果たしたす。 同期メッセヌゞは通垞非垞に小さい通垞は数十バむトのサむズが、論理的な競合ずデッドロック競合状態、デッドロックを防ぐために䜿甚されたす。 高速の同期メッセヌゞは、実際にコンピュヌティングクラスタヌずその最も近い盞察物、぀たりノヌド間のネットワヌクが䜎遅延プロパティを提䟛しないコンピュヌティングファヌムずを区別したす。



Intel Infinibandは、今日最も人気のある䜎遅延ネットワヌキング暙準の1぀です。 珟代のクラスタヌシステムのコンピュヌタヌネットワヌクずしおよく䜿甚されるのは、このタむプの機噚です。 Infinibandネットワヌクにはいく぀かの䞖代がありたす。 最も䞀般的なのは、Infiniband FDR暙準2011です。 QDR芏栌2008は匕き続き重芁です。 機噚サプラむダヌは珟圚、次のInfiniband EDR芏栌2014幎を積極的に掚進しおいたす。 Infinibandポヌトは通垞、基本的な双方向バスの集合グルヌプで構成されたす。 最も䞀般的なポヌトは4xです。



最新䞖代のInfinibandネットワヌク機胜

QDRx4 Fdx4 EDRx4
党垯域幅、GB / s 32 56 100
ポヌト間遅延、Όs 1.3 0.7 0.7


ご存知のように、ゲストシステムがデバむスで動䜜する堎合、仮想化によっお特定の遅延が発生したす。 この堎合、䜎遅延のネットワヌクも䟋倖ではありたせん。 ただし、䜎遅延遅延が最も重芁な特性であるずいう事実により、このようなネットワヌクの仮想化環境ずの盞互䜜甚は非垞に重芁です。 さらに、そのスルヌプットは、原則ずしお、幅広い接続パラメヌタヌで仮想化を䜿甚しない堎合ず同じです。 比范的最近2011に䜜成されたInfinibandの開発における重芁なステップは、SR-IOVテクノロゞヌの䜿甚です。 このテクノロゞヌにより、Infinibandは物理ネットワヌクアダプタヌを仮想デバむスのセット-仮想VF機胜に倉換できたす。 このようなデバむスは、独立したInfinibandアダプタヌのように芋え、たずえば、さたざたな仮想マシンたたは負荷の高いサヌビスの排他制埡に割り圓おるこずができたす。 圓然、IB VFアダプタヌは他のアルゎリズムに埓っお動䜜し、その特性はSR-IOVサポヌトが含たれおいない元のIBアダプタヌずは異なりたす。



ノヌド間のグルヌプ亀換操䜜



すでに䞊で述べたように、MPIラむブラリは珟圚最も人気のあるHPCツヌルです。 MPI APIを実装するためのいく぀かの基本的なオプションがありたす。



MPIラむブラリには、䞊列コンピュヌティングの実装に必芁な基本機胜が含たれおいたす。 HPCアプリケヌションにずっお重芁なのは、プロセス間メッセヌゞング機胜、特にグルヌプ同期ずメッセヌゞング機胜です。 ほずんどの堎合、グルヌプは䞊列アプリケヌションのすべおのプロセスを指すこずに泚意しおください。 Webで詳现なMPI APIの説明を簡単に芋぀けるこずができたす。





MPIの実装に䜿甚されるアルゎリズムの基本は[1]で詳しく説明されおおり、このトピックに関する倚くの蚘事がここにありたす 。 これらのアルゎリズムの有効性の評䟡は、倚数の研究の䞻題です[2、3、4、5]。 ほずんどの堎合、掚定はアルゎリズムの理論の挞近解析の方法を䜿甚しお構築され、抂念に基づいお動䜜したす ts 接続セットアップ時間 tw 情報の単䜍率 m 送信された情報単䜍の数 p 関連するプロセッサヌの数。



圓然、䜎遅延ネットワヌクで接続された最新のマルチプロセッサシステムの堎合、パラメヌタ ts そしお tw 同じノヌド内で盞互䜜甚し、異なるノヌド、同じマルチコアチップ、異なるプロセッサ䞊で盞互䜜甚するプロセッサの堎合は、異なるものにする必芁がありたす。 ただし、 ts そしお tw コンピュヌティングクラスタの耇数のノヌドを䜿甚するタスクの堎合、コンピュヌティングネットワヌクのレむテンシずスルヌプットが倀です。



ネットワヌクの「䜎遅延」プロパティずこのプロパティのスケヌラビリティを最も芁求するのは、グルヌプ同期操䜜であるこずを理解するのは簡単です。 テストでは、他の著者[6]ず同様に、次の3぀の操䜜を䜿甚したした。



攟送する

最も単玔なグルヌプ操䜜はブロヌドキャストです。 1぀のプロセスが他の党員に同じメッセヌゞを送信したすMはデヌタを含むバッファヌを瀺したす。[1]から適応。

攟送する



蚈算プログラムでは、特定の条件、カりントの開始時および反埩間のパラメヌタヌを䌝播するためにブロヌドキャストがよく䜿甚されたす。 ブロヌドキャストは、倚くの堎合、他のより耇雑な集合操䜜の実装の芁玠です。 たずえば、䞀郚の実装では、ブロヌドキャストはバリア機胜を䜿甚したす。 ブロヌドキャストの実装にはいく぀かのオプションがありたす。 ハヌドりェアアクセラレヌションを䜿甚しない、ノンブロッキング党二重チャネルスむッチでの最適なブロヌドキャスト時間は次のずおりです。

t=ts+twmlog2p







å…šæž›

all-reduce操䜜は、蚈算機グルヌプのメモリにあるデヌタのパラメヌタヌで指定された結合操䜜を実行し、その結果をグルヌプのすべおの蚈算機に報告したす。 サむン  oplus 指定された連想操䜜を意味したす。 [1]から適応。

å…šæž›



ネットワヌク亀換の構造に関しお、all-reduceはall-to-allブロヌドキャスト機胜に䌌おいたす。 この挔算は、異なる蚈算機にあるオペランドの最倧倀たたは最小倀の合蚈たたは乗算、怜玢に䜿甚されたす。 この機胜はバリアずしお䜿甚される堎合がありたす。 ハヌドりェアアクセラレヌションを䜿甚しないノンブロッキング党二重チャネルスむッチでの最適な党削枛動䜜時間は次のずおりです。

t=ts+twmlog2p







䞇胜

all-to-all操䜜は、「パヌ゜ナラむズされたall-to-all」たたは「total exchange」ずも呌ばれたす。 この操䜜䞭に、各蚈算機は他の蚈算機にメッセヌゞを転送したす。 すべおのメッセヌゞは䞀意にするこずができたす[1]から取埗。

䞇胜



この操䜜は、フヌリ゚倉換、行列倉換、䞊べ替え、デヌタベヌスの䞊列操䜜など、さたざたなアルゎリズムで集䞭的に䜿甚されたす。 これは、最も「難しい」集団的掻動の1぀です。 この集合操䜜の堎合、最適なアルゎリズムはキヌ倉数の倀の比率に䟝存したす ts 、 tw 、 p 送信されたメッセヌゞのサむズ m 。 転送量に最適ではなく、小さなメッセヌゞに䜿甚されるハむパヌキュヌブアルゎリズムを䜿甚する堎合、掚定時間は次のずおりです。

t=ts+twpm over2log2p







HPC環境をテストする他のアプロヌチが䜿甚されたす。 たずえば、広範囲にわたる問題の蚈算をシミュレヌトする統合テストを䜿甚したす。 最も䞀般的な統合テストスむヌトの1぀は、 NAS䞊列ベンチマヌクです。 このテストは、仮想HPC環境のテストにも䜿甚されたした[7]。



テスト方法



この䜜業で説明するパフォヌマンステストでは、Intel Xeonプロセッサ64 GB RAMおよびConnectX-3 IBアダプタヌを搭茉したサヌバヌを䜿甚したした。 OpenMPIが仮想ノヌドず物理ノヌドにむンストヌルされ、ノヌド間の接続はナヌティリティperftestずOSUベンチマヌクを䜿甚しおテストされたした。



詳现
Intel Xeon E5-2680v2 2.8 GHzプロセッサヌ10コア、HyperThreadingがオフ、64 GBのDDR3暙準メモリヌ、IB Mellanox Technologies MT27500アダプタヌのConnectX-3ファミリヌファヌムりェアConnectX3-rel-2_36_5000を搭茉したIntel H2000JFファミリヌマザヌボヌドS2600JFのサヌバヌMellanox SwitchXスむッチを介しお接続36 SX6036 FDRポヌト。



OS CentOS Linuxリリヌス7.2.1511CentOS 7.2、カヌネル3.10.0-327.18.2.el7.x86_64、2.3.0CentOS 7ディストリビュヌションはバヌゞョン1.5.3を䜿甚に基づいおカスタマむズされたqemu / KVM、Mellanox OFED 3.3ドラむバヌ-1.0.4、qemu-kvmはNUMAモヌドをサポヌトしたした。



ゲストOS CentOS Linuxリリヌス7.1.1503CentOS 7.1、カヌネル3.10.0-229.el7.x86_64、Mellanox ConnectX-3ドラむバヌ。 各仮想マシンは物理サヌバヌ䞊で唯䞀のものであり、すべおのプロセッサヌず48 GBのRAMを占有し、プロセッサヌコアのオヌバヌコミットはオフにされたした。



IBアダプタヌはSR-IOVサポヌトモヌドに切り替えられ、アダプタヌごずに2぀のVFが䜜成されたした。 VFの1぀がKVMに゚クスポヌトされたした。 したがっお、ゲストOSには1぀のInfinibandアダプタヌ、ホストOSには2぀のmlx4_0およびmlx4_1VFのみが衚瀺されおいたした。



OpenMPIバヌゞョン1.10.3rc4Mellanox OFED 3.3-1.0.4パッケヌゞに含たれるが仮想ノヌドず物理ノヌドにむンストヌルされたした。 ノヌド間の接続は、perftest 0.19.g437c173.33100ナヌティリティを䜿甚しおテストされたした。



グルヌプテストは、gcc 4.8.5および䞊蚘のOpenMPIを䜿甚しおコンパむルされたOSUベンチマヌクバヌゞョン5.3.1を䜿甚しお実行されたした。 各OSUベンチマヌクの結果は、倚くの条件に応じお、平均100たたは1000の枬定倀です。

tunedデヌモンには、物理​​ノヌドにレむテンシパフォヌマンスプロファむルがむンストヌルされおいたす。 仮想ノヌドではオフになりたした。



テストは2぀のノヌド40コアで実行されたした。 枬定は、䞀連の10〜20回の枬定で実斜されたした。 3぀の最小倀の算術平均が結果ずしお採甚されたした。



結果



衚に瀺されおいるネットワヌクパラメヌタは理想的であり、実際の状況では達成できたせん。 たずえば、 ib_send_latで枬定されたInfiniband FDRアダプタヌデヌタグラムモヌドを備えた2぀のノヌド間のレむテンシは、小さなメッセヌゞに察しお0.83ÎŒsであり、 ib_send_bwで枬定された2぀のノヌド間の有効なスルヌプットサヌビス情報なしは6116.40 MB / s〜51.3 Gbit / s。 実際のシステムの遅延ずスルヌプットに察するペナルティは、次の芁因によるものです。

  1. スむッチの远加遅延
  2. ホストOSによる遅延
  3. プロトコルオヌバヌヘッドの送信を保蚌するための垯域幅の損倱


次のコマンドを䜿甚しお、サヌバヌ䞊で起動が実行されたした。



ib_send_bw -F -a -d mlx4_0
      
      





クラむアント䞊



 ib_send_bw -F -a -d mlx4_0 <server-name>
      
      





したがっお、異なる物理サヌバヌ䞊にあるゲストOSのペア間のib_send_latは1.10ÎŒsのレむテンシを瀺し 0.27ÎŒsの遅延増加、ネむティブIBず仮想化IBのレむテンシの比は0.75、 ib_send_bwは6053.6 MB / s〜50.8 Gbit / sのスルヌプットを瀺したす、仮想化なしで䜿甚可胜なチャネル幅0.99。 これらの結果は、他の著者によるテストの結果、たずえば[6]ずよく䞀臎しおいたす。



ホストOSでは、テストがSR-IOV VFでは機胜せず、アダプタヌ自䜓で機胜したこずに泚意しおください。 結果は3぀のグラフに衚瀺されたす。



  1. すべおのメッセヌゞサむズ
  2. 最倧256バむトたでのメッセヌゞのみ
  3. ネむティブInfinibandずVFのテスト実行時間の比率


ブロヌドキャストテストは、ホストOSずゲストOSの䞡方で次のように実行されたした。



 /usr/mpi/gcc/openmpi-1.10.3rc4/bin/mpirun --hostfile mh -N 20 -bind-to core -mca pml ob1 -mca btl_openib_if_include mlx4_0:1 /usr/local/libexec/osu-micro-benchmarks/mpi/collective/osu_bcast
      
      





時間の最悪の比率は0.55です。ほずんどのテストでは、比率は0.8を䞋回っおいたせん。



















all-reduceテストは、ホストOSずゲストOSの䞡方で次のように実行されたした。



 /usr/mpi/gcc/openmpi-1.10.3rc4/bin/mpirun --hostfile mh -N 20 -bind-to core -mca pml ob1 -mca btl_openib_if_include mlx4_0:1 /usr/local/libexec/osu-micro-benchmarks/mpi/collective/osu_allreduce
      
      





時間の最悪の比率は0.7です。ほずんどのテストでは、比率は0.8を䞋回っおいたせん。



















all-to-allテストは、ホストOSずゲストOSの䞡方で次のように実行されたした。



 /usr/mpi/gcc/openmpi-1.10.3rc4/bin/mpirun --hostfile mh -N 20 -bind-to core -mca pml ob1 -mca btl_openib_if_include mlx4_0:1 /usr/local/libexec/osu-micro-benchmarks/mpi/collective/osu_alltoall
      
      





時間の最悪の比率は0.87です。ほずんどのテストでは、比率は0.88を䞋回っおいたせん。



















議論



テストで提瀺されたグラフのギザギザの圢状は、䞀方ではあたり倚くのテストを遞択した結果ではありたせんが、他方では、プロファむリングプログラムで䜿甚される最小の枬定倀を遞択する方法の望たしい効果です。 このメ゜ッドの理論的根拠は、コヌドフラグメントがその最倧速床より速く実行できないこずであり、テストコヌドの実行ず同時にシステムで発生する可胜性のあるすべおのプロセスは、速床に圱響を䞎えないか、速床を萜ずしたす。 仮想化されたテストが非仮想化されたテストよりもわずかに速く2-5加速実行される堎合、䞀芋矛盟する結果が存圚するのは、IBアダプタヌのドラむバヌずファヌムりェアの機胜に起因する必芁がありたす。これには、たず独自の最適化スキヌムがあり、次に、ただ少し䞡方の堎合で異なる動䜜をしたすデヌタバッファヌサむズ、割り蟌み凊理機胜など​​。



最新の仮想化テクノロゞヌの機胜は、仮想化レむダヌがない状況ず比范しお、远加の遅延゜ヌスを導入したす。 HPCにずっお重芁なのは、このような遅延の3぀のタむプです。





著者の意芋では、割り蟌み凊理の仮想化ペナルティを枛らす最も急進的な方法は、vAPICをサポヌトするIntelプロセッサヌを䜿甚するか、ノヌドのカりントにコンテナヌ仮想化LXCなどを䜿甚するこずです。 KVMで割り蟌みを凊理するずきに発生する遅延の重芁性は間接的に[7]にも瀺されおいたす。著者は、割り蟌みの数の増加ずテストの仮想化バヌゞョンのパフォヌマンスの倧幅な䜎䞋ずの関係を確立しおいたす。



遅延デヌタを評䟡するこずは困難です。最初の䟋倖を陀いお、いく぀かの理由により[1]で䞎えられたものず同様の単玔な匏を䜿甚したす。





たた、䜎遅延ネットワヌクを介しお倚数のパケットを送信する堎合、特に倧きなメッセヌゞを断片化する堎合、耇雑な法則に埓っお割り蟌みの生成速床が増加し、メッセヌゞ送信速床の長さ、および履歎に察する重芁な䟝存関係が珟れる可胜性があるこずを理解するこずも重芁です仮想化゜フトりェアスタック。



埓来のクラスタヌコンピュヌティングシステムの䜜成者は、コンピュヌティングタスクの干枉を排陀するために倚倧な努力を払っおいたす。





仮想化ずクラりド゜フトりェアの組み合わせの堎合、高性胜コンピュヌティングのこの最適化パスの始たりに過ぎたせん。



結論



䞀般的に䜿甚される3぀のMPI操䜜ブロヌドキャスト、すべお瞮小、パヌ゜ナラむズされたすべおのすべおのセットの比范テストでは、qemu / KVMベヌスの仮想化環境ずSR-IOVテクノロゞヌを䜿甚するず、テスト時間が平均20増加するこずが瀺されたした最悪の堎合、16および32Kbのブロヌドキャストパケットでは80です。 このパフォヌマンスの䜎䞋は顕著ですが、連続䜓力孊、分子動力孊、信号凊理などに関連するほずんどの䞊列アプリケヌションにずっお重芁ではありたせん。 仮想化環境の䜿いやすさ、蚈算フィヌルドを迅速に拡匵し、それを構成する機胜により、カりント時間の増加の可胜性のあるコストが補償されたす。



1぀のノヌドから別のノヌドのメモリぞの高速ランダムアクセスを必芁ずするタスクの堎合、このような遅延は重芁です。 ほずんどの堎合、仮想化クラスタヌを効果的に䜿甚しおこのような問題を解決するこずはできたせん。



実際には、コンピュヌティングプログラムのパフォヌマンスの䜎䞋は、瀺されおいる倀よりもはるかに小さいこずがよくありたす最倧20。 これは、ほずんどの堎合、適切に䜜成され、広く䜿甚されおいるプログラムが䟝然ずしお蚈算機内のデヌタを読み取り、凊理し、同期たたはデヌタ転送操䜜を実行しないためです。 結局のずころ、䞊列コヌドの䜜成者は垞に、コンピュヌタヌ間の同期ず転送の必芁性を最小限に抑えるようなアルゎリズムず実装手法の遞択に努めおいたす。



文孊



詳现
  1. A.グラマ、A。グプタ、G。カリピス、V。クマヌル。 䞊列コンピュヌティング入門、第2版。 アディ゜ン・りェスリヌ2003
  2. R.タクヌル、W。グロップ。 スむッチドネットワヌクでのMpi集団通信のパフォヌマンスの改善、2003
  3. R.タクヌル、R。ラベンセむフナヌ、W。グロップ。 MPICHでの集団通信操䜜の最適化。 高性胜コンピュヌティングアプリケヌションの囜際ゞャヌナル-2005-Vol 191-pp。 49-66。
  4. J.PjeÅ¡iva​​c-Grbović、T。Angskun、G。Bosilca、GE Fagg、E。Gabriel、JJ Dongarra。 MPI集合操䜜のパフォヌマンス分析。 クラスタヌコンピュヌティング-2007-Vol。 10-p。127。
  5. BSパヌ゜ンズ。 柔軟なノヌド間通信ず䞍均衡認識を備えた階局型アルゎリズムにより、MPI集合通信を加速したす。 Ph。 D.コンピュヌタヌ科孊に関する論文、パデュヌ倧孊、米囜、2015幎
  6. J.ホセ、M。リヌ、X。ルヌ、KCカンダラ、MDアヌノルド、DKパンダ。 InfiniBandクラスタヌでの仮想化のSR-IOVサポヌト初期の経隓。 クラスタヌに関する囜際シンポゞりム、2011幎5月
  7. A.クドリャフツェフ、V。コシェレフ、A。アベティシアン。 KVMずPalaciosを䜿甚した最新のHPCクラスタヌ仮想化。 ハむパフォヌマンスコンピュヌティングHiPC䌚議、2012
  8. D.マトラック。 KVMメッセヌゞパッシングパフォヌマンス。 KVMフォヌラム、2015
  9. R.ノァンリ゚ル KVM察 メッセヌゞパッシングスルヌプット、コンテキストスむッチングのオヌバヌヘッドの削枛。 Red Hat KVMフォヌラム2013




玠材は、アンドレむ・ニコラ゚フ、デニス・ルネフ、アンナ・サブボティナ、りィルヘルム・ビットナヌによっお䜜成されたした。



All Articles