InfiniBandにはHadoopの将来がありますか?





Hadoopは、低速のネットワークPCコンピューターで実行するために作成されました。 しかし、Hadoopクラスターは大きくなり、組織は容量の制限を超えました。 この問題を解決するために、ソリッドステートドライブやInfiniBandネットワークなど、成長マージンがある特殊なソリューションが見つかりました。



InfiniBandは、イーサネットネットワークの元のネットワークプロトコルであるTCP / IPよりも高速なネットワークプロトコルとして2000年に世界に導入されました。 ダイレクトリモートメモリアクセス(RDMA)を使用することにより、InfiniBandでは、オペレーティングシステムと遅延の可能性を回避して、リモートコンピューターのメモリからデータを直接記録/コピーできます。



現在最も広く使用されているInfiniBand QDR(Quad Data Rate)ポートで、1秒あたり40ギガビットの帯域幅を取得できます。 これは、10ギガビットイーサネット(10GbE)の標準チャネル幅の4倍です。 ポート(イーサネットを含む)を集約すると、速度が向上します。



当初、大部分のエンタープライズネットワークでは、イーサネットプロトコルが選択の中心でした。 この時点で、InfiniBandは徐々に高性能コンピューターシステムの市場に導入され、InfiniBandの超高速性と遅延の欠如は、並列クラスターの大規模アレイでこのプロトコルに利点をもたらしました。 昨年の上位500台のスーパーコンピューターの50%以上がInfiniBandを使用しています。 このプロトコルは、高速交換、さまざまな金融サービス、およびInfiniBandポートの他の大規模なユーザーに愛されており、 MellanoxおよびIntelの InfiniBand機器最もよく使用されます。



しかし、InfiniBandプロトコルがHadoopに実装された場合、スーパーコンピューター環境でのInfiniBandのパフォーマンスと比較して低いパフォーマンスを示しました。 これにはいくつかの理由があります。 ほとんどの企業市場では、多くのソリューションがイーサネットに向けて配置されていました。 InfiniBandをエキゾチックで非常に高価なもの(常に真実ではない)として認識することも役割を果たしました。



Hadoop上のInfiniBandが主流とはほど遠いことはニュースではありません。 Hadoopプラットフォームのすべてのディストリビューターは、Hewlett-Packard、IBM、およびDellをサポートしています。 これらのベンダーは、それぞれの展開でInfiniBandもサポートしています。 約20%のHadoopインテグレーターを使用して構築されている実装を見ると、OracleとTeradataの両方がInfiniBandをサポートしていることがわかります



InfiniBandを選ぶ理由



InfiniBandから10GbEを使用する際に注意すべきいくつかの興味深い点。 InfiniBand-on-Hadoopを使用する多くのポイントの中から見ることができる人がいます。 これは、オハイオ大学コンピューターサイエンスアンドエンジニアリングスクールの教授であり、 ネットワークベースのコンピューティング研究グループの責任者であるパンダダバレスバーです。







Hadoop分散ファイル構造(HDFS)用のInfiniBandライブラリ用の高性能データ処理システム(HiBD)アーキテクチャ



パンダは、オハイオ大学のHiBDプロジェクトを率いており、Hadoopバージョン1および2(HDFSおよびMapReduce)のライブラリの設計を開発、開発、およびサポートしています。 InfiniBandでのデータ交換に使用されるネイティブRDMAをサポートします。 Apache HadoopとHortonworksがClouderaのプラグインでサポートされるようになりました。 研究者は、RAMキャッシングをサポートするデータベースでInfiniBandをサポートするコードも作成しました。 このコードは、Apache SparkおよびHBaseをサポートするライブラリでも機能します。



スイッチドスーパーコンピューターの環境を25年間研究し、登場してからInfiniBandと協力しているパンダは、InfiniBandはHadoopプラットフォーム環境ではあまり一般的ではないことを確認していますが、近い将来に変化すると予想しています。

「スーパーコンピューターの間で技術的なブレークスルーがありました。 しかし、企業環境にはいくつかの弱点があります」とパンダはDatanamiに語りました。 「t.z. 企業は彼に追いついた。 そのため、InfiniBandの広範な使用が「人々の間で」と言われるまで、1〜2年待つ必要があります。



HiBDアーキテクチャが数年前に最初のInfiniBandライブラリを統合して以来、パッケージは11,000回以上ダウンロードされています。 グループのウェブサイトによると世界中の120以上の組織がそれを使用しています。



また、InfiniBandのすべての実装における一般的な傾向は、入出力の狭いネックを避けながら、最大のスケーラビリティとパフォーマンスを達成したいということです。 「従来、[Hadoop]はイーサネットで開発されましたが、特に大規模なデータアレイで10GbEを使用していても、ショックを受けます。 これがまさに私たちの設計の利点が明らかになったインフラストラクチャです。そのため、アプリケーションを可能な限り柔軟に拡張し、それらから最大限のパフォーマンスとスケーラビリティを得ることができます」と研究者は言いました。



「InfiniBandに関するHadoopコミュニティでの一般的な誤解は、低コストで最も一般的なデバイスのクラスターにとって、価格が高すぎることと「良い」ことです。 これは、小さなビルドがある場合に当てはまります。 しかし、より大きなクラスターの場合、InfiniBandはイーサネットよりもはるかに経済的です



「非常に大規模なクラスターシステムを使用する場合、InfiniBand FDRは10GbEよりもはるかに効率的で有益です」と教授は述べています。 「4ノードまたは16ノードのクラスターがある場合、違いは見られませんが、1000ノード、2000または4000ノードがある場合、コストに大きな違いが見られます。」



「最も遅い車が全体の速度を落とすカーレースのように、Hadoopでは、構造の遅い部分のためにクラスターが速く動作しない場合があります」とパンダは言いました。 「非常に優れた装備を持っているかもしれませんが、タイヤが弱いと、テクノロジーのすべての利点が得られません。 最高のパフォーマンスを得るには、I / Oとネットワークのバランスを取る必要があることがわかります。



Hadoopの注意



これまで、可変ネットワーク速度はHadoopのパフォーマンスに大きな役割を果たしてきましたが、他にもそれほど明白でない要因があります。 いつものように、悪魔は詳細にあります。



今年7月、マイクロソフトとバルセロナスーパーコンピューティングセンターは、Hadoopプラットフォームのパフォーマンスの仕様を確立するためにAlojaプロジェクトを立ち上げました。 このプロジェクトは、パフォーマンスに影響する80を超えるカスタムHadoop設定を特定しました。 物理機器に関連する要因を含む:メモリサイズ、ストレージタイプ、ネットワーク速度など、ソフトウェア要因:メモリマネージャとデータコンバータの数、HDFSブロックサイズ、仮想マシンのサイズ。



プロジェクトの研究者は、InfiniBandを構造に追加するだけでは、Apache Hadoopのパフォーマンスに影響を与えないことを確認しました。これはベンチマークテストで測定されます。 ただし、同じネットワーク上のSSDにInfiniBandを追加すると、SATAおよびギガビットイーサネットよりも3.5倍のパフォーマンスが向上します。 同時に、ギガビットイーサネットネットワークにSSDを追加するだけで、生産性が2倍に向上します。



これは、パンダ教授の意見を反映しています。「SSDを使用するとどうなりますか? I / O速度は向上しますが、高性能ネットワークが必要であることも意味します。 1から10ギガビットのイーサネットを使用する場合の利点は明らかですが、InfiniBandを使用すると、このテクノロジーの中核でネットワークをさらにロードできる可能性があるため、より多くの利点が得られます。 これは、たとえば、RDMAなどのより優れたソリューションが得られることを意味し、このタイプのネットワークでより適切に機能します。

誰もがInfiniBandの「魅力」に屈するわけではありません。 現在のCTOでありRocanaの共同設立者であるEric Samerは、Quoraの投稿で10GbEを主張しています。



エリックは、InfiniBandが一般ユーザーの要件を大幅に上回ると信じています。「事実、互換性のあるすべてのレベルのITインフラストラクチャに移行するとすぐに、電力が過剰になります。 いくつかの理由により、快適な予測を行っていません。実際の帯域幅は、4X QDRポート40Gbを介して、1つのIPアドレスに対して25Gbの領域で終了します。 (正直、PandaがHiBD環境で開発したライブラリは、サービスデータフローを除くInfiniBandを最初にサポートしています)。







10GbEでのHadoopパフォーマンスと、ネイティブInfiniBand QDR用のInfiniBand over IPおよびHiBDライブラリの比較。



夏は彼の展開されたHadoop 10GbEについて(おそらくツイストペアを介して)話します。 「イーサネットの普遍性は否定できない事実であり、Hadoopのようなプラットフォームでは、ネットワークテクノロジーを開発し、データ転送を簡素化するテクノロジーに賭けた方が良いと言いたいと思います(Cloudera Impala、TezのApacheの変更ハイブなど)。 また、より多くのパケットを転送する場合、キャッシュからの同じデータを使用できることを確信しています。これにより、データセンターから反対側の受信者へのデータ転送が最適化されます。



RoCEアプリケーション



また、InfiniBandは、InfiniBandと同じ利点をもたらすと主張する新しいテクノロジーと競合しますが、イーサネットを介します。 これは、RDMA over Ethernet Converged Ethernet(RDMA over Converged Ethernet-RoCE)と呼ばれ、従来のイーサネットよりも高速な帯域幅と少ないレイテンシを示します。



パンダ教授の研究チームは、スイッチおよびネットワークHadoopデバイス用、およびメモリキャッシングをサポートするソフトウェアソリューション用のRoCEライブラリも開発しています。 Mellanoxは、デバイスでRoCEプロトコルとInfiniBandプロトコルの両方をサポートしています。



ユーザーが接続する技術を選択した場合、パンダ教授は、さまざまなオプションの長所と短所をよく考え、検討することをお勧めします。「問題はルーティングと管理の品質が必要なことです。 組織がイーサネットを理解している優れたシステム管理者に満足している場合は、RoCEオプションが望ましいでしょう。 しかし、一部の組織がInfiniBandで優れた能力を持っている場合、InfiniBandとRoCEのどちらを選択するのも簡単です。」



データ量は増え続けており、企業はこのデータをより迅速に分析する必要があります。 これにより、SSDとマルチコアプロセッサを使用して、大規模かつ高速な新しいクラスターを構築する必要があります。 RDMAアプローチ(InfiniBandまたはRoCEのいずれか)を、大規模で高負荷のデータを使用する組織に適応させる必要があることが明らかになりつつあります。



関連リンク:



» Hadoopパフォーマンスミステリーの解明(EnterpriseTech)

» ビッグデータが進化を続けるためにInfiniBandを必要とする理由

» Hadoop:何、どこで、なぜ

» 最も人気のあるスーパーコンピューターネットワーク、またはなぜInfiniBandを選択したのですか?










SIM-CLOUD-ドイツのフェールオーバークラウド



ドイツの信頼できるデータセンターの専用サーバー!

あらゆる構成、迅速な組み立て、無料インストール



All Articles