マイクロソフト調査チームが世界分類記録を破る

Sortbenchmark.orgは、大規模なデータセットをソートするために毎年恒例のコンテストを開催しています。 競合の種類の1つは、ディスクから読み取り、1分間でできるだけ多くのレコードを並べ替えて、結果をファイルに保存する必要がある分単位の並べ替えです。 競争は2つのカテゴリで行われます-使用されるハードウェアに制限のないIndyと、Daytona-「ストアから」の普通のコンピュータのみが使用されるべきです。



Microsoft Researchチームは、2009年以降開催されたDaytonaカテゴリーでYahooの記録を何度も超えることができました。 250台のマシン上の1,033台のディスクで構成されるクラスターは、1401ギガバイトのデータを管理しました。 これは、Yahooクラスターがほぼ6倍(1406台のマシンで5624台のディスク)であったにもかかわらず、Yahooの結果(500ギガバイト)のほぼ3倍です。 さらに、Microsoftクラスターは、昨年のIndyカテゴリ(1353ギガバイト)の記録も破りました。



これらの印象的な結果は、Flat Datacenter Storage(FDS)テクノロジーのおかげで達成されました。 マイクロソフトは、MapReduceパラダイムに基づいたこのようなタスクに典型的なソリューションを使用しませんでした。 一部のタスクでは、ソートがその1つであり、MapReduceソリューションで行われているように、異なるノードでデータの一部を互いに独立して処理することは不可能です。 膨大な量のデータを移動する必要性から逃れることはできません。



FDSテクノロジーは、MapReduceアーキテクチャが作成されて以来、ネットワークがより高速かつ安価になったという事実を利用しています。 これにより、各コンピューターがそのネットワークインターフェイスの全速度で同時に通信できるクラスターを構築することができました(このようなネットワークは、全二分帯域幅ネットワークと呼ばれます)。 したがって、2009年にYahooが使用したHadoopインフラストラクチャの代わりに、Microsoft Researchチームは、ローカルディスク上にあるかのようにノード上のデータにアクセスできるネットワークファイルシステムを使用しました。



Microsoftは、Bing検索エンジンを提供するデータセンターでFDSアーキテクチャを使用する予定です。






All Articles