本日、Myspaceのデータマイニングチームによって作成された内部分散コンピューティングフレームワークであるOpen Source Qizmtを開きます。 Qizmtは、大量のデータの処理を必要とする多数の操作に使用できます。 推奨システムでのフィルタリングや分析など。
いくつかの情報源はすでにこれについて報告しており、これは推奨システムのフレームワークであると書いています。 そうではありません。 これは、Windows用に作成された完全なMapReduce実装です。
それほど頻繁ではありませんが、.NETファンはこのレベルのオープンソースプロジェクトに直面しています。 システムがAlphaとして宣言されているという事実にもかかわらず、かなり多くの機能が宣言されています(myspaceフレームワークで動作しているように見えるため、これは驚くことではありません)
- Cでのmapreduceジョブの迅速な開発#
- 簡単なインストーラー
- ビルトインIDE /デバッガー(クラスターでのジョブのデバッグのステップスルーを含む)
- クラスター内の任意のマシンから:
- クラスターアセンブリキャッシュ(CAC)-mapreduceジョブの.NETアセンブリキャッシュ
- 3種類のジョブ:
-Mapreduce-大量のデータのロジックを設定します
-リモート-mapreducerテンプレートに適合しないタスク用
-ローカル-Mapreduceジョブとリモートジョブ間のリンクのオーケストレーション
- mapreduceでデータを交換する3つの方法
-ソート済み-キー/値のペアはクラスターごとに均等にソートされます
-グループ化-並べ替えられていないが、1つのレデューサーで同様のキー/値ペア
-ハッシュソート-ランダムデータをソートする超高速方法
これらはすべて非常に印象的ですが、そのようなフレームワークが何に書かれているかは今ではあまり重要ではないと思います。 すべて同じですが、プラットフォームに依存しない方法で使用されます-REST / REST2のような軽量サービス。 彼らは同じBingがHadoopを使用していると言っています。 しかし、いずれにせよ、Myspaceの同僚がコードを共有してくれてうれしいです。
はい、 Googleコード