Apache Hadoopに支払う価値はありますか?





2010年、Apache Hadoop、MapReduce、およびそれらに関連する技術により、「ビッグデータ」または「ビッグデータ」と呼ばれる情報技術の分野で新しい現象が広がりました。 Apache Hadoopプラットフォームが何であるか、なぜ必要なのか、なぜ使用できるのかを理解することは、世界中の専門家の心に徐々に浸透しています。 独創的なアイデアとして生まれ、工業規模に急速に成長したApache Hadoopは、分散コンピューティングで最も広く議論されているプラ​​ットフォームの1つになり、非構造化または緩やかに構造化された情報を格納するプラットフォームになりました。 この記事では、Apache Hadoopプラットフォーム自体について詳しく説明し、サードパーティ企業が提供する商用実装と、Apache Hadoopの無料配布バージョンとの違いを検討します。



商用実装の検討を始める前に、Apache Hadoopプラットフォームの起源と開発の歴史について詳しく説明します。 Apache Hadoopの作成者とインスピレーションは、Doug CuttingとMichael Cafarellaであり、2002年にNutchパートタイムプロジェクトの検索エンジンの開発を開始しました。 2004年、当時開発されていたMapReduce分散コンピューティングパラダイムは、分散ファイルシステムだけでなく、Nutchプロジェクトにもアタッチされました。 同時に、Yahooはインターネット上のページのインデックス作成と検索のための分散コンピューティングプラットフォームの開発を検討していました。 実際、Yahooの競合他社は眠りませんでしたし、この問題についても考えました。これにより、現在、Google App Engine、Appistry CloudIQ、Heroku、Pervasive DataRushなど、分散コンピューティング用のプラットフォームが非常に多く存在するという事実につながりました。 Yahooは、独自の分散コンピューティングプラットフォームの開発と保守はより高価であり、結果の品質はオープンソースプラットフォームへの投資よりも低いと判断しました。 したがって、彼らはオープンソースプロジェクトの中から適切なソリューションを探し始めました。それは、コミュニティの厳しい偏りのない外観が品質を向上させると同時に、Yahooだけでなく無料のITコミュニティ全体によって開発されるため、プラットフォームの維持コストを削減できると合理的に推論しました。 彼らはすぐにNutchに出会いましたが、その時点ですでに確認された結果で競合他社よりも際立っていたため、このプロジェクトの開発に投資することにしました。 これを行うために、2006年に、Doug Cuttingを招待して、分散コンピューティングインフラストラクチャの開発を目標としたe14と呼ばれる新しいプロジェクトの専任チームを率いました。 同じ年に、Apache Hadoopは別のオープンソースプロジェクトとして発行されました。



オープンソースの分散コンピューティングプラットフォームの開発に投資するという決定から、Apache Hadoopが巨大企業の助けを借りて開発の推進力を得たように、Yahooはかなり具体的な利益を受けたと言える。 Apache Hadoopは、Yahooが国際的に有名な科学者を会社に招き、高度な研究開発センターを設立するのを支援しました。現在、このセンターは、検索、広告、スパム検出、パーソナライゼーション、およびインターネットに関連する他の多くの主要なセンターの1つです。 ヤフーはゼロから開発する必要がなかった多くのこと、サードパーティの開発者を利用しました。たとえば、Apache HBaseとApache Hiveを使用して問題を解決しました。 Apache Hadoopはオープンプラットフォームであるため、ヤフーは専門家を養成する必要がなくなり、すでに労働市場でHadoopの経験がある人を見つけることができます。 Yahooが独自のプラットフォームを開発することを決定した場合、社内の専門家を訓練してそのプラットフォームで作業することを余儀なくされます。 Apache Hadoopはある程度の業界標準であり、このプラットフォームの開発は多くの企業やサードパーティの開発者によって行われています。したがって、Yahooはこのプラットフォームの開発に絶えず投資することで多くのお金を節約し、絶え間ないソフトウェアの陳腐化の問題を取り除きました。 これにより、ヤフーは2008年に4000台のマシンのApache Hadoopクラスターを使用して、すでにYahoo WebSearchを起動できました。

ただし、YahooでのApache Hadoopの開発は、その旅を通じてクラウドレスではありませんでした。 そのため、2009年9月、Doug Cuttingは、Yahooの経営陣と共通言語を見つけられなかったため、カリフォルニアを拠点とする新興企業Clouderaを去ります。Clouderaは、ビッグデータソリューション市場でApache Hadoopの商業開発とプロモーションを行っています。 正直なところ、私は彼らの意見が同意しなかったことについて正確な情報を持っていませんが、事実は残っています-ダグ・カッティングによるそのような決定に腹を立て、ヤフーは2011年にHortonworksと呼ばれる会社を設立するためにお金を与えますApache Hadoop。 これらの企業については、この記事の後半で説明します。 これらの企業が提供する2つの分散コンピューティングソリューションを比較し、Apache Hadoopに料金を支払う必要がある理由も調べます。



Cloudera Inc.







2008年10月、アメリカでは、Google、Facebook、Yahooの3人のエンジニアとOracleの1人のマネージャーが新しい会社Clouderaを作成しました。 彼らは、MPPアーキテクチャに基づく分散コンピューティングシステムに依存していました。 分析する必要のある世界のデータ量は日々増加していると合理的に判断し、そのようなデータ分析のためのツールを必要とする企業の数は絶えず増加するため、彼らは十分なレベルとこの分野で資格を得ると、彼らはかなり多くを稼ぐことができます。 彼らは自分の製品を持っていないし、それを開発する時間もなかったので、彼らはいくつかのオープンソースプロジェクトを取り、それを中心にビジネスを築くことに決めました。 Apache Hadoopはいくつかの理由で完璧でした-彼らはすべてそれを知っていて、彼らと協力し、このプロジェクトに大きな可能性があることを理解しました-したがって、Clouderaは2009年3月に、Apache Hadoopを含むいわゆるCloudera's Distributionを発表しました。 Apache Hadoop(HDFS、MapReduce、Hadoop Common)。これには、Apache Flume、Apache Hive、Hue、Apache Mahout、Apache Oozie、Apache Pig、Apache Sqoop、Apache Whirr、Apache Zookeeperなどの多数の関連プログラムとライブラリが含まれます。



ただし、オープンソースのライブラリとプログラムをアセンブルすることで構成されるディストリビューションは誰にも販売されていないため、Apache Hadoop用の独自のソフトウェアを開発することが決定されました。 Hadoopの作成者であるDoug CuttingとMichael Cafarellaがこの会社に関与していました。 Apache Hadoop-Cloudera Managerの展開、監視、クラスター管理のためのツールを開発することが決定されました。 このツールは、Apache Hadoopクラスター展開プロセスを自動化し、現在のアクティビティと個々のノードのステータスをリアルタイムで監視し、ヒートマップをコンパイルし、特定のイベントのメッセージを生成し、ユーザーアクセスを制御し、クラスター使用に関する履歴情報を保存し、ノードからログを収集し、それらを表示できます。



これにより、ClouderaはCloudera Enterpriseという3つの製品で構成されるサービスパッケージを起動できました。







どこで



CDHはApache Hadoopディストリビューション(HDFS、MapReduceおよびMapReduce2、Hadoop Common)であり、Apache Flume、Apache Hive、Hue、Apache Mahout、Apache Oozie、Apache Pig、Apache Sqoop、Apache Whirr、Apacheなどの多くの関連プログラムおよびライブラリが含まれています飼育係。



Cloudera Managerは、Apache Hadoopクラスターをデプロイ、監視、管理するためのツールです。



Clouderaサポートは、ClouderaのCDHおよびCloudera Managerチームが提供する専門的なサポートです。



これらはすべてサブスクリプションとして販売されており、非常に高価です。たとえば、Cloudera Managerのコストはノードあたり4000ドルです。 それにもかかわらず、Apache Hadoopにはサポートと管理のコストが高いため、このソリューションは合理的です。 特に、MapReduceタスクを作成するには、労働市場でのコストが非常に高い有資格のJavaスペシャリストのスタッフが必要です。 ただし、限られた数の企業がClouderaのサービスを使用しています-誰もが自分でそれをしようとしています。 これは、実際、Cloudera自身の開発はCloudera Managerだけであり、それでも可能な限りのコストがかかるという事実によるものです。 私の意見では、Clouderaがこのパッケージの一部として本質的に提供する唯一の有用なものはCloudera Managerであるため、Cloudera Enterpriseパッケージは現在のところお金の価値がありません。 他のすべての場合、十分な資格を持つ専門家は、時間があれば、自分でそれを理解することができます。 現在Clouderaが使用している主な利点は、世界中のApache Hadoopスペシャリストの数が限られていることです。これにより、ClouderaはApache Hadoopの技術的専門知識を提供するために市場で推測できます。



2012年5月23日、Apache Hadoop 2.0.0 Alphaバージョンがhadoop.apache.orgからダウンロードできるようになり、すでに2012年6月5日にClouderaは、Apacheをサポートする世界初のCDHの4番目のバージョンを発表しました。 Hadoop 2.0.0 Alphaコードベース。 ほとんどの場合、Apache Hadoop 2.0.0 Alphaのバージョンは未加工で不安定であり、一部の企業は安定化期間が経過するまで待つことを好みます。その間、ほとんどのエラーが修正されます。 それにもかかわらず、Apache Hadoop 2.0.0には最初のバージョンと比べていくつかの利点があり、その主なものは次のとおりです。



  1. NameNodeの高可用性
  2. ヤーン/ MapReduce2
  3. HDFSフェデレーション




前に書いたように、これまでのすべての動作は非常に不安定であり、本稼働環境にインストールすることは推奨されません。 しかし、先駆者の栄冠により、Clouderaが安らかに眠ることができなかったため、世界初のApache Hadoop 2.0に基づくCDH4をリリースすることになりました。 したがって、Clouderaは、Apache Hadoop 2.0に基づくディストリビューションを持っている人がいないため、分散コンピューティングのプラットフォームを提供するリーダーシップを発表しました。 この分野の主要な競合他社であるClouderaは、Hortonworksで何を提供していますか?



Hortonworks









Clouderaの登場により、多くの人々がこの分野の市場の見通しについて考えさせられ、多くの人々が主要なリーダーになりたいと考え、開発の主なベクトルを設定し、したがって、この分野で最も完全な専門知識と資格を所有しました。 そのため、2011年にHortonworksが設立されました。その創設者は、主にYahooのエンジニアで、YahooとBenchmark Capitalの古い関係の投資ファンドから資金を集めました。 同社はClouderaと同じこと、つまりApache Hadoopの商業化を行いました。 最近では、Hadoop Summit 2012の前日の2012年6月12日に、HortonworksはApache Hadoop 1.0分散コンピューティングプラットフォームHortonworks Data Platformを略してHDPと発表しました。 このプラットフォームのアーキテクチャは、次の図に示されています。







簡単に言うと、このプラットフォームは、Apache Hadoop 1.0コードベースのみに基づいて、Cloudera CDH4と同じものをすべて提供します。 小さな違いが1つあります。HDPの一部として、HortonworksはApache Ambariに基づくHortonworks Management Center(HMC)を提供します。これはCloudera Managerと同じ機能を実行しますが、Cloudera Managerから完全に無料であり、明らかな利点です理由は不明ですが、多額の費用がかかります(ここでは、機能が制限され、ノード数が50に制限されているCloudera Managerの無料バージョンがあることを明確にする必要があります)。 HDPプラットフォームの利点の1つは、何らかの理由で、HaltonworksがTalendのビッグデータ用オープンカレンダーを ETLおよびELTアドオンとしてダウンロードできることを宣言したことです。 このソリューションは、ETL、ELTツールとしてCloudera CDH4用に完全に無料でダウンロードできるため、これはHDPに固有の利点ではありません。 私はTalend Open Studioに精通しており、ELTおよびETLソリューションとして、豊富な機能と安定した予測可能な動作を備えた良い選択であると言えます。



HDPはApache Hadoop 1.0をベースとして使用しているため、CDH4の利点のいくつかが欠けています。 特に、これはNameNode、YARN / MapReduce2、HDFS FederationのHAです。 ただし、NameNodeのHA関連の問題を解決するために、Hortonworksは、NameNodeおよびJobTrackerに仮想マシンレベルのフォールトトレランスを提供できるVMware vSphereベースのアドオンをインストールすることをお勧めします。 私の意見では、疑わしい利点があり、追加コストにつながる重要な決定です。



Hortonworksは、HDPプラットフォームのサポートの有料提供に基づいてビジネスを構築することも決定しました。 サポートは年間サブスクリプションとして販売され、レベルに分かれています。 Hortonworksのサポートの品質レベルについて言うのは困難です。現時点では、Hortonworksを使用するクライアントを1人も見つけていないからです。 Clouderaのサポートについては否定的なレビューがあります-非常に長い応答期間がありますが、これはほとんどすべてのメーカーのサポートについて言えます。



現在、Apache Hadoopと関連ソフトウェアは、オープンソースプロジェクトから、世界のいくつかの企業によって開発された完全なソリューションに変換されています。 それはすでに実験室の壁から成長しており、超大量のデータの分析と保存のためのエンタープライズソリューションとしての適用性を実践する準備ができています。 これまでのところ、Hortonworksは追いついていますが、Clouderaは明らかにCDH4プラットフォームのリーダーです。 実際、現時点では、多くの企業がこの市場の見通しを評価しており、Apache Hadoopに基づく機能またはそれと連携する機能を備えたソリューションで足場を獲得しようとしています。 それらはすべて、2人のリーダーよりもはるかに遅れています。 これは、今日、必要なすべてのライブラリとプログラムを含む、最も完全で動作するディストリビューションが、市場の2つの会社に所有されているという状況があることを意味します。これらは、CDH3とCDH4を備えたClouderaとHDPを備えたHortonworksです。 これらのソリューションは、それが必要な企業での分析のためのエンタープライズツールとしての生命権を持っています。 それにもかかわらず、現時点では、市場に専門家がほとんどいないため、Apache Hadoopを展開して独自にセットアップすることは、結果が不確かな長期的なプロセスです。 これは、オープンソースが提供するいずれかの方法で実験者が試行錯誤する長い道のりであると言えます。 CDH4およびHDPの場合、それは価値がすでに証明されているソリューションを使用し、必要に応じてサポートを提供することを意味します。 したがって、Apache Hadoopを支払うかどうかの問題は価値がありません。実験目的で使用する予定がある場合、または会社が独自の専門家のトレーニングに時間とお金を投資する準備ができている場合は、当然、支払う価値はありません。 ただし、Apache Hadoopをエンタープライズソリューションとして使用する場合は、さまざまな問題に対するソリューションに関する蓄積された知識ベースでサポートし、作業の原則を深く理解することをお勧めします。



何らかの形でHadoopを商業化するさまざまな企業の決定

Cloudera Incウェブサイト

Hortonworks Webサイト

作成者からのApache Hadoopの簡単な歴史



All Articles