コンピューターサイエンスは最近、民間企業、政府、科学界がITからの解決策を待っているビッグデータの問題に直面しました。
そして、さまざまな成功を収めながら、ビッグデータの問題に10年間取り組んでいる企業がすでに登場しています。 私の意見では(自由に入手できないオープンデータが必要であると確実に述べるため)、 営利団体または非営利団体は問題の会社よりも大量のデータを扱うことはありません。
この会社は、HBase、Apache Giraph、Apache Drillなど、Hadoopエコシステムの多くのコンポーネントと同様に、Hadoopプラットフォームのアイデアの主な貢献者でした。
ご想像のとおり、これはGoogleに関するものです。

Google Big Data Timeline
従来、Googleでの「ビッグデータ」ソリューションの開発の歴史は2つの期間に分けることができます。
- 第1期間( 2003-2008 ):この期間中、大量のデータを処理する(コモディティ機器で)世界の事実上の標準である一連の原則と概念が説明されました。
- 第2期間( 2009年から現在まで ):近い将来に「ビッグデータ」タスクを解決するために、高い確率で使用されるデータ処理技術が説明されました。
2003-2008
この期間中、Googleのエンジニアは、Googleが問題を解決するために使用する3つのシステムについて、自由に利用できる研究論文を説明し、公開しました。
- Googleファイルシステム (GFS)-分散ファイルシステム[1];
- Bigtable [3]-ペタバイトのデータの保存に焦点を当てた高性能データベース。
- MapReduce [2]-大量のデータの分散処理用に設計されたソフトウェアモデル。
Googleが公開した作業がビッグデータ業界の発展の最初のステップに与える影響を過大評価することは困難です。
Googleが説明する概念の実装の最も有名な例は、Hadoopプラットフォームです。 したがって、 HDFSファイルシステムのプロトタイプはGFSです。 HBaseアーキテクチャの背後にあるアイデアはBigTableから来ています。 Hadoop MapReduce計算フレームワーク( YARNなし)は、同様のGoogle MapReduceフレームワークで具現化された原則の実装です。
Hadoopプラットフォーム自体は、2008年から数年間で人気を獲得し、2010年から2011年までにビッグデータを扱うための事実上の標準になります。
現在、Hadoopはすでにビッグデータの世界で「機関車」であり、このITセグメントに大きな影響を与えています。 しかし、かつて、Hadoopは、Googleが説明したビッグデータプラットフォームを構築するためのアーキテクチャアプローチに同じ大きな影響を与えました 。
Googleプラットフォーム自体は、ますます多くの新しい要件に適応して、これまでずっと開発を続けてきました。検索エンジンには、バッチモードではなくインタラクティブ処理モードに対応する性質を含む新しいサービスがあります 。 チャンクサイズ(GFSのクラスター)は、すべてのデータタイプの効率的なストレージには適していませんでした。 地理的 分布と分散トランザクションのサポートに関連する要件がありました。
2009年から2010年までに、Google自身と学術環境の両方で、2003年から2008年にかけてGoogleのエンジニアが説明したビッグデータプラットフォームを構築するための一連のアプローチの利点と制限を十分に詳細に研究しました。 はい、そして2009年までの期間のGoogleプラットフォーム自体が開発および進化しました。
2009-2013
そのため、(条件付きで)Googleのビッグデータプラットフォームの開発の第2段階-2009-2013-では、次のソフトウェアシステムがさまざまな詳細度で会社の研究者によって記述されました。
- Colossus (GFS2)は、GFSの開発である分散ファイルシステムです[10]。
- Spannerは、BigTable [8]の開発であるデータのバージョン管理をサポートするスケーラブルな地理的に分散したストレージです。
- Dremelは、関連する読み取り専用データを分析するように設計された、ほぼリアルタイム(ほぼリアルタイム)モードで要求を処理するためのスケーラブルなシステムです[4]。
- パーコレーターは、Google検索インデックスの更新に使用される増分データ処理のプラットフォームです[9]。
- Caffeineは、GFS2、次世代(反復)MapReduce、および次世代BigTable [6]を使用したGoogle検索サービスインフラストラクチャです。
- Pregelは、スケーラブルでフォールトトレラントな分散グラフ処理システムです[7]。
- Photonは、ストリーミングデータを処理するためのスケーラブルでフォールトトレラントで地理的に分散したシステムです[5]。
Googleプラットフォームシリーズの後続の記事では、Googleがデータの保存、構造化、検索、スパムの検出、コンテキスト広告サービスでの広告表示の効率化、データの一貫性の問題を解決する上記のGoogleソフトウェア製品のほとんどについて説明しますソーシャルネットワークGoogle+など
結論の代わりに
結論を出す代わりに、ClouderaのCEOであるMike Olson氏は、ビッグデータ業界の未来をうまく予測する能力をすでに証明している人を引用します。
大規模で高性能なデータ処理を知りたい場合
インフラストラクチャの将来は次のようになります。私のアドバイスは、現在公開されているGoogleの研究論文を読むことです。
-Cloudera CEO、マイク・オルソン
サイクルの準備に使用されるソースのリスト
主な情報源
- [1] Sanjay Ghemawat、Howard Gobioff、Shun-Tak Leung。 Googleファイルシステム。 ACM SIGOPSオペレーティングシステムレビュー、2003。
- [2]ジェフリーディーン、サンジェイゲマワット。 MapReduce:大規模クラスターでのデータ処理を簡素化しました。 2004年のOSDIの議事録。
- [3]フェイ・チャン、ジェフリー・ディーン、サンジェイ・ゲマワット、ウィルソン・C・シェイ、デボラ・A・ウォラック他 Bigtable:構造化データ用の分散ストレージシステム。 OSDI、2006年の議事録。
- [4] Sergey Melnik、Andrey Gubarev、Jing Jing Long、Geoffrey Romerなど Dremel:Webスケールデータセットの対話型分析。 2010年VLDB基金の議事録。
- [5] Rajagopal Ananthanarayanan、Venkatesh Basker、Sumit Das、Ashish Gupta、Haifeng Jiang、Tianhao Qiuなど Photon:連続データストリームのフォールトトレラントでスケーラブルな結合、2013年。
- [6] 新しい検索インデックス:カフェイン。 Google公式ブログ。
- [7] Grzegorz Malewicz、Matthew H. Austern、Aart JC Bik、James C. Dehnert、Ilan Hornなど Pregel:大規模グラフ処理システム。 2010年のデータ管理に関する2010年国際会議の議事録。
- [8] James C. Corbett、Jeffrey Dean、Michael Epstein、Andrew Fikes、Christopher Frost、JJ Furmanなど Spanner:Googleのグローバル分散データベース。 OSDIの議事録、2012年。
- [9]ダニエル・ペン、フランク・ダベック。 分散トランザクションと通知を使用した大規模な増分処理。 2010年オペレーティングシステムの設計と実装に関する第9回USENIXシンポジウムの議事録。
- [10] Andrew Fikes。 ストレージアーキテクチャと課題。 Googleファカルティサミット、2010年。
追加のソース
- [11]ダグラス、L。3Dデータ管理:データ量、速度、およびバラエティの制御。 ガートナー、2001年。
- [12] Christy Pettey、ローレンス・ゴアスダフ。 ガートナーは、「ビッグデータ」の課題を解決することは、単に大量のデータを管理すること以上のものを含むと言います。 ガートナー、2011年。
- [13] 定量的変化から定性的変化への移行の法則。 無料の百科事典ウィキペディア。
- [14] Google BigQuery。 Google Developers
- [15]リソース記事0xode.in :{ビッグデータ、クラウドコンピューティング、HPC}ブログ。
変更履歴を投稿
コミット01 [2013年12月23日]。 記事のタイトルを変更しました。
-Googleプラットフォーム。 2003-2013
+ Googleプラットフォーム。 10年以上
コミット02 [2013年12月24日]。
+巨像の説明付きの投稿へのリンク。
コミット03 [12/25/2013]。
+ Spannerの説明を含む投稿へのリンク。
コミット04 [2013/12/26]。
+ Dremelの説明付きの投稿へのリンク。
コミット05 [2013/12/27]。
+ Photonの説明を含む投稿へのリンク。
-Googleプラットフォーム。 2003-2013
+ Googleプラットフォーム。 10年以上
コミット02 [2013年12月24日]。
+巨像の説明付きの投稿へのリンク。
コミット03 [12/25/2013]。
+ Spannerの説明を含む投稿へのリンク。
コミット04 [2013/12/26]。
+ Dremelの説明付きの投稿へのリンク。
コミット05 [2013/12/27]。
+ Photonの説明を含む投稿へのリンク。
ドミトリーペトホフ、
MCP、
赤血球の代わりにカフェインを持つ人。