Bigtable:Googleが作成した分散データベース

公開されたBigtablePDF )の説明で報告されているように、分散システムは、大量の構造化データを格納および管理するように設計されています。 分散ベースの主な要件はそのスケーラビリティです。 システムには、数千の交換可能なGoogleサーバー上の数百テラバイトの情報が含まれています。



分散Bigtableデータベースは、Google Analytics、Google Finance、Orkut、Personalized Search、Writely、Google Earthなどの多くのブランドサービスで使用されています。もちろん、メインのWebインデックスシステムでも使用されています。 これらの各アプリケーションには、独自のデータベース要件があります。 格納される情報の量は大きく異なります。 たとえば、Google Earthの衛星画像は、インターネット全体の検索インデックスとほぼ同じスペースを使用します。



Bigtableの説明は、分散データベースに格納される情報量と圧縮レベルを提供します。 すべての情報は2006年8月現在のものです。



Webドキュメントの検索データベースは、圧縮レベルがそれぞれ11%と33%の800テラバイトと50テラバイトの2つの部分で構成されています。 Google Analyticsデータベースは、200 TB(14%)と20 TB(29%)の2つのテーブルにも保存されます。



Google Earthは70.5 TBを占有しますが、そのうち70 TBのソースイメージと500 GBのインデックスです。



パーソナル検索は、最も要求の厳しいアプリケーションと比較して非常に小さなスペースを占有します。わずか4 TB(圧縮率47%)です。 システム内の各ユーザーには一意の識別子が割り当てられ、検索サイトでのすべてのアクションがデータベースに入力されます。



Google Baseシステムは2 TBを使用し、Orkutソーシャルネットワークは9 TBのデータベーススペースのみを使用します。



すべてのGoogleサービスが圧縮を考慮する実際のディスク容量を計算すると、 約220 TBになります。



残念ながら、公開されたドキュメントにはGmailメールシステムについての言及がなく、結局、数ギガバイトの何百万ものメールボックスがそれぞれかなりのリソースを必要とします。



ただし、Gmailアカウントを考慮しても、すべてのGoogleディスクアレイを非常に小さく呼び出すことができます。 たとえば、地理情報システムを扱う石油会社やその他の企業は、Googleよりも大量のデータをサーバーに保存できます。 そのアカウントは、数百テラバイトではなく、ペタバイトになります。 この意味で、Googleのスローガン「世界のすべての情報を整理する」は少しばかげているように思えます。



All Articles