世界最大のデータベース-Yahoo! そして、PostgreSQLで動作します!

Yahoo! ヤフー 、世界最大かつ最も負荷の高いデータベースを作成することで、世界記録を破ったと主張しています!



1年前に開始されたデータベースの量は2ペタバイトに達しました。 このシステムは分析目的で作成され、Webユーザーの行動の履歴を保存します(月に5億人のユーザーが保存されていると言われています)。 とりわけ、インターネットの巨人は、世界最大のデータベースであるだけでなく、最も負荷の高いデータベースであると主張しています。240億のイベントに関するデータが毎日記録されています。

Postgres!

そして今、楽しい部分です。 このモンスターは、修正されたPostgreSQLによって制御されています。 これは、最も先進的なオープンソースのデータベース管理システムであるPostgreSQLを最初に使用していた新興企業であるMahat Technologiesを買収した結果です。 Postgresのコードは、このような膨大な量の情報を扱うように変更されました(最大の変更の1つは、ディスクへの書き込みは遅くなりますが、分析目的でデータへのアクセスが向上する、従来の行単位のストレージではなく列単位のストレージへの方向付けです)。 肯定的な結果が明らかです。データベース内の一部のテーブルには、ディスク上で死んでいるだけでなく、標準のACID互換環境で標準SQLでクエリおよび処理できる数兆行が含まれています。



ヤフーのエンジニアは来年までに5ペタバイトまで成長すると予想しています。 そして、彼らはそのような成長に備えています。 比較のために、数十テラバイトを超えるエンタープライズレベルのデータベースが存在することはほとんどありません。 たとえば、世界で最も有名なデータベースの1つである米国の税務サービスデータベースは、わずか150テラバイトの「重さ」です。 EBayは、1日あたり100億行を処理するシステムで動作し、これらのシステムの合計データ量は6ペタバイトであり、データ量が約1.4ペタバイトの最大システムであると言います。



私たちはそれらに基づいて構築されたDBMSとDBについて具体的に話していることを理解すべきです。 さらに多くのボリュームを持つデータウェアハウスがありますが、同時に、それらのデータは分析と処理のために実際にはアクセスできません。 たとえば、ハンブルグの世界気候データセンターには、磁気テープに6ペタバイト以上のデータが保存されていますが、「アクティブ」状態の220テラバイトのデータのみが保存されています(Linuxを実行しているDBMSによって処理されます。PDFを参照)。 。



Postgresmenの代表であるNikolai Samokhvalov氏は、「PostgreSQLは進化を続け、最も開発されたオープンソースデータベース管理システムのタイトルを確認しています」とコメントしています。 -昨年、Sunのエンジニアは、 PostgreSQLがOracleのパフォーマンスに劣らないことを世界に示しました。 カナダで開催された最近のPGCon2008国際会議で、NASAの代表者はPostgreSQL使用して大規模な気候観測データベースを操作した経験について話しました 。 ヤフーの経験は、PostgreSQLの成熟度のもう1つの明確な確認です。 そして、これは私たち全員にとって非常に良いニュースです。私が知る限り、Yahooがそのベストプラクティスをコミュニティと共有する予定はありません。



All Articles