HP Vertica:ビッグデータ分析データベースエンジン

現代のビジネスの問題の1つは、データが過剰であることです。膨大な量の情報がさまざまなストレージ、データベース、ファイルサーバーなどに散在しています。 多くの情報がありますが、迅速に決定する必要があります。



このようなビッグデータを操作するためのツールは、成長に追いついていません。 そのような問題の中で:

-肉体労働の割合が高い、

-リアルタイムで分析を実施できない、

-低い検索精度と一貫性の欠如、

-非構造化情報の非効率的な処理。



ソリューションは、ビッグデータをリアルタイムで分析するように設計された専用のHP Verticaデータベースであり、従来のDBMSよりもはるかに高速に動作します。



データを操作する

HP Verticaは、行ではなく列を使用するため、データの保存と圧縮で最良の結果を示します。 クラスタテクノロジを使用すると、より多くのリソースをオンザフライで接続し、ストレージを削減して検索時間を短縮することにより、システムパフォーマンスを直線的に向上させることができます。 列ごとにデータを保存すると、レコード全体ではなく、リクエストに含まれる必要なフィールドのみをディスクから読み取ることができます。



列内のデータは、フィールド値、繰り返し値のデルタコーディング、およびLZO Lempel – Ziv –多数の一意の値と並べ替えられていない列を持つ列のオーバーヒューマー圧縮とともに、繰り返し回数を記録することで圧縮されます。 さらに、浮動小数点数、日付、および他の多くのフィールドタイプに対して、特別な圧縮アルゴリズムが使用されます。 これにより、90%を超える情報圧縮の度合いを提供できます。 重要な側面は、ほとんどの場合、デコードせずにデータ操作を実行できることです。これにより、必要なストレージ容量とディスクアクセス数が削減されるだけでなく、プロセッサとメモリの負荷も削減されます。







多数の並列クエリの処理の高速化は、異なるプロジェクションの列の異なるコピーで異なる並べ替え順序を使用することによっても実行され、これらは自動的に選択されます。



積極的な圧縮を使用すると、同じ列の複数のコピーをデータベースの異なる「投影」に格納できます。これは、一緒に含まれる列のセットです。 さまざまなディスクにさまざまなコピーを保存できるだけでなく、フィールドの1つの値による「投影」の分割を、さまざまなマシンに配置され処理されるセグメントに分割することもできます。



すでに蓄積されたデータを処理するために、VerticaはSQLをサポートし、分析クエリを処理するための拡張機能を備えた標準SQLインターフェイス(ANSI SQL-99)を備えています。 プラットフォームは、Cognos、Informatica、Business Objects、SASのビジネスインテリジェンスソリューションと同様に、データクレンジングおよびレポートメカニズムと互換性があります。 これにより、データベースの転送、および標準のSQLインターフェイス、ODBC、JDBC、またはADO.NETコネクタを備えた他の分析アプリケーションの使用が容易になります。







分析的な「クレーン」

2014年8月、HP Vertica 7.1の重要な更新バージョンがリリースされました。これは、大規模な建設の伝統を引き継いで、ドラッグライン-「スクレーパーショベル」という名前が付けられました。 このバージョンの主な革新は次のとおりです。

-非構造化データを使用した直接作業のサポート、

-テキスト分析、

-地理空間分析、

-ワークロード管理の改善、

-投影集約などのサポート。



HP Vertica 7には、非構造化データ専用のFlex Zoneストレージおよび処理エリアがあります。 Flexテーブルを作成し、CSV、JSON、およびその他のファイルから情報をロードし、それらに対してクエリを実行し、クエリ内のこのデータをVerticaリレーショナルテーブルに接続することができます。 これらのテーブルのデータは、特殊な形式でクラスターノードに格納されますが、リレーショナルデータベースデータと同じ原理に従います。 非構造化データは、圧縮、ミラーリング、およびセグメント化できます。



Flex Zoneの利点は、Verticaと統合された外部ソリューションではなく、非構造化データのネイティブサポートの実装であることです。 これにより、構造化データと非構造化データのテーブルを使用したクエリでのハイブリッド処理中の作業速度が保証されます。







クラスタリング機能

HP Verticaのフォールトトレランスには、データのコピーを作成する特別なメカニズムが備わっています(K-Safety)。 このメカニズムは、24x7x365モードで最も手頃なレベルのフォールトトレランスを保証します。 クラスターは、要求の実行を停止することなく、いくつかのノードの障害に耐えることができます。 メインデータセグメントとそのコピーは、クラスターのKノードに保存されます。 いずれかのノードで障害が発生した場合、システムはセグメントのコピーを使用して機能し続け、このデータへのアクセスは自動的に行われます。 故障したノードを交換するには、正常なノードに保存されているセグメントのコピーから元のデータが復元されます。



さらに、クラスタリングにより、比例して生産性を向上させ、スケーリングだけでなくフォールトトレランスも提供できます。 クラスターには共有リソースが含まれていないため、ロックを待機する時間はありません。したがって、分散ロック管理ツールは必要ありません。 また、Verticaアーキテクチャでは、データのロード時にジャーナリングがボトルネックになることが多いため、ジャーナリングを拒否することもできます。 代わりに、システムはクラスターの異なるノードで列の複数のコピーをサポートします。



リアルタイム分析が最も頻繁に必要とされるため、Verticaには、読み取り速度を犠牲にすることなくデータを継続的にロードするための特別なメカニズムがあります。 データはWOSメモリの特別な領域(書き込み最適化ストア)に書き込まれ、ROS(読み取り最適化ストア)タイプのストレージ領域からディスクから読み取りが行われ、WOSの情報はソートまたはインデックス付けされません。 同時に、ROSに転送する前でも、WOSにある情報を使用してクエリ結果を受信できます。



WOSからROSへのレコードの転送は、特別なTuple Moverレコード転送プロセスを使用して、自動的に非同期で大きなブロックで行われます。 このプロセスはWOS全体で完全に動作するため、多くのレコードを並べ替えてバッチモードでディスクに転送しながら、レコードの移動は非常に効率的です。







使用の利点

すでに実装されているプラ​​ットフォームの統計では、データベースの操作が平均で最大1000倍高速化されています。 他のシステムと比較した平均情報圧縮率は10:1であり、さらに分析するためのデータの読み込みは10倍速く、リアルタイムに近いモードに匹敵します。



市場で入手可能なソリューションとは異なり、HP Verticaは特定のハードウェアプラットフォームに拘束力がありません。ユーザーは必要な機器を選択します。 推奨される構成があることに注意してください。



Verticaは元々水平方向にスケーラブルな環境で動作するように設計されており、プロセッサではなくシステムにロードされるデータの量によってライセンスされるため、VMware vSphereやAmazon Elastic Compute Cloudなどのクラウド環境に簡単に統合できます。 仮想化環境の利点は、Verticaコンプレックスのすべてのノードが同じであり、仮想マシンの完成したイメージが既存の機器に即座にインストールされるため、展開の速度です。



HP Verticaには、システムを自動的にカスタマイズするDatabase Designerソフトウェアが付属しています。 Verticaには、SQL、JDBC、ODBC、ADO.NETを介したシンプルな統合ツールとレポート機能があります。 Vertica Community Editionの無料バージョンもあります。これにより、アナリストは独自のアプリケーションを作成し、Verticaコミュニティと経験を共有できます。







人生の例

現在、Vertica DBMSの最大のインストールの1つは、ソーシャルネットワーク用のネットワークゲームを開発する会社で行われています。 このシステムは約2億人のアクティブプレイヤーに対応し、最大4,000万人が同時にプレイします。 毎日のデータストリームは3 TBです。 クラスター内の200台の車が即座に分析を提供し、プレイヤーに推奨事項の形で情報を提供します。 インストールは、データをダウンロードするための「ウィンドウ」なしで24x7x365モードで動作し、リアルタイムの着信データと履歴データを分析します。 ただし、これは制限からはほど遠いものです。 最大のクライアントは、数ペタバイトのデータ量と数百のノードのクラスターを持つFacebookです。 現在、クラスターにデータをダウンロードする速度は40 Tb /時間です。






ウクライナ、ジョージア、タジキスタンでHPソリューションを配布しています。 価格、質問-abo@muk.uaまたはPMに書き込みます。

MUKディストリビューターのすべてのソリューションとサービスのカタログ

Hewlett-Packard認定トレーニングコース

最寄りのヒューレットパッカードコース:

2015年2月16〜17日(キエフ、UTs MUK)-HP OneViewによるインフラストラクチャ管理

2015年2月11〜13日(キエフ、CC MUK)-HP BladeSystem Virtual Connect

2015年2月23〜24日(キエフ、CC MUK)-MSA 2000ストレージソリューションの実装

MUK-Service-あらゆる種類のIT修理:保証、非保証修理、スペアパーツの販売、契約サービス



All Articles