記憶媒体の容量の急激な増加とデータストレージの安価なコストにより、インデックス、ソートされた形式でのデータの保存など、必要なデータへのアクセスを高速化できる方法が登場しました。 これらの方法はそれぞれのタスクにうまく対処しますが、世界での競争の激化により、情報にアクセスするための新しい高速な方法を探しています。 「誰が情報を所有し、世界を所有していますか。」 主な関心事は、ACID要件(原子性、一貫性、分離、耐久性-原子性、一貫性、分離、信頼性)を満たし、ビッグデータ分析用に設計された従来のリレーショナルデータモデルを備えたデータベースです。
Teradataは、オペレーティングシステムで実行される並列リレーショナルデータベース管理システムです。
- MP-RAS UNIX
- Microsoft Windows 2000/2003サーバー
- SuSE Linux
サポートされているさまざまなオペレーティングシステムは、Teradataがオープンアーキテクチャを採用している理由の1つです。
Teradata DBMSは、TCP / IPプロトコルまたはIBMメインフレームチャネルへの接続を介して多くのクライアントと対話する大規模なデータベースサーバーです。
企業は、さまざまな理由でTeradataを選択しています。
- 1つのエリアで400 TBを超える大量の情報をサポート
- 小規模データベース(10GB)から大規模(100+ TB)へのモジュール拡張のサポート
- リクエストを受信するための複雑な設定の必要性を排除する並列対応オプティマイザーを提供します
- 自動データ配布により、複雑な索引付けスキームと時間のかかる再編成が不要になります
- データベースは、最初から並列アーキテクチャに基づいて設計および構築されました
- ANSI SQL標準を使用し、SQLデータベース管理情報(ログファイル)を含むアドホッククエリのサポート。これにより、Teradataの他のデータベース管理システムにクエリを送信できます。
- データベース管理の単一管理ポイント(Teradata Manager)
Teradataは、大規模並列アーキテクチャであるMPP (Massive Parallel Processing)を介した高速データアクセスを提供します。 その特徴は、メモリが物理的に分割されることです。 Teradataは、 BYNETのプライベートメッセージングネットワークに接続されたIntelサーバーを提供します。 Teradataシステムには、LSIまたはEMCの本番データベースを保存するための独自のディスクアレイが付属しています。 ストレージシステムの構成に関する詳細については、同社のブログをご覧ください。
アンプ
Teradata Databaseアーキテクチャの主な概念はAMP (アクセスモジュールプロセッサ)です。これは、データを格納し、独立して処理する独立したノード/ノードです。 つまり、各AMPはデータベースの一部のみの処理と格納に忙しく、他のAMPにほとんど依存していません。 このTeradata Databaseは、Hadoop(分散コンピューティングシステム)に似ています。 ただし、AMP間のネットワーク輻輳によるデータベースの設計が正しくない大規模並列アーキテクチャは、元のOracle DBMSサーバーなどのシングルスレッドの強力なデータベースサーバーよりもさらに悪い結果をもたらす可能性があります。 Teradata Manager、DBSConsole、およびTeradata Administratorは、AMPと他の管理タスクとの間で負荷を分散するために使用されます。 特に、これらのツールを使用すると、AMPまたはサーバー全体で実行されているユーザープロセスのフィルターと優先順位を設定できます。
Teradataアーキテクチャについては、同社のブログで詳しく説明されています。
Teradataにはクエリオプティマイザーがあり、その操作は統計データ情報に基づいています。
14番目のバージョンから、Teradataはデータを行と列の両方(水平および垂直パーティション)として保存できるようになりました。 ハイブリッドデータストレージについては、同社のブログでも説明されています。
データマート
従来、データ処理はOLTP(オンライントランザクション処理)とDSS(意思決定支援システム)の2つのカテゴリに分類されていました。 ただし、大量の情報を含む分析データベースの場合、データ処理はOLAP (オンライン分析処理)とDM (データマイニング)に分けられます。
種類 | 説明 | 例 | 利用可能な行数 | 応答時間 |
---|---|---|---|---|
OLTP | クライアントはシステムからの最小応答時間を必要としながら、小さなトランザクションで動作しますが、大きなフローで行きます | 現在のアカウントを更新してデポジットを表示する | リトル | 秒 |
Dss | 主題活動の完全かつ客観的な分析のための意思決定支援システム | 小売業者Xでの靴の月間売上はいくらですか | たくさん(何百万) | 秒または分 |
OLAP | データ処理技術。多次元の原則に従って構造化された大規模なデータ配列に基づいて、合計(集計)情報を準備します。 | 2005年に全店の中でベストセラーの10製品を表示する | 多くの詳細な行または平均サマリー行 | 秒または分 |
データマイニング | データマイニング | プロモーションに反応する可能性が最も高いのはどの顧客ですか? | 長い詳細行の平均数 | フェーズ1:分または時間
フェーズ2:秒または秒の小数部 |
したがって、いわゆるを使用してビッグデータを処理する方が便利です。 データマート(データマート)-データウェアハウスのスライス。これは、たとえば1つのワークグループのユーザーに焦点を当てた、テーマに沿った狭い焦点の情報の配列です。
このコンセプトにはいくつかの利点があります。
- アナリストは、本当に必要なデータのみを表示して操作します。
- ターゲットデータベースはエンドユーザーに可能な限り近い
- データマートには通常、事前に集計されたデータの主題のサブセットが含まれているため、設計と構成が簡単です
- データマートを実装するために高性能コンピューティングは必要ありません
ただし、ストアフロントの概念は、保存されたデータの整合性と一貫性を確保する方法を提案していません。
Teradataデータベースアーキテクチャにより、データマートをロードおよび変換する必要がなくなり、すべてのユーザーのニーズに同じデータウェアハウスを利用できるようになります。
ソース:
[1] Teradataブログ:Teradata-誕生と並行したデータベース管理システム
[2] Teradataブログ:速度またはボリューム? 異種の特性を持つ自動ストレージ管理
[3] Teradataブログ:Teradata DBMSの統計
[4] Teradataブログ:Teradata DBMSの列間およびハイブリッドレコードストレージ
[5] リレーショナルデータベースは運命づけられていますか?
[6] 分析データベースについてシンプルでアクセスしやすい
[7] データアクセス速度:未来への戦い
[8] ウィキペディア
[9]紙の上の英語のドキュメント
ここで、 プライマリインデックスの概念を理解する必要があります。これらのインデックスがどのように付加され、パフォーマンスにどのように影響するかを理解してください。
UPD
次の投稿: 文字列の分布とTeradataへのアクセス(プライマリインデックス)