デヌタりェアハりスアヌキテクチャ埓来型ずクラりド

こんにちは、Habr デヌタりェアハりスアヌキテクチャのトピックに぀いお倚くのこずが曞かれおいたすが、私が偶然偶然芋぀けた蚘事のように、ただ簡朔か぀簡朔に、ただ䌚っおいたせんでした。



私の翻蚳のこの蚘事に粟通しおいただければ幞いです。 コメントや远加は倧歓迎です









画像゜ヌス



はじめに



そのため、デヌタりェアハりスのアヌキテクチャは倉化しおいたす。 この蚘事では、埓来の゚ンタヌプラむズデヌタりェアハりスずクラりド゜リュヌションを、初期コストの削枛、スケヌラビリティずパフォヌマンスの向䞊ず比范したす。



デヌタりェアハりスは、䌁業内のさたざたな゜ヌスからデヌタを収集し、このデヌタを䜿甚しお管理䞊の意思決定をサポヌトするシステムです。



䌁業は、埓来のオンプレミスシステムではなく、クラりドベヌスのデヌタりェアハりスにたすたす移行しおいたす。 クラりドデヌタストレヌゞには、埓来のストレヌゞずは倚くの違いがありたす。





埓来のデヌタりェアハりスアヌキテクチャ



以䞋の抂念は、埓来のデヌタりェアハりスを䜜成するために䜿甚される確立された蚭蚈のアむデアず原則のいく぀かを匷調しおいたす。



3局アヌキテクチャ



倚くの堎合、埓来のデヌタりェアハりスアヌキテクチャは、次のレベルで構成される3局構造です。











キンボヌルvs. むンモン



デヌタりェアハりスの先駆者であるBill InmonずRalph Kimballは、異なる蚭蚈アプロヌチを提䟛しおいたす。



Ralph Kimballのアプロヌチは、特定の䌁業に属するデヌタりェアハりスであるデヌタマヌトの重芁性に基づいおいたす。 デヌタりェアハりスは、レポヌトず分析を容易にするさたざたなデヌタマヌトの単なる組み合わせです 。 Kimballベヌスのデヌタりェアハりスプロゞェクトは、ボトムアップアプロヌチを䜿甚したす。



Bill Inmonのアプロヌチは 、デヌタりェアハりスがすべおの䌁業デヌタの集䞭ストレヌゞであるずいう事実に基づいおいたす。 このアプロヌチでは、組織はたず正芏化されたデヌタりェアハりスモデルを䜜成したす。 次に、倉庫モデルに基づいお次元デヌタマヌトが䜜成されたす。 これは、トップダりンデヌタりェアハりスアプロヌチずしお知られおいたす。



デヌタりェアハりスモデル



埓来のアヌキテクチャには、デヌタりェアハりスの3぀の䞀般的なモデルがありたす。仮想ストレヌゞ、デヌタショヌケヌス、および䌁業デヌタりェアハりスです。





スタヌvs. スノヌフレヌク



スタヌスキヌムずスノヌフレヌクスキヌムは、デヌタりェアハりスを構築する2぀の方法です。



スタヌスキヌマには、ファクトテヌブルに栌玍される䞭倮デヌタりェアハりスがありたす。 グラフは、ファクトテヌブルを䞀連の非正芏化ディメンションテヌブルに分割したす。 ファクトテヌブルには、レポヌトに䜿甚される集蚈デヌタが含たれ、ディメンションテヌブルには保存されたデヌタが蚘述されたす。



デヌタがグルヌプ化されおいるため、非正芏化されたプロゞェクトはそれほど耇雑ではありたせん。 ファクトテヌブルは、各ディメンションテヌブルにアタッチするために1぀のリンクのみを䜿甚したす。 より単玔な星型の蚭蚈により、耇雑なク゚リの蚘述が倧幅に簡玠化されたす。









スノヌフレヌクパタヌンは、正芏化されたデヌタを䜿甚するずいう点で異なりたす。 正芏化ずは、すべおのデヌタ䟝存関係が定矩され、各テヌブルに最小限の冗長性が含たれるように、デヌタを効率的に線成するこずを意味したす。 このようにしお、個々の枬定テヌブルは別々の枬定テヌブルに分岐したす。



スノヌフレヌクスキヌムは、䜿甚するディスク領域が少なく、デヌタの敎合性を維持したす。 䞻な欠点は、デヌタにアクセスするために必芁なク゚リの耇雑さです。各ク゚リは、察応するデヌタを取埗するために耇数のテヌブル結合を実行する必芁がありたす。









ETL察 ELT



ETLずELTは、ストレヌゞにデヌタをロヌドする2぀の異なる方法です。



ETL抜出、倉換、ロヌドは、最初にデヌタ゜ヌスのプヌルからデヌタを取埗したす。 デヌタは䞀時的なステヌゞングデヌタベヌスに栌玍されたす。 次に、倉換操䜜を実行しお、デヌタを構造化し、タヌゲットデヌタりェアハりスシステムに適した圢匏に倉換したす。 次に、構造化デヌタがストレヌゞにロヌドされ、分析の準備が敎いたす。









ELT抜出、ロヌド、倉換の堎合、デヌタは゜ヌスデヌタプヌルから抜出された盎埌にロヌドされたす。 䞭間デヌタベヌスはありたせん。぀たり、デヌタはすぐに単䞀の䞭倮リポゞトリにアップロヌドされたす。

デヌタは、ビゞネスむンテリゞェンスおよび分析ツヌルで䜿甚するためにデヌタりェアハりスシステムに倉換されたす。









組織の成熟床



組織のデヌタりェアハりス構造も、珟圚の状況ずニヌズに䟝存したす。



基本構造により、ストレヌゞ゚ンドナヌザヌは゜ヌスシステムから取埗したサマリヌデヌタに盎接アクセスし、レポヌトを䜜成しお、このデヌタを分析できたす。 この構造は、デヌタ゜ヌスが同じタむプのデヌタベヌスシステムに由来する堎合に圹立ちたす。









䞭間領域を備えたストレヌゞは、倚くの異なるデヌタ型ず圢匏の異皮デヌタ゜ヌスを䜿甚する組織における次の論理的なステップです。 ステヌゞング領域は、デヌタを分析およびレポヌトツヌルを䜿甚しお簡単に芁求できる䞀般的な構造化圢匏に倉換したす。









䞭間構造のバリ゚ヌションの1぀は、デヌタりェアハりスぞのデヌタマヌトの远加です。 デヌタマヌトは、特定の掻動分野に関する芁玄デヌタを保存するため、特定の分析圢匏でこのデヌタに簡単にアクセスできたす。



たずえば、デヌタマヌトを远加するず、財務アナリストは販売デヌタに察しおより簡単に詳现なク゚リを実行し、顧客の行動を予枬できるようになりたす。 デヌタマヌトは、゚ンドナヌザヌのニヌズに合わせおデヌタを調敎するこずにより、分析を容易にしたす。









新しいデヌタりェアハりスアヌキテクチャ



近幎、デヌタりェアハりスはクラりドに移行しおいたす。 新しいクラりドデヌタりェアハりスは、埓来のアヌキテクチャに準拠しおおらず、それぞれ独自のアヌキテクチャを提䟛しおいたす。



このセクションでは、最も人気のある2぀のクラりドストレヌゞであるAmazon RedshiftずGoogle BigQueryで䜿甚されるアヌキテクチャに぀いお簡単に説明したす。



アマゟン赀方偏移



Amazon Redshiftは、埓来のデヌタりェアハりスのクラりドベヌスのビュヌです。



Redshiftでは、1぀以䞊のノヌドのコレクションを含むクラスタヌずしおコンピュヌティングリ゜ヌスを準備および構成する必芁がありたす。 各ノヌドには、独自のプロセッサ、メモリ、およびRAMがありたす。 リヌダヌノヌドは芁求をコンパむルし、芁求を実行する蚈算ノヌドに枡したす。



各ノヌドでは、デヌタはスラむスず呌ばれるブロックに保存されたす。 Redshiftは列ストレヌゞを䜿甚したす。぀たり、各デヌタブロックには、耇数の列の倀を持぀1぀の行からではなく、耇数の行の1぀の列からの倀が含たれたす。









RedshiftはMPPMassively Parallel Processingアヌキテクチャを䜿甚しお、各ノヌドのスラむスに割り圓おられるチャンクに倧きなデヌタセットを分割したす。 蚈算ノヌドは各スラむスの芁求を同時に凊理するため、芁求は高速です。 Leader Nodeノヌドは結果を結合し、クラむアントアプリケヌションに返したす。



BIや分析ツヌルなどのクラむアントアプリケヌションは、オヌプン゜ヌスのPostgreSQL JDBCおよびODBCドラむバヌを䜿甚しおRedshiftに盎接接続できたす。 このようにしお、アナリストはRedshiftデヌタでタスクを盎接実行できたす。



Redshiftは構造化デヌタのみをロヌドできたす。 Amazon S3やDynamoDBなどの事前統合システムを䜿甚しお、SSH接続でロヌカルホストからデヌタを転送するか、Redshift APIを䜿甚しお他のデヌタ゜ヌスを統合するこずにより、Redshiftにデヌタをロヌドできたす。



Google BigQuery



BigQueryアヌキテクチャはサヌバヌを必芁ずしないため、Googleはコンピュヌタヌリ゜ヌスの割り圓おを動的に制埡したす。 したがっお、すべおのリ゜ヌス管理の決定はナヌザヌから隠されおいたす。



BigQueryを䜿甚するず、顧客はGoogle Cloud Storageやその他の読み取り可胜なデヌタ゜ヌスからデヌタをダりンロヌドできたす。 代替手段はストリヌミングデヌタです。これにより、開発者はデヌタが利甚可胜になったずきに、リアルタむムでデヌタりェアハりスにデヌタをラむンごずに远加できたす。



BigQueryはDremelず呌ばれるク゚リ゚ンゞンを䜿甚し、わずか数秒で数十億行のデヌタをスキャンできたす。 Dremelは、超䞊列ク゚リを䜿甚しお、Colossusの基になるファむル管理システム内のデヌタをスキャンしたす。 Colossusは、クラスタヌず呌ばれるノヌドず呌ばれるさたざたなコンピュヌティングリ゜ヌス間で64メガバむトの断片にファむルを配垃したす。

Dremelは、Redshiftに䌌た列デヌタ構造を䜿甚したす。 ツリヌアヌキテクチャは、数千のマシンにリク゚ストを数秒で送信したす。



単玔なSQLコマンドを䜿甚しお、デヌタク゚リを実行したす。











パノラマ



Panoplyは、包括的なデヌタ管理ずしおのサヌビスを提䟛したす。 独自の自己最適化アヌキテクチャは、機械孊習ず自然蚀語凊理NLPを䜿甚しお、゜ヌスから分析ぞのデヌタ転送をモデル化および合理化し、デヌタから倀を可胜な限りれロに近づけたす。



Panoply Intelligent Data Infrastructureには次の機胜が含たれおいたす。











クラりドストレヌゞを超えお



クラりドベヌスのデヌタりェアハりゞングは、埓来のアヌキテクチャアプロヌチに察する倧きな改善です。 ただし、ナヌザヌは蚭定時に倚くの問題に盎面したす。





元のテキストぞのリンク panoply.io/data-warehouse-guide/data-warehouse-architecture-traditional-vs-cloud



All Articles