ラむファむれンバンクのビッグデヌタ

みなさんこんにちは この蚘事では、Raiffeisenbankのビッグデヌタに぀いお説明したす。 しかし、ポむントに移る前に、ビッグデヌタ自䜓の定矩を明確にしたいず思いたす。 実際、過去数幎間で、この甚語は倚くの文脈で䜿甚されおきたため、甚語自䜓の境界があいたいになり、コンテンツが倱われおいたす。 Raiffeisenbankでは、ビッグデヌタに関連する3぀の領域を特定したした。







このスキヌムは非垞にシンプルに芋えたすが、倚くの「境界線」のケヌスがあるこずに泚意しおください。発生した堎合は、専門家の評䟡に頌っお、入っおくる問題を解決するためにビッグデヌタテクノロゞヌが必芁かどうか、たたは゜リュヌションを省くこずができるかどうかを評䟡したす。 「クラシック」RDBMSテクノロゞヌに基づいおいたす。



この蚘事のフレヌムワヌクでは、䞻に䜿甚されるテクノロゞヌず、それらの助けを借りお開発された゜リュヌションに焊点を圓おたす。



最初に、テクノロゞヌぞの関心の前提条件に぀いおのいく぀かの蚀葉。 ビッグデヌタが開始されるたでに、銀行にはデヌタを操䜜するためのいく぀かの゜リュヌションがありたした。





ビッグデヌタに目を向けた理由は䜕ですか



IT郚門では普遍的な゜リュヌションが期埅されおいたした。これにより、銀行が利甚できるすべおのデヌタを可胜な限り効率的に分析しお、デゞタル補品を䜜成し、カスタマヌ゚クスペリ゚ンスを向䞊させるこずができたした。



圓時、DWHずODSにはいく぀かの制限があり、これらの゜リュヌションをすべおのデヌタを分析するための汎甚ツヌルずしお開発するこずはできたせんでした。



  1. DWHの厳しいデヌタ品質芁件は、リポゞトリ内のデヌタの関連性に倧きく圱響したすデヌタは翌日分析に利甚できたす。
  2. ODSの履歎デヌタの䞍足定矩による。
  3. ODSおよびDWHでリレヌショナルDBMSを䜿甚するず、構造化デヌタのみを操䜜できたす。 DWH / ODS曞き蟌み時スキヌマぞの曞き蟌み䞭にデヌタモデルを定矩する必芁があるため、远加の開発コストが必芁になりたす。
  4. 氎平スケヌリング゜リュヌションの欠劂、制限された垂盎スケヌリング。


これらの制限に気付いたずき、ビッグデヌタ技術に目を向けるこずにしたした。 その瞬間、この分野のコンピテンシヌが将来的に競争䞊の優䜍性を提䟛するこずは明らかだったので、内郚の専門知識を増やす必芁がありたした。 圓時、䞖銀には実甚的な胜力がなかったため、実際には2぀の遞択肢がありたした。



-たたは倖郚から垂堎からチヌムを線成したす。

-たたは、実際の拡匵なしで、内郚移行を通じお愛奜家を芋぀けたす。



2番目のオプションを遞択したのは、 圌は私たちにもっず保守的に芋えた。



さらに、ビッグデヌタは単なるツヌルであり、このツヌルで特定の問題を解決するための倚くのオプションがあるこずを理解するようになりたした。 解決する問題には、次の芁件がありたす。



  1. さたざたな圢匏や圢匏のデヌタを䞀緒に分析できる必芁がありたす。
  2. フラットな決定論的レポヌトから゚キゟチックな芖芚化や予枬分析に至るたで、幅広い分析䞊の問題を解決できる必芁がありたす。
  3. 倧量のデヌタずそれらをオンラむンで分析する必芁性ずの間で劥協点を芋぀ける必芁がありたす。
  4. 理想的には倚数の埓業員からの芁求に察応できる、無制限のスケヌラブルな゜リュヌションが必芁です。


文献を研究し、フォヌラムを読み、入手可胜な情報に粟通した埌、これらの芁件を満たす゜リュヌションが、確立されたアヌキテクチャテンプレヌトの圢ですでに存圚し、「デヌタレむク」ず呌ばれるこずがわかりたした。 Data Lakeの実装を決定した埌、管理レポヌト、運甚統合、予枬分析など、デヌタに関連するタスクを解決できる自絊自足の゚コシステム「DWH + ODS + Data Lake」の取埗を目指したした。



Data Lakeのバヌゞョンは、入力デヌタが2぀のレむダヌに分割される兞型的なラムダアヌキテクチャを実装しおいたす。







-䞻にストリヌミングデヌタが凊理され、デヌタボリュヌムが小さく、倉換は最小限ですが、むベントの発生ず分析システムでの衚瀺間の最小遅延が達成される「速床」局。 デヌタ凊理には、Spark Streamingを䜿甚し、結果の保存にはHbaseを䜿甚したす。



-デヌタがバッチで凊理される「バッチ」レむダヌ。䞀床に数癟䞇件のレコヌドを含めるこずができたすたずえば、営業日の終了結果に基づくすべおのアカりントの残高。これには時間がかかる堎合がありたすが、かなり倧量のデヌタスルヌプット。 デヌタをHDFSのバッチレむダヌに保存し、デヌタにアクセスするには、タスクに応じおHiveたたはSparkを䜿甚したす。



それずは別に、Sparkに぀いお蚀及したいず思いたす。 デヌタ凊理に広く䜿甚されおおり、最も重芁な利点は次のずおりです。





「スキヌマオンリヌド」アプロヌチを実装しお、デヌタを元の未加工の圢匏でデヌタレむクに保存しようずしたす 。 プロセス制埡では、Oozieをタスクスケゞュヌラずしお䜿甚したす。



構造化された入力デヌタをAVRO圢匏で保存したす。 これには利点がありたす。





ナヌザヌがBIツヌルを䜿甚しお䜜業するデヌタマヌトの堎合、ParquetたたはORC圢匏を䜿甚する予定です。 ほずんどの堎合、これにより、列のストレヌゞが原因でデヌタのサンプリングが高速化されたす。



アセンブリずしお、HadoopはClouderaずHortonworksを怜蚎したした。 Hortonworksが遞択されたのは、その配垃に独自のコンポヌネントが含たれおいないためです。 さらに、Hortonworksはそのたたで、Sparkの2番目のバヌゞョンずClouderaで利甚可胜です-1.6のみ。



Data Lakeデヌタを䜿甚する分析アプリケヌションの䞭で、2぀泚意したす。



1぀目は、Pythonずむンストヌルされた機械孊習ラむブラリを備えたJupyterハブです。これは、デヌタサむ゚ンティストが予枬分析ずモデル構築に䜿甚したす。



2番目の圹割ずしお、珟圚、ナヌザヌがテヌブル、グラフ、円グラフ、ヒストグラムなどの暙準的な遡及レポヌトのほずんどを個別に準備できるセルフサヌビスBIクラスのアプリケヌションを怜蚎しおいたす。 ITの圹割は、デヌタレむクにデヌタを远加し、アプリケヌションずナヌザヌにデヌタぞのアクセスを提䟛するこず、そしおそれだけであるこずが理解されおいたす。 ナヌザヌは自分で残りの䜜業を行うこずができたす。これにより、特に、関心のある質問に察する回答を芋぀けるための最終時間の短瞮が期埅されたす。



結論ずしお、これたでに達成したこずをお䌝えしたいず思いたす。






All Articles