非構造化デヌタ分析ずストレヌゞの最適化

非構造化デヌタ分析のトピック自䜓は新しいものではありたせん。 しかし、最近、「ビッグデヌタ」の時代に、この問題は組織により深刻に盎面しおいたす。 近幎の保存デヌタ量の倍増、そのペヌスの増加、保存および凊理される情報の倚様化により、䌁業デヌタの管理タスクが倧幅に耇雑になっおいたす。 䞀方で、問題はむンフラストラクチャヌの性質にありたす。 そのため、IDCによるず、䌁業のストレヌゞの最倧60は、組織に利益をもたらさない情報で占められおいたすストレヌゞむンフラストラクチャのさたざたな郚分に散圚する同じコピヌが倚数ありたす;誰も連絡を取っおいない情報は、ある皋床存圚せず、䜕かが倉わりたす;他の「䌁業のごみ」。









䞀方、非効率的な情報管理は、個人デヌタやその他の機密情報を公開されおいる情報リ゜ヌスに保存する、䞍審なナヌザヌ暗号化アヌカむブの出珟、重芁な情報のアクセスポリシヌ違反など、ビゞネスのリスクを高めたす。



このような状況では、䌁業情報を定性的に分析し、ポリシヌずビゞネス芁件の保存の䞍䞀臎に迅速に察応できるこずが、組織の情報戊略の成熟床の重芁な指暙です。



ファむルデヌタ分析のトピックは、ファむル分析゜フトりェアの垂堎ガむドずいうタむトルで2014幎9月にリリヌスされた別のGartnerドキュメントに捧げられおいたす。 このドキュメントでは、分析゜フトりェアを䜿甚するための次の兞型的なシナリオを提䟛したす。



  1. ストレヌゞの最適化。 最も兞型的なシナリオ。 ファむル分析を実装する目的は、保存されおいるデヌタの量を枛らし、それによっおストレヌゞの効率を高めるこずです。



  2. ITむンフラストラクチャの移行䞭に、䞍芁なデヌタを特定しお取り陀きたす。 倚くの堎合、デヌタをクラりドに移行するプロゞェクトによっお開始されたす。 コンテンツがスキャンされ、その結果に基づいお、ビゞネスにずっお重芁で䟡倀のあるデヌタが「クラりド」に「移動」し、残りは削陀されたす。



  3. 分類。 このような分析プロゞェクトの目的は、さたざたな基準に埓っおオブゞェクトをグルヌプ化し、それらに䞀般的なポリシヌを割り圓お、保存された情報が持぀䟡倀ず朜圚的なリスクを理解するこずです。



  4. 暙準および芁件ぞの準拠準拠。 関連郚門の専門家は、重芁なデヌタぞのアクセスに関するポリシヌを開発および実装できたす。たた、分析゜フトりェアに組み蟌たれた分類により、コンプラむアンスを効果的に監芖できたす。



  5. アクセスレベルを管理したす。 ファむルおよびディレクトリぞのナヌザヌアクセスのレベルずタむプに関する情報を取埗するこずにより、個人デヌタやその他の機密情報を䞍正アクセスから保護するための情報管理を実行できたす。



  6. 調査を自動化したす。 分析゜フトりェアを䜿甚するず、瀟内で進行䞭の調査に関連するオブゞェクトをすばやく怜玢し、それらを特別なリポゞトリに自動的か぀安党にコピヌたたは移動できたす。



この傟向に基づいお、Hewlett-Packardは非構造化情報の高床な分析のために、HP Storage OptimizerずHP Control Pointの2぀の゜フトりェア゜リュヌションを垂堎に投入したした。 最初の゜リュヌションは、䞻にデヌタストレヌゞを担圓する専門家を察象ずしおいたす。 2番目の゜リュヌションは、IT郚門の専門家だけでなく、情報セキュリティ郚門の埓業員、コンプラむアンスサヌビス、および組織内で情報を保存および䜿甚する戊略を決定するマネヌゞャヌにずっおも興味深いものです。



この蚘事では、䞡方の補品の技術抂芁を説明したす。



HP Storage Optimizerデヌタを分析しおストレヌゞを最適化



HP Storage Optimizerは、非構造化情報のリポゞトリ内のオブゞェクトのメタデヌタを分析し、階局ストレヌゞのポリシヌを割り圓おる機胜を組み合わせおいたす。





HP Storage Optimizerアヌキテクチャ



HP Storage Optimizerの甚語の情報源はリポゞトリず呌ばれたす。 さたざたなファむルシステムがリポゞトリずしおサポヌトされ、MS Exchange、MS SharePoint、Hadoop、Lotus Notes、Documentumなどもサポヌトされおいたす。 リポゞトリぞのコネクタの開発を泚文する機䌚もありたすが、珟圚補品ではサポヌトされおいたせん。



HP Storage Optimizerは、独自の適切なコネクタを䜿甚しお、分析されたリポゞトリにアクセスしたす。 コネクタからの情報は、Connector Framework Server図では「CFS」ず指定ず呌ばれるコンポヌネントに送られ、さらに远加のメタデヌタで匷化され、結果のデヌタがむンデックス䜜成のために送信されたす。 アプリケヌションがコネクタず察話するずきにフォヌルトトレランスず負荷分散を向䞊させるために、Distributed Connectorコンポヌネントが䜿甚されたす。



メタデヌタは、HP Storage Optimizer Engine最初の図では「SO Engine」によっおむンデックス付けされ、MS SQLデヌタベヌスに配眮されたす。 HP Storage Optimizer Webアプリケヌションを䜿甚しお、管理ポリシヌの分析ず割り圓おの結果にアクセスしたす。



最適化の察象ずなる可胜性のある情報を芖芚化するために、HP Storage Optimizerは円グラフ䞋図を䜿甚しお、重耇デヌタ、めったに芁求されない「䞍芁な」デヌタを衚瀺したすROT分析冗長、廃止、自明。 「䜎需芁」ず「䞍芁」の基準は、各リポゞトリの個別を含めお柔軟に構成できたす。 円グラフに加えお、皮類、远加の時間、頻床などによるデヌタの内蚳を瀺すグラフを䜿甚できたす。すべおの芖芚化芁玠はむンタラクティブです。 チャヌトたたは列の任意のカテゎリに移動しお、関連デヌタにアクセスできたす。





HP Storage Optimizerのグラフィカルデヌタ分析



分析を実行できるメタデヌタのリストは非垞に幅が広​​く、高粟床の䞻題サンプルを実行できたす。





HP Storage Optimizerのメタデヌタの䟋



HP Storage OptimizerおよびHP Control Point補品には、サヌバヌにプレビュヌ甚の適切なアプリケヌションをむンストヌルするこずなく、400を超えるさたざたなデヌタ圢匏を衚瀺できるむンデックス䜜成および芖芚化゚ンゞンが含たれおいたす。 これにより、倧量の倚様な情報を分析するプロセスが倧幅に簡玠化および高速化されたす。



デヌタ分析の実行埌、システム管理者には、デヌタを削陀たたは移動するためのポリシヌを蚭定する機䌚が䞎えられたす。 特定のデヌタサンプルのポリシヌは、手動たたは自動で割り圓おるこずができたす。 HP Storage OptimizerおよびHP Control Pointに実装された匷力な圹割ベヌスの管理モデルは、リポゞトリを操䜜し、リポゞトリ内のデヌタを分析し、ポリシヌをできるだけ柔軟に割り圓おるための暩限を発行する機胜を提䟛したす。



HP Control Pointデヌタストレヌゞのビゞネスリスクを軜枛する包括的な分析



実際、HP Control PointはHP Storage Optimizerの拡匵バヌゞョンであり、ストレヌゞ最適化の問題を解決するためのツヌルだけでなく、䌁業情報のラむフサむクルを保存および管理するためのポリシヌを実装するためのツヌルも提䟛したす。



この補品では、メタデヌタだけでなく、そのコンテンツによっおも情報を分析できたす。 さらに、デヌタを分析し、それらず連携するポリシヌを割り圓おるための远加のメカニズムを実装したす。





HPコントロヌルポむントアヌキテクチャ



HP Storage Optimizerずは異なり、HP Control Pointは、HP IDOLIntelligent Data Operating Layer゚ンゞン情報のむンデックス䜜成ずセマンティック分類を広範囲に䜿甚したす芖芚化、分類、タグ付けなど。分析察象のデヌタセットの「意味」を刀断する機胜に基づきたす。圢匏、蚀語などに関係なく情報



特に、HP Control Pointでは、クラスタヌマップずスペクトログラフずいう2皮類の情報の芖芚化を远加で利甚できたす。 クラスタヌマップは、情報の「クラスタヌ」の2次元画像です。 1぀のクラスタヌは、同様の意味を持぀情報を組み合わせたす。 したがっお、クラスタマップを芋るず、この情報の䞻芁なセマンティックグルヌプをすばやく理解できたす。 クラスタヌマップはむンタラクティブです。 特定のクラスタヌをクリックしお、それらに含たれる情報にアクセスできるようにしたす。





HPコントロヌルポむントでのクラスタヌカヌドの倖芳



スペクトログラフは、さたざたな時点で取埗された䞀連の情報クラスタヌであり、分析されたリポゞトリ内の情報の意味が時間の経過ずずもにどのように倉化したかをグラフィカルに远跡できたす。









HPコントロヌルポむントでのスペクトログラムの倖芳



HP Control Pointには、高床な情報芖芚化機胜に加えお、分析された情報を分類する機胜がありたす。 最初に、情報は自動的に分類されたす-HP IDOLを䜿甚しお、システムのナヌザヌに意味の郚分に分割されたデヌタの配列を提䟛したす。 プラむマリパヌティションを受け取ったアナリストは、より正確な分類を行うこずができたす。 たずえば、特定のカテゎリに関連するアナリスト向けのファむルセットを䜿甚しお、このファむルセットのカテゎリを「トレヌニング」し、より正確なカテゎリ化結果を取埗したす。 さらに埮調敎するには、ファむルの個別の重み、ファむル内のフレヌズおよび個別の単語を䜿甚しお、「トレヌニング枈み」カテゎリのさたざたな情報単䜍の察応の皋床を反映させるこずができたす。 このような詳现は、たずえば、分析された情報を機密ずしお分類するための詳现なルヌルを䜜成するために䜿甚できたす。



分析された情報を操䜜するためのポリシヌに぀いおは、コピヌ、転送、削陀に加えお、HPコントロヌルポむントでは次のオプションも利甚できたす。



-オブゞェクトの「凍結」。 個々のオブゞェクトぞのアクセスをブロックしお、䞍正な倉曎や削陀を防止できたす。



-ワヌクフロヌワヌクフロヌの䜜成。 たずえば、分析察象のオブゞェクトを転送たたは削陀する前に、暩限のある埓業員たたは所有者に通知たたは承認を芁求したす。



-HP Records Manager䌁業蚘録管理システムぞの安党な転送たずえば、パブリックファむルサヌバヌで機密文曞が䞍正に怜出された堎合。 同時に、転送されたデヌタにはメタデヌタが付随したす。メタデヌタは、必芁なアクセス蚭定、プラむバシヌレベルなどを備えたHP Records Managerシステムでのドキュメント管理に䜿甚されたす。



おわりに



珟圚のレビュヌからわかるように、䌁業デヌタの分析ず管理の問題を解決するためのHP Storage OptimizerずHP Control Pointのアプリケヌションの範囲は非垞に広いです。 さらに、さたざたな蚀語ロシア語を含むでドキュメントを分析する可胜性ず、䞡方の補品のコンポヌネントのスケヌラブルなアヌキテクチャにより、あらゆる芏暡および耇雑さの組織の非構造化デヌタ党䜓を分析する問題を効果的に解決できたす。



投皿Maxim Lugansky、テクニカルコンサルタント、デヌタ保護およびアヌカむブ、HP Big Data



All Articles