ビッグデータと大きな質問

毎年、ビッグデータの人気は高まり続けています。 分析レポートは、特定のビジネスプロセスで「ビッグデータ」を積極的に使用している企業の割合が増加していることを示しています。



今日は、この新しい用語がしばしば誤解を招くものであり、実際にそれが意味するものの肯定的な側面を十分に評価できないことについてお話します。





/ 写真フィリップクローマー CC



テクノロジー自体は、いわば、すでにほぼ普遍的に使用されています。 ユーザーに検索サービスやソーシャルネットワークを提供する企業が利用できる膨大なデータは、想像を絶するものです。 それらを完全に安心して保管しておくのは奇妙です-ビジネスは、ユーザーとその好みに関する既存のデータの分析から得られる知識からさらなる利益を得ようとしています。



ここでは、薬から交通まで、あらゆる活動分野との類似点を描くことができます。 重要なのは、要件を十分に満たすはずのデータの分析であり、それらはすでに同じ「ビッグデータ」に起因している可能性があります。



問題は何ですか



分析が提供するのは、パターンを理解し、それらに基づいて近い将来のイベントの発生を予測する機能です。 しかし、他の新しいツールと同様に、ビッグデータには正確な作業と研究の質への注意が必要です。



時々、研究者が基本的な論理に必ずしも対応しない特定の依存関係の構築に進むことが判明します。 そのような例の1つは、いくつかの「品質」要件への準拠についてテキストをチェックすることです。 それはすべて、事前定義されたパラメータの妥当性と、材料の実際の品質との適合性に依存します。



場合によっては、テキスト評価を使用すると、アルゴリズムが長い文を重要または「品質」として区別することが判明しますが、このアプローチでは芸術作品の評価の問題に対処できないことは誰もが知っています。 このような推定アルゴリズムは、作業のロジックを理解し、回避するのに十分簡単です。



もう1つの例は、Googleが開始したFlu Trendsプロジェクトです。 彼は病気の発生を予測するはずでしたが、これらの問題を専門的に扱った公式サービスを超えることはできませんでした。



実際に行うこと



これらまたは他のタイプの「ビッグデータ」が機能しない主な理由は、このデータを収集するための最小限の構造のシステムが基本的に存在しないことです。 そのような作業には、かなりの準備作業が必要になり、計画と設計に追加のコストがかかります。



データの収集と体系化のプロセスを理解することに加えて、これらのプロセスに役立つITインフラストラクチャを構築する必要性を評価する価値があります。 今日、あらゆるIT企業が何らかの形でこれらの問題に直面しています。処理する必要のあるデータの量は増大しています。これに伴い、ビッグデータに関連するテクノロジーへの投資の重要性も高まっています。



今では、大量のデータを収集するだけでは十分ではありません。中間的な結論を得るためにも、分析に基づいて仮説を正しく策定できることが必要です。 この問題には、データ分析の直接的な問題に関与する専門の専門家の関与が必要です。



PS仮想インフラストラクチャ1cloudを提供するためのサービスに取り組んでいる私たち自身の経験だけでなく、Habréのブログで知識の関連分野についても話しています。 更新、友人を購読することを忘れないでください!



All Articles