ビッグデータの分析に関連する革命は、顕著な成果だけでなく、方法論的な成果を含む特定の困難も生み出します。 それらのいくつかをより詳細に検討しましょう。
ビッグデータの分析[1]について言えば、性質が完全に異なるいくつかの兆候がこの兆候の後ろに隠れていることは、しばしば認識されません。 ここではほんの少しだけ言及します。 第一に、これらは完全なタイプのタスクであり、個々の個人のゲノムの部分的な解読ではありません。 そのような問題の解決が関連分野で革命を引き起こすことは明らかです。
たとえば、ゲノムの完全な解読は医学にあります。 おそらく、これらの革命の過程はスティーブ・ジョブズが望んだほど速くはありませんが、それにもかかわらず、これらの革命は避けられません。 サンプルの処理が有名な式BIG DATA(N = ALL)に置き換えられる別のタイプのタスクは、予測などの目的で、同じタイプの利用可能なすべてのデータの処理に関連付けられています。
ここで、得られた結果の革命は、ある程度は残っていますが、やや衰退しています。 たとえば、アメリカの大統領選挙の前夜にギャラップ研究所の選択的な投票の代わりに、すべての米国の有権者の合計投票が行われる場合、予測の精度は向上しますが、確かに有意ではありません。 タスクの3番目のタイプは特に興味深いものです。 これは、構造化されていないデータの全体的な分析です。 このような弱い構造化の最も単純なオプションは、断片化された構造化です。 世界中のネットワークに含まれるさまざまな種類のアンケートに基づいた特定のトピックに関する心理学的研究の結果を含むデータの例によって、断片化された構造性を説明しましょう。 ここで発生する知識を抽出する問題は基本的なものであるため、特にそれについて詳しく説明する必要があります。
ご存知のように、元々は西洋式で、現在はグローバルな現代科学は、新しいオブジェクトの認識に基づいて生まれました-「オブジェクト記号」タイプの表[2]。 知識を抽出するための不十分な構造のデータの分析は、そのようなテーブルの分析に直接還元することはできません。 しかし、近い将来、新しい基礎科学を作成することは期待されていないという事実を考えると、唯一の方法は、この方法またはそのような非表形式データを表形式に減らすことです。 もちろん、これはBIG DATA理論家によってある程度認識されており、主要な論文で「データが多いほど精度が低い」という表現を見つけます。 したがって、BIG DATAは巨大なパノラマを描画しますが、このパノラマは霧のかかったガラスを通して見ることができます。 言い換えれば、ハイゼンベルクの不確実性の関係の特定の情報類似物があります。 ビッグデータ革命は因果関係の確立を相関の単純な計算に置き換えるという専門家の楽観的な主張は二重に間違っています。
まず、科学は、実際には、「なぜ」、つまり因果関係の質問に答えるタスクを設定することはありません。「自然の法則」に基づいて、「そうであれば、そうであれば」相関。
第二に、すべてのデータについて推定された相関は、どれほど巨大なNであっても、データの精度が避けられないため、実際の関係を弱く反映する場合があります。 これには2つの問題があります。 1つ目は、構造化されていないデータを集約する際の精度の損失を最小限に抑えることです。2つ目は、これらの不正確なデータから知識を抽出する効率を高めることです。
最初の問題から始めましょう。 「オブジェクト属性」テーブルの性質を考慮すると、最初に、特定の「オブジェクト」に関連付けられている各ルーブリックを使用して、データの特定のルーブリケーションを実行する必要があります。 これらの見出しの内容は異なるボリュームと文字を持っている場合がありますが、それぞれがこの特定の「オブジェクト」に起因するデータに固有の品質を持っている必要があります。 多くの場合、この一次ルーブリケーションと一次オブジェクトに加えて、二次内部ルーブリック、したがって二次オブジェクトを導入する必要があることが判明しています。 ここでのプレゼンテーションを複雑にしないために、いくつかの二次的オブジェクト、構造的オブジェクトに基づく合成の頻繁に生じる必要性を省略します。 上記の心理学的研究の例で言われたことを説明しましょう。 ここの主要な見出しには、アンケートに記入された個別のオブジェクトが機能するため、個々の研究のデータ-アンケートが含まれます。 次に、症状の問題に移ります。 私たちの意見では、ここでの多くは、データが属する領域の詳細と研究者が直面しているタスクによって決定されます。 したがって、たとえば、心理学の研究では、通常、主要なオブジェクトのいくつかの不可欠な特徴を構築する必要があり、これらのオブジェクト全体またはそれらのクラスターの一部の平均は、望ましい「知識」であることが判明します。
2番目の問題に関しては、大きなNは信頼できる決定の採用を促進する要因ですが、多くのタスクでのデータの不正確さは、Nよりもはるかに速い速度で成長しているため、今日のデータマイニングが提供できるより強力な意思決定アルゴリズムを開発する必要があることを示しています。
私たちの意見では、緩やかに構造化されたビッグデータに関連付けられているこの3番目のタイプのタスクは、本質的にBIG DATAとのみ呼ばれるべきです。なぜなら、データ処理で質的に新しいものを作成する必要が生じ、コンピューターの能力を高めるだけではないからです。
文学
1.ビクターマイヤーシェーンベルガー、ケネスクーキー。 ビッグデータ。 Mann、Ivanov、Ferber、2013年、私たちの生き方、働き方、考え方を変える革命。
2.ミシェル・フーコー。 言葉ともの。 人文科学考古学、モスクワ:「進歩」、1977年。>