シリーズ:ビッグデータ-夢のよう。 第1シリーズ

さまざまな業界の目から見たビッグデータ-これはGrailのもう1つの夢です。 人生では、すべてが正反対です。ビッグデータは完全に新しいタスクであり、停滞したプロジェクトを削減し、非再構築の専門家を解任します。 さまざまな業界での非構造化ビッグデータの実際の適用の実践に関する一連の記事、ビッグネームアナリストおよび社会学者、HiLoad言語学者、トレンドジャーナリスト(TRENDではなくTRENDという言葉)から名付けられたばかりの新しい専門分野の形成、および、私たちは、新しい大きな道がどこに導くべきかについて、実り多い議論を期待しています。



BD(ビッグデータ)のピンクの夢とアイデアは誰にとっても異なります。ベンダーには多くのハードウェアがあり、ソフトウェア開発者には多くの新しいソフトウェアがあり、通信には雲があり、顧客には魔法の杖があります。私のために作られた!」。 満たされていない夢からの悪夢ほど悪い悪はありません。 同時に、ベンダー、ソフトウェア開発者、電気通信などは夢を実現し、BDに幻滅した顧客の新しい夢から花粉を集めるために飛び立ちます。 知識は力であり、その力を活用して、顧客と業界の目と期待に基づいてBDを冷静に見てみましょう。



数年にわたり、私たちは最も「おいしい」BD-非構造化rtBD&A(リアルタイムビッグデータ&アナリティクス)に取り組んできました。 rtBD&Aセグメントでは、「正しい」専門家と多くの人材を必要とする急速に成長または変化する既存の産業が生み出されています。ガートナーは、2018年までに2018年までに米国だけでBDアナリストの市場を推定します。 すでに新たな課題に直面している開業医として、私たちは「それは私たちに起因する」ことを理解しています:そうでなければ、いつものようになります:粗い「ピンクの象」からの夢はすべての結果で「大きな豚」に変わります。



ビッグデータという用語は、わずか5年の歴史を持つ新しい概念として、ビデオ、RTB、社会学、医学、宇宙、金融など、さまざまな分野や業界で積極的に浸透し、使用され始めています。特定の業界の現在の仕事を改善するために、テラバイトと数兆のレコードとどのように勇敢に闘っているのかを誇らしげに教えてくれます。



残念ながら、このアプローチはおそらく、ビッグデータを明るい未来の夢として理解しているクライアントの最大の間違いです。 問題が何であるかを理解してみましょう。 さらに、「ビッグデータの分野」でさまざまなインターネットプロジェクトを作成した20年の経験によって策定されたビジョン(以前は別の名前で呼ばれていました)を策定し、rtBD&Aを重視しました



いくつかの側面における私たちのビジョンは、ビッグデータの通常のVVVテクノロジーテンプレート(ボリューム、多様性、速度)とは大きく異なる場合があります。

1)クライアント側からは、結果(クジラ魚、周期表)のみが表示され、データの海そのものは表示されません。

2)データだけでなく、さまざまなソース、およびソース自体に対する態度の多様性の多様性。

3)人、人のグループ、または国全体のような非常に複雑な「システム」は、個々の世界観、歴史、関係、語彙、語彙とともに、BDのソース「センサー」として機能します。

4)人生はどんなパターンよりも常に広い。



したがって、 まず、「BDは大量のデータである」ことを忘れましょう。 アナリスト(研究者、発明者、および他の「科学者」およびクライアント)は、OLD産業形成の「爆発」を調整するのに十分な「爆発」に十分なデータを必要とします。 すばらしい例:メンデレーエフのデータ量はわかりませんが、100セル未満の「化学元素の周期表」の出力で彼が作成するには十分でした。 これ以上のコメントは不要です-誰もが今、学校で化学を勉強しています。



第二に、分離する必要があります

A)パーソナライズされた「オブジェクト上のマルチデータ」、

B)業界およびオブジェクト周辺のデータの情報フィールド。



タイプAの例:特定のデバイスの特定のブラウザーに「ターゲット」広告を表示するRTBデータ。 あなたの半分がハンドバッグで美しい広告に突っ込んだので、あなたはまだ高い銀行預金の不必要な広告に悩まされていますか? -これがタイプAシステムです-ラップトップでのブラウザの「旅行」はペタバイト単位で保存されており、すでにセックスを変えたとしても、若者のすべての罪を思い出させます。

タイプBの例:ロシアでiPhoneが売り上げを落とすのにどのような問題がありましたか? ルペンは地方選挙でサルコジを回避することができますか?



タイプAは、多くの場合、「関係書類」タイプと呼ばれます。特定の既知のオブジェクト(たとえば、人物、ウォレットアカウント、または電話)があり、そのオブジェクトのデータを「攪拌」すると、関係書類の別のエントリが補充されます。 タイプBの場合、特定のオブジェクトは重要ではありません(海洋には大きな魚がいます)。すべての魚、藻類、プランクトンを含む海洋全体のデータが分析されます。



「ウィンウッド・リードはそれをうまく言った」とホームズは続けた。 -彼は、個人は解決できない謎であると言いますが、全体として、人々は特定の数学的統一を表し、特定の法律の対象となります。 たとえば、個人の行動を予測することは可能ですが、集団全体の行動をより正確に予測することができます。 個人はそれぞれ異なりますが、どのチームでも人間のキャラクターの割合は一定です。」(アーサーコナンドイル、「四人のサイン」)



第三に、構造化データ (たとえば、店での購入のチェック)と構造化されていないデータ(MegaMozgeに関するこの記事も) を区別する必要があります。 もちろん、少なくとも33文字のアルファベット、10個の数字、およびいくつかの句読点のセットの形で、「構造化された」記事のテキストを見つける人が必ずいます。 ナンセンスを学校に送って同じ化学を教えることができます(水の氷の分子が2つの可燃性で揮発性の化学原子「H」と「O」から得られる理由)。



第4に、これは技術主義に近いため、BDはリアルタイムと非リアルタイムに分けることができます 。 繰り返しますが、狂信なしでお願いします。 約2年前、Clouderaの同僚との会話で、彼らがrtBD&Aのいくつかの例を見せたとき、彼らの専門家の1人は、もちろんHadoopはクールであり、1日か2日で脳トモグラフィーを処理することが重要であると言ったが、リアルタイム完全に異なるソリューション。 しかし、それについては別の歌で。



第1シリーズの概要:ビッグデータ-進化ではなく、革命に必要なデータの量。 データは、オブジェクトデータまたは情報フィールド全体であるか、構造化されているかどうかにかかわらず表示できます。一部のタスクでは、リアルタイムに近いモードでのデータ処理が必要です。



次のシリーズ:ビッグデータアナリストは誰ですか? IBMがTwitterデータ分析で10,000人の従業員を訓練する準備ができているのはなぜですか? 非構造化BD分析のユニークなケーススタディ。 すでに「シャンデリアの下」にある産業は何ですか? ビッグデータを処理するにはどのテクノロジーが必要ですか? モトローラ、ノキア、HTCなどの成功した企業が「ダイ」であり、サムスンがアップルとの戦いで生き残るのはなぜですか。 アイデアは今どこで生まれ、誰が思いついたのですか?..



しかし、rtBigData&Aでよくあるように、上記の計画はすべてバックグラウンドにフェードインすることができ、次のシリーズは、この入門資料のコメントで提起されるこれらの問題とタスクの議論に専念します:-)



シリーズ2:ビッグデータはマイナスかプラスか?



All Articles