☝🏻 🔠 💐 ビッグデータプロジェクトの開始：6つの重要な質問 🌧️ 🐭 👴🏽

彼らの活動におけるデータの使用は多くの人にとって長い間明らかであり、潜在的な利点は明らかであるが、どこから着手し、どこかですでに到達しているこの未来への移行方法を明確にしないこともある。

ビッグデータ領域または単なるプロジェクトの開始に関連して、頭には頭の中にたくさんの質問があり、答えを求めています。

1.何らかのデータがあります。 それらで何ができますか？

もちろん、最初はプロジェクトの目標から始める価値があり、その目標は現在のビジネスタスクから変換されます。大まかに言えば、データを使用すると、最適化により収益を増やしたり、コストを削減したりできます。たとえば、人々をより効率的に雇うことができます。これに費やすお金と時間を減らします。従業員の離職率が低下します。または、平均的な顧客チェックを増やすと同時に、本当に重要で必要なものを提供する推奨システムを導入します。たとえば、ロシア最大の電気通信会社-MTS、MegaFon、Beeline は、個別のアプローチを使用して関税を決定します。自社の加入者データを多数のパラメーターについて分析することにより、企業は顧客に個別の料金プランを提供し、その結果、加入者1人あたりの利益が増加します。

2.私は自分の欲しいものを理解しています。 どのデータが必要ですか？

データには、内部データと外部データの2種類があります。戦略的な観点からは、既に持っているデータから始める方が良いでしょう。外部データソースの使用は次のステップであり、既存のデータソースを充実させる可能性が高くなります。これにより、それらに基づいて構築されるモデルの品質を向上させることができます。外部データソースには、クライアントに関する最も重要で関連性の高い情報や、モノのインターネットからのデータを検索できるソーシャルネットワークからのデータが含まれます。2020年までに、IoTを介して数百万のデバイスが接続され、生活のあらゆる領域が改善されます：「スマート」な家から信号機の規制まで。今日、モノのインターネットを使用することは企業にとって大きなメリットです：Appleは、iPhoneからApple Watchまで、すべてのデバイスからデータを絶えず収集し、貴重な情報を受信しています：便利なデザインとインターフェイス、人々がデバイスを使用する頻度などは、常に改善しています製品。

同時に、どの特定のデータが必要かは、仮説を定式化した後に明らかになります。 HRの有効性の改善について話している場合、理論的にこれがどのような影響を与えるかを考える必要があります。例として、従業員の流出を予測する場合、次のような仮説を立てることができます：「退職する予定の人、より頻繁に遅れ始める人」、「退職する予定の人、コンピュータで過ごす時間が少ない人」など。同様のケースが最近Habréで説明されました。

リテールバンキングも鮮明な例です。顧客のクレジットスコアリングのプロセスでは、銀行は顧客についてできるだけ多くのことを知りたいと考えています。ここでは、年齢、収入、および信用履歴がローンデフォルトの確率を定性的に評価するには不十分な場合があります。国（Sberbank、VTB24、Alfa-Bank、Tinkoff）は、特にソーシャルネットワーク上の顧客プロファイルのスコアリングに外部データソースを使用し始めました。

3.データが多かれ少なかれ明確に。 それらを使用するためのアルゴリズムは何ですか？

分析には、記述的、探索的、予測的など、さまざまな種類があります。それぞれがその役割を決定し、組織に価値をもたらすことができます。おそらく最も興味深いのは予測であり、これはしばしば機械学習アルゴリズムの使用に帰着します。

機械学習の本質は次のとおりです。特定の数のオブジェクトに関するデータがあり、それらからの特定の結果を知っているので、それを予測します。同時に、他のオブジェクトのデータがあり、そのデータセットの知識を使用して、アルゴリズムに予測を依頼します。

ほとんどの場合、教師との機械学習には、分類と回帰の2つのタスクがあります。分類の場合、性別、年齢カテゴリ、購入の事実などのカテゴリ変数を予測します。回帰タスクでは、アパートの価値、給与、売り上げなどの量的変数の予測を行います。

現在、最も一般的な回帰および分類アルゴリズムは、勾配ブースティング、ランダムフォレスト、ロジスティック回帰、およびニューラルネットワークです。分類問題を解決する代表的な例であるクレジットスコアリングについては、既に述べました。

回帰について話す場合、そのようなタスクの1つの例は、製品の需要を予測することです。 2016年の第1四半期に、Yandex Data Factoryは、X5 Retail GroupのブランドであるPyaterochkaの割引価格で商品需要の予測モデルを開発し、正常にテストしました。在庫品は会社の総売上高の約3分の1を占めているため、より正確な計画により、過剰在庫の保管、またはその逆の不足によるコストを削減できます。

ラベル付きデータから学習することに加えて、別のタイプのタスクがあります-教師なしで学習します。つまり、ターゲット変数がないデータからモデルを構築します。つまり、クラスタリングなどのマークされていない-集団を類似のグループに分割します。このタスクのビジネス類似物は、個々のオファーを作成するためのユーザーセグメンテーションです。

ただし、2つのポイントがあります。最初：ラベル付きデータ（結果がわかっているデータ）はありません-予測を行う方法はありません。予測がある場合、このビジネスタスクのフレームワーク内でターゲット変数がどのようになるかが難しい場合があります。たとえば、新しいアウトレットの理想的な場所を決定します。「理想」の最も重要な基準は何ですか：収益、地下鉄への近さ、1日あたりの訪問者数。

第二に、モデルの品質は、アルゴリズムの複雑さよりも、データの量により影響されます。

4.約 どのソフトウェアが必要ですか？

まず、オープンソースソリューションを使用する準備ができているか、エンタープライズを使用する準備ができているかを判断する必要があります。オープンソースは無料であるため優れていますが、何かが壊れてもサポートはありません。エンタープライズソリューションはお客様に合わせてカスタマイズすることができ、さらにこの分野の専門家によってサポートされます。たとえば、 QIWI 、Tinkoff、Sberbankは独自にビッグデータクラスターを開発しましたが、他の多くの企業は外部の専門家に助けを求め、ビジネスのターンキーソリューションを開発できます。

第二に、ソフトウェアの選択はデータの量に依存します。大量のデータがある場合、現在の標準は、Hadoopエコシステムのツールを使用することです。Hadoopエコシステムには、分散HDFSデータウェアハウス、HBase列データベース、HiveおよびSpark分析ツールなどがあります。これらのツールは現在、たとえばSberbankによって積極的に使用されています。データがあまりない場合は、スズメの大砲から射撃されます。そのため、従来のリレーショナルデータベースや、たとえばデータサイエンティストが計算のほとんどを実行し、モデルを作成し、データを準備するJupyter Notebookで十分に対応できます。

第三に、ソフトウェアの選択は、企業のニーズにより適したデータ処理のタイプに影響されます。ビッグデータ処理には主に2つのタイプがあります。ストリーミング処理には、最大数秒の間隔でのデータ分析が含まれ、連続データを扱う企業に適しています：eコマース、SMM、小売。毎日1億4千万人以上のユーザーからの3億5千万件以上のツイートがTwitterに投稿されているため、Apache Stormによるストリーミングアプローチを使用してこのような巨大なデータストリームを処理しています。バッチ処理中に、利用可能なすべてのデータの包括的な分析が行われ、計算には1分以上かかり、計算の複雑さは速度を上回ります。

5.そして、「鉄」はどうですか？

Ironは、操作するデータの量と、使用する予定のソフトウェアにも依存します。ビッグデータの分野における現在のソリューションのアイデアは、いわゆる一般的な機器を使用することです。これは、ここではスーパーコンピューターは必要なく、通常のサーバーが必要であることを意味しますが、当然、より強力であるほど優れています。

考慮すべきもう1つのことは、サーバーを購入するか、レンタルするか、クラウドを使用するかです。個人データを扱う場合、答えはほぼ同じです-自分のサーバーを購入する。個人データがない場合、他のオプションは経済的な観点から有益である可能性があります。クラウドの潜在的な利点は、非常に迅速にテストでき、たとえばパイロットが意思決定を続けられるようにすることです。また、クラウドはクラッシュから迅速に回復し、いくつかのキーを押すだけで簡単に拡張できますが、物理サーバーには数か月の計画が必要です。さらに、彼らはスタートアップ向けのグラントプログラムも持っています。

6.私はそれをすべて持っているとします。 どんな人が必要ですか？

データサイエンティスト、データエンジニア、データマネージャーの3つの役割を区別するのが慣例です。最初は、原則として、プログラミング方法を知っており、数学を理解し、機械学習のまさにモデルを構築します。 2番目は、多くの場合、データの収集と前処理、およびソフトウェアの構成に関与します。 3番目は、ビジネスを非常によく理解しており、データを収益化する方法を知っており、自分の言語で問題を他の2人に正しく提示することができます。最初は3つすべてを含めることは贅沢に思えるかもしれませんが、会社にはまだこの専門知識がないため、どのように雇うかは明確ではありません。ライフハッカーにとっての1つは、信頼できる戦闘機をトレーニングに派遣することです。そこで、彼はこの新しく複雑なトピックに完全に没頭することができます。彼が普遍的な兵士である可能性が高いことは明らかですが、初期段階ではこれはプラスです。その結果、このように、検査が内部に表示され、さらに何かが発生した場合に連絡できる人々の連絡先のネットワークが表示されます。

これら6つの質問の周りに、それだけでなく、エグゼクティブ向けビッグデータプログラムがあります。最後に、参加者はビッグデータの分野でプロジェクトを評価するために特別に設計されたテンプレートに記入し、一種のロードマップを受け取ります。プロジェクトのプレゼンテーションで、当社の専門家がフィードバックを行い、戦略の観点から役立つアドバイスを提供します。

ビッグデータプロジェクトの開始：6つの重要な質問

More articles: