ビッグデータコース:3か月間の基本的な知識と、それが必要な理由





ビッグデータの学生は月に7万ルーブルを受け取り、3〜4年の経験を持つスペシャリスト-月に25万ルーブルを受け取ります。 たとえば、小売店のオファーをパーソナライズしたり、ローン申請のために個人のソーシャルネットワークを検索したり、訪問したサイトのリストを使用して古い加入者の新しいSIMカードを計算したりできます。



私たちは、「水」、マーケティング、エッジファイルなしで、ハードコアのみのプロのビッグデータコースを作成することにしました。 彼らは7つの大企業(SberbankとOracleを含む)の実務家を招待し、実際には、フルレングスのハッカソンを手配しました。 最近、プログラムで公開日があり、実務者にロシアのビッグデータとは何か、企業が実際にビッグデータをどのように使用しているかを直接尋ねました。 以下がその答えです。



ズベルバンク



ロシアのSberbankのテクノロジー調査部長であるEkaterina Frolovichevaは、ビッグデータは優れた優れたマーケティングであり、昨日、昨日、2、3年前ではなく、多くの分野から形成された用語であると述べました。 機械学習、データマイニング-これらすべてを組み合わせて、単に問題を解決するために使用します。



古典的な分析とビッグデータの間の細かな境界線はどこにありますか? 測定された行数を持つ通常のテーブルにデータを適合させ、そのための集計クエリを作成できる場合、これは古典的な分析です。 しかし、多様な情報源を取り、それらをさまざまなパラメーターに従ってリアルタイムで調べる場合、これがビッグデータです。



顧客にとって明らかなことは、大量のパーソナライズと、二次販売数の増加に役立つすべてです。 Sberbankのアクティブなカード所有者-5000万人。これらは単にカードを持っている人ではなく、使う人です。 関心のあるベクトル、パラメータのセット、記号、それらを認識するためのID、それらが何らかの記録システムのどこかに書き込まれていることによってそれらを識別しようとする方法-これは克服する必要がある最初のスライスです。 そして、ユーザーが応答するオファーをリアルタイムで確実に受け取る方法-これらはまさにあなたが焦点を当てるべきタスクです。 コンプライアンスの作業と不良資産を説明するこれらのケースは、開示したくありません。 これらは一般的な知識の質問ではありません。



労働市場



Superjobの研究責任者であるPavel Lebedevは、すぐにお金と統計から始めました。 ビッグデータの公開スピーチの時点で、統計には、トピックに関する直接の約200の求人と、データサイエンス/データマイニングに関する80の求人が含まれていました。 6つのロシアの大企業は常にスペシャリストを探しており、残りは時折です。 すべてのビッグデータ専門家のほとんどは、通信、銀行、大規模な小売業で必要です。 さらに、これらの場所で仕事をするためには、一般的なITの背景(少しの数学、少しのSQL)で集中的な専門コースを1〜2か月受講するだけで十分です。



通常、ビジネスアナリストと機械学習エンジニアが必要です。 データベースアーキテクトを探すこともあります。 一般的に、各雇用者は独自の方法でビッグデータを理解しており、これまでのところ、たとえばC ++開発者に関する一般的な基準はありません。



そのような人の仕事には何が含まれていますか? 原則として、彼は最初にデータ収集プロセスを再構築し、次にその分析プロセスを再構築する必要があります。 分析、仮説検定など 次に、ソリューションを企業で直接ビジネスプロセスに実装します。



最初の給与の範囲は、1か月あたり7万から8万ルーブルです。 これは初級レベルであり、実務経験やプログラミング言語の深い知識はありません。 原則として、これらは大学の卒業生です。 大学はSQLクエリの基本的な知識を提供し、移動平均を構築するときに異常値を削除することを教えられたと想定されています。



1か月あたり最大10万から12万ルーブルの次の範囲は、さまざまな統計ツールを使用したより多くの実践的な知識を意味します。 ほとんどの場合、SPSS、SAS Data Miner、Tableauなど。 特定の何かをすることが重要である理由を他の人に証明するために、データを視覚化できる必要があります。 簡単に言えば、投資家の会議に出席し、あなたがそこに着いたものを説明する必要がありますが、鳥の言葉ではありません。



3番目の範囲-月に約18万ルーブルまで-プログラミング要件があります。 最も一般的に言及されているスクリプト言語はPythonなどで、すでに2年の経験、機械学習の経験、Hadoopの使用などがあります。 しかし、最高給-1か月あたり最大25万ルーブル-は、非常に高い資格を持っている人々です。 それは、市場で特定の何かを実装した経験、学術的な実装、およびそれらの開発によって決定されます。 上記は、給与が高い場合にのみ排他的ですが、適切な資格を持った人々が全国に数十人または数人います。



Sberbankは次のことを明確にしている。標準は年間150〜300万ルーブルです。 そして、はい、Sberbankは彼らの仕事に最も近いコースから少なくとも数人の人々を連れて行くことを期待しています(しかし、それについては以下でさらに)。



MTS



エキスパート-Vitaliy Saginovは、ビッグデータをMTSに送信する責任があります。



「1990年代初頭、2人の数学者が、回帰分析法を使用することで、銀行のクライアントが時間通りに支払うか遅延するかをかなりの確率で予測できるようになるという結論に達しました。 彼らはマンハッタンの至る所でこれを回り、シティと他のすべての人に提供した。 彼らは言われた:「いや、みんな。 あなたは何ですか? ここには、生徒の色によって3か月目、9か月目、12か月目の遅れを判断できるクライアントと連絡を取る専門家がいます。 その結果、彼らはバージニア州でSignetと呼ばれる小さな地方銀行を見つけました。 ローンポートフォリオの質は、実験を始める前の元の価値から倍増しました。 次の10年間で、この銀行のリテールビジネスは、現在のキャピタルワンと呼ばれる別の会社に移管されました。この会社は、私の意見では、約2,000万、約17〜18 10億ドルのクライアントマネー。 実際、この会社はデータとその処理をビジネス戦略とビジネスモデルの中核に置いています。」


Vitalyは、データは資産であると言います。 しかし、かつて2000年代までオンラインビジネスの市場はなかったため、この資産の市場はありません。 欧州と米国でも同じことが言えます。現在は市場がまったくないため、実際の投資のほとんどは、プロセスを最適化するために社内のデータを処理するために費やされます。 通常、利益を生むものは最初に実験的に確立され、次にその下にハードウェアとソフトウェアのアーキテクチャが構築されます。 片方の会社だけが逆方向に進むことを許可しました-British Telecom-しかし、ビッグデータは、必要なものを完全に知っていた元ITディレクターによって行われました。



Vitaliyは、ビッグデータが15〜20年後に新しいインターネットを生み出すと信じており、現在そのソースにいます。 具体的には、方向性の開発の主な問題は、正確な法的手続きの欠如、多くの承認、および論争の多い問題です。



オラクル



オラクルのビッグデータテクノロジーのセールスリーダーであるスヴェトラーナアルキプキナは、ビッグデータに関する最初のケースグループは顧客に関連するものだと言います。娘は妊娠しています。



ビッグデータに関連付けられているタスクの2番目のグループは最適化です。つまり、非常に大量のデータのモデリングと使用に関連するすべてのものです。



3番目のグループは、詐欺に関連するすべてのタスクです。 ここでは、非構造化情報の分析のための画像のビデオ認識のためのさまざまなソリューションが使用されます。 これは、特に銀行や通信会社にとって非常に大きなタスクのスタックです。



そして、最新の課題は異業種間です。 ほとんどの場合、従来のリレーショナルデータベースとは関係のないレベルのデータベースを操作することについて疑問が生じます。



アクロニス



アクロニス製品開発部長のアレクセイ・ルスリャコフ氏は、ビッグデータの2つの主な問題は、このデータの保存方法とその処理方法にあると述べました。



5〜6年前のどこかで、クラウドバックアップストレージサービスを開始しました。これにより、ユーザーはラップトップ、ワークステーション、サーバーをバックアップし、データセンターのクラウドに保存できました。 最初は、フランスのボストンにある米国のデータセンターでした。 現在、ロシアにはDCがあります。 NetapまたはEMCのデバイスでクラウドバックアップのストレージを編成した場合、ギガバイトのストレージのコストは非常に高くなり、このイベントは商業的に採算が取れない可能性が高いでしょう。 グーグルやアマゾンなどの巨人の出現により、競合することは困難になります。なぜなら、それらの巨大な容量のおかげで、ギガバイトのデータのコストはかなり安いからです。 したがって、私たちのタスクは、効率的で安価なストレージシステムを開発することでした。



「遅延データ-一度書き込まれ、その後定期的に読み取られる、または削除されるデータに関するものでした。 これは、常時アクセスが必要なデータではなく、高いIOPSが必要なデータでもありません。 この「冷たい情報」のために、ビッグデータを保存する独自の技術を開発しました。 私たちの前に出てきた別の質問は、保存されたデータをカタログ化し、インデックスを作成し、ユーザーに簡単な検索を提供する方法です。 実際、データが分散して保存され、ある程度の冗長性があるため、タスクは簡単ではありません。 並行して、データ階層化を提供する必要があります。そのため、頻繁にアクセスされる情報は高価で高速なメディアに保存され、残りは低速で安価なメディアに保存されます。



»現在取り組んでいる最も興味深いタスクの1つは、データ重複排除です。 ビッグデータについて話すとき、データを保存するノードの分布と、この分布が与えられた場合に重複排除を効果的にする方法について疑問が生じます。 ノード間でデータを正しく同期する必要があり、これは多くの作業です。



CondeNast Russiaのニューメディア開発ディレクターであるLouise Iznaurovaは、ジャーナリズムのビッグデータが分野を大きく変えることができると付け加えました。



コース



実際、ご覧のとおり、ビッグデータ市場では資格のあるスペシャリストがひどく不足しています。 したがって、この問題を部分的に解決するのは、専門家のビッグデータコースに依存しているこれらの専門家と他の大企業の代表者です。



最初のセットはすでにありました。 4月18日は、この3か月コースの2番目のセットになります。 プログラムには3つの部分が含まれています。 これらは3つの特定のケースで、それぞれ1か月かかり、無限に実用的です。 ケース1は、1か月のDMPシステムの作成です。 ケースNo. 2は、Vkontakteの例に関するソーシャルグラフの分析です。 また、1か月かかります。そのため、チームでビッグデータに関するこのソーシャルグラフのアナライザーを作成する必要があります。 ケース3-推奨システム。 繰り返しになりますが、この物語は非常に理解しやすく、ビジネス側の要求で、多くの人がそれについて話しました-人が望むものを予測する方法。



市場で面白くて要求されるのは理論ではありませんが、実践、したがって、技術専門家、データ処理の専門家、分析は彼が解決するビジネスタスクを理解する必要があり、これに関連する技術スタックはこのビジネスタスクに大きく依存します。 これは、完全に実際のデータを扱うことを意味します。 ウィキペディアから吸い込まれたデータではなく、学術的に25回知られているデータではなく、ビジネスからのデータであり、ビジネスパートナーはそれを私たちと共有しています。



タイミングは残酷です。 1か月でDMPシステムをゼロから構築するのは困難です。 私たちはこれを理解しており、これはコースが非常に激しく、多くの集中力が必要であることを意味します。 それは仕事と組み合わせることができますが、仕事に加えてあなたがあなたの人生でこのコースを持っている場合、他のすべてはなくなります。


-DCAアライアンスの創設者、コンスタンティンクルグロフ



次のように配置-週3回:火曜日、木曜日の午後7時から10時、土曜日の午後4時から7時



毎週、特定の何かをコミットする必要があります。 ワンパス-あなたはコースを取りません。 理論が必要な場合は、Kurserにアクセスしてください。ここでは練習のみを行います。 仕事はチームであり、チームは常に混合されます。



もう1つの話はDCAコンテストです。このコンテストでは、優れたアルゴリズムを作成すれば、最初の1か月でトレーニングの費用の25%からお金を返すことができます。 同様の計画の達成は、すべてのタスクにあります。



詳細とプログラムへのリンクはこちらです



卒業生の3分の1は、ビッグデータの分析、モデルのデバッグ、仮説のテスト、データの収集(販売会社や詐欺パターンの特定など)にあらゆる種類のツールを使用できるアナリストであり、残りの3分の2は展開可能な開発者であると予想されますビッグデータと自分の手で作業するためのツールは、作業システムを作成できます(つまり、入力時には、建築家や高度なレベルのアプリケーションプログラマのレベルの人でなければなりません)。



All Articles