データサイエンスに関する質問

こんにちは、Habr!



MLClassを再起動しました -データサイエンス愛好家のロシア初のコミュニティ



この点に関して、 あなたの個人的なビッグデータのコースがこの記事で約束しているように、私はデータサイエンスビッグデータに興味のある人々に生じる最もよくある質問への回答を投稿します。 回答は、 Kaggleの受賞者 、ビッグデータソリューションを実装している多くの企業の従業員、およびデータサイエンスが何であるかを知っているすべての人、最高のデータ分析の実践者によって与えられます。 ロシア(およびCIS諸国)でますます多くの人々がデータ分析に関心を持ち、ますます多くの競争やハッカソンが行われていることは注目に値します。 ただし、このトピックについてはまだ多くの神話が残っているので、この記事では説明しません。



そこで、私は約100の最も一般的な質問を取り上げ、それらから最も議論された質問を特定し、質問がもうないようにそれぞれの質問にさらに詳しくコメントしました!



機械学習タスクの解決をすばやく開始するにはどうすればよいですか?



もちろん、この質問に対する答えは、問題を解決しようとしている人の訓練に大きく依存します。 しかし、一般に、統計、常識、数学的思考の知識がほとんどない人にとっては、実践的な演習からすぐに始める価値があります。 そのため、 Courtra.org のAndrew Ngコースをすばやく受講すること、およびサイト自体で十分に詳細に分解されているTitanic:Disaster Learning from Bags Meets Bags of Popcornなどのkaggle.comの古典的なタスクを分解することをお勧めします。ソリューションはほとんどExcelで記述されているため、エントリのしきい値は最小限に抑えられます。



どこで学習を始めますか?



まず、Data Scientistの実際の仕事がどのようなものかを理解する必要があります。 機械学習は無期限に学習できますが、ほとんどの作業が日常的なものである場合のポイントは何ですか? したがって、無駄な時間を無駄にせず、必要なことを確認するために、まず、Kaggleではなく現実世界ですべてが実際にどのように配置されているか、および準備が必要なものに慣れる必要があります。 このために、一連の記事が一度に書かれました。





数学を学ぶには?



データ分析の研究を開始する多くの人は、数学的思考の欠如に直面しています。 実際、すべてのアルゴリズムを理解し、データを適切に処理するには、判断を厳密に行う必要があります。 したがって、 MLClassコミュニティのメンバーは、データサイエンスに最も関連性のある簡単なコースから始める必要があることに同意しました。





もちろん、これらの本は数学のすべての分野に存在するわけではありませんが、すでに問題の解決を開始するには十分です。 また、Habréのほとんどの読者はすでに数学の最低限の知識しか持っていないことを心に留めておく価値があります。したがって、これらの本は確かに十分です。



Kaggleで定期的に勝つために何が必要ですか?



よくある質問の1つ。 この質問に対する回答は、 Kaggleによると、現在、世界最高のデータサイエンスのトップ5にいる Stanislav Semenovが回答しました



奇妙なことですが、それでもこの問題を強く決定するのは経験です...データ分析のさまざまな問題を解決し、さまざまな方法や手法を試し、すべての数学的な基礎を研究すればするほど、新しいタスクごとに簡単になります。 私は個人的に、以前の問題と競合の解決策を注意深く研究することをお勧めします (たとえば、 ここここ )。 結局、おそらくいくつかの同様の問題が以前に解決されています。 既に何かをうまく実装している人から多くを学ぶことができます。



これは、データサイエンスが主に実用的な科学であり、ある意味でスポーツに似ていることを再度確認しています。 定期的にスキルを練習し、改善する必要があります。



さまざまな専門レベルで必要なスキルは何ですか?



すべてが最終的に仕事の性質(雇用主を含む)によって決定されるため、この質問への答えは明らかに正確かつ正確ではないことに注意する価値があります。 それにもかかわらず、完全なレベルは次のように条件付きで定義できます。



1. 初心者 。 原則として、データを適切に操作できる必要があります。前処理、クリーニング、機能の強調表示、データのキャスト、比較的言えば「オブジェクト署名」マトリックスへの実行です。 基本的にはすべて黒人の仕事だと言わなければなりませんが、誰もがそれをします。 要約を作成し、仮説を検証するために、単純な分析問題を解決することが重要であることは明らかです。



2. ミドル 。 機械学習を知ることはすでに重要です。 kaggleコンテストでの有用な経験。 数学とアルゴリズムを非常によく理解することが重要です。 実装のタスクははるかに複雑であるため、実用的な経験を持つことが重要です。 また、問題を解決する分野の専門家であることが非常に必要です-特にテレコムなどのニッチなビジネスに関係する場合(たとえば、「laksell」、「sell_aydi」、「market_key」とは何ですか?)



3. シニア 。 ビッグデータを使用した作業-保存方法と処理方法を理解することはすでに重要です。 Hadoopエコシステム、 MapReduceコンピューティングモデル 、およびApache SparkApache Stormなどのフレームワークをユーザーレベルで熟知してください。



4. 詳細設定 。 ここでは、技術的な詳細をすでに理解し、問題を解決するための計画を明確に理解し、タイムラインを評価する必要があります。 原則として、ここでは既に開発者チームをリードする必要があります。 ここでの責任は大きく、機械学習は小さくなりつつありますが、同時に、仕事の結果は会社が獲得したお金の数に直接依存します。 大きな責任があるため、このポジションには大きな需要があります。



繰り返しますが、分割は完全に任意です。



この分野の給与はいくらですか?



質問への答えは、再び、おそらくその人の個人的な資質と、彼が働いている会社に依存します。 一般に、平均値に注目する場合、前の段落に従って、分類はおよそ次のようになります。



1. 初心者-80〜15万ルーブル

2. ミドル -10万から20万ルーブル

3. シニア -15万から25万ルーブル

4. 高度 -200からXXXルーブル



そして、もちろん、この問題に関するコメントで正しく指摘されているように、「地域では、すべてがはるかに控えめです。」



ビッグデータのスペシャリストにとって、典型的な一日はどのようなものですか?



この質問は、主にこの分野でまだ働いていない人にとって興味深いものです。 作業の大部分は毎日発生するルーチンであることに注意してください。 ただし、ルーチンは、データの一貫した正確な作業、さまざまな仮説のテスト、およびデータの視覚化で構成されています。 機械学習タスクは最後の瞬間に解決されます。 それにもかかわらず、議論の参加者のほとんどは、それでも一般に、データ分析プロセスは何らかの形でCRISP-DM(データマイニングの業界標準プロセス)方法論に従属しているという意見を表明しました。











一般的に、もちろん、このプロセスからの逸脱があります。 しかし、データ分析に関与するほとんどすべての人は、何らかの形で図に示されている段階のいずれかに「座っています」。



これらは、最近人々が尋ねているデータ分析に関する最も一般的な質問でした。 ビッグデータデータサイエンス全体に対する関心が日々高まっており、この分野で教育とスキルを身につけている人が増えていることを非常に嬉しく思います。 私はこれにあらゆる方法で貢献する義務を負います。



結論として、この旅の始まりにいるすべての人に成功をお祈りします!



All Articles