職業データサイエンティスト:選択肢を間違えない方法





人は数字で遊ぶのが好きですか、それとも数字で遊ぶのが好きですか? 古典的な中等教育にはおかしなパラドックスがあります。学童は、適用の規則と事例を暗記するように訓練されていますが、学生が規則と例外をよく知っているほど、間違いを犯す機会が多くなります。 古典的なロシア文学のテキストから編まれた口述では、明確な性質のコンマが豊富にあるため、それは設定されていないコンマが間違いであるという考えにつながります。 したがって、有能な作品は、多数のコンマを含むエッセイです。 因果関係の問題ですね。 たぶんあなたが良い作家なら、あなたは明確な性質のコンマをたくさん使いますが、コンマの数があなたを良い作家にするときはそうではありません...



ロシアの古典文学におけるコンマの解釈は、数学的統計の好奇心と理解の欠如に基づいた貧弱なデータ分析の例です。 これらの要因+情報技術分野での開発への情熱的な欲求は、「データサイエンティスト」の専門性を理解する上で重要です。







この投稿は、データサイエンスのスペシャリストであるAirbnbの従業員によるプレゼンテーションに基づいています。



データサイエンティストの職業が世界で最も魅力的で有望な職業の1つである理由については詳しく説明しません。 この方向の欠員の数は指数関数的に増加していることを言及するだけで十分です。マッキンゼーグローバルインスティテュートの推定によると、2018年までにアメリカだけで、統計と機械学習のトレーニングを受けた19万人のデータスペシャリストがさらに必要になります。 マッキンゼーはさらに、何百万人ものマネージャーが基本的なデータスキルのトレーニングを受ける必要があると指摘しました。



これは巨大な市場ですが、ビッグデータの問題とそれらを解決する方法は昨日発生していません。 Airbnbのみで長年の作業で蓄積されたアーカイブデータの量は、数ペタバイトのデータです。 Apache HadoopとHiveに基づいて構築されたストレージを使用して、毎日数十テラバイトの情報が処理されます。 パーソナライズされた検索システムAirbnbについてはすでに説明しました。これは、Storm分散処理システムでリアルタイムに作成されました。 Airbnbの場合、会社を開発するというほぼすべての決定を下すには、ユーザーデータ分析が必要です。 そして、データ科学者の専門家が本当に必要です。



今日、データサイエンスの専門家に対する需要の3分の1しか満たすことができません。 市場が飽和状態にあると、企業にデータマイニングまたは予測分析の分野で有資格者を提供できなくなり、需要と給与の増加につながります。 州立大学と私立大学は、データ専門家のトレーニングプロセスに対応していません。



データサイエンティスト:性格特性







多くの専門大学が「データ科学と管理の科学の修士号」のトレーニングプログラムを提供しています。 専門分野では、数学統計、機械学習、プログラミングの分野で深い知識が必要です。 ただし、実際の問題に直面して、仕事から直接得た経験と比較できるトレーニングはありません。 選択した道が人生で最も簡単ではないことを示すのは、仕事だけです。



データサイエンスに取り組むことは、一般にサイエンスに取り組むことと同じくらい困難です。 通常の科学分野と同様、使用する方法のほとんどは機能しません。 実験室に行って、指をクリックして結果を得ることができません。 システムをより良くする方法、選択を構成および最適化する方法など、多くの興味深い(ちょうど素晴らしい!)ことを思いつきます。 あなたのアイデアの約3分の2は機能しません。 圧倒的に、ほとんどの場合、あなたは失敗します。 そして、このために準備する必要があります。

優れたデータサイエンティストになることは、優れたプログラマーになるのに十分ではありません。 ソフトウェアエンジニアリングよりも統計に精通している必要があります。 有能なデータサイエンティストは有能な統計学者です。 あなたの周りの専門家は他のすべてをよりよく理解しています-これは正常です、あなたは彼らに耳を傾け、あなたの仕事に必要なデータを彼らから受け取ることができるはずです。



データサイエンティストは数学が大好きな人です。 データ分野の専門家を探している雇用主は、まず数学の専門分野に注意を払う必要があります。 あなたは数学を勉強したことがなく、あなたのキャリアを終わらせることを恐れていますか? 別の方法があります-コンピュータサイエンスの研究です。 そして、学術科学で成功することができます。 メンタリティは重要です、わかりますか? あなたは神経科学の専門家になることができ、データを勉強することに決めます-数学は両手を広げて歓迎します。



数学に没頭しても、コンピュータシステムの勉強を止めることはできません。 そうでなければ、教師になるのは簡単です。 これは実際には大きな問題であり、数学者は使用されるデータの規模を理解しておらず、コンピューターデータの構造そのものを理解していないため、将来的にシステムの問題の発生をシミュレートすることはできません。 想定しているように、問題の構造に対応する確率的数学モデルと、分析しようとしている実際のデータとの間には、常にギャップがあります。 統計の収集とは、モデルとデータの間を急ぐことです。 これを深いレベルで理解することは非常に重要であり、数学(およびコンピューターシステム)を数字を落とし、ノブを回して結果を得ることができるマジックボックスとして扱わないでください。



データサイエンティスト:1つになる方法







人は頭に埋め込まれたパターンに従って行動します。 問題を検討するときは、既成の動作で動作します。 データサイエンティストは、最も予期しないパターンを特定することがタスクであるため、ランダム変数と確率モデルを使用します。 そのような専門家を雇い、統計についてあまり知らないことを認めたい場合は、完全に文脈から完全に外れたテストにインタビューする人を提供してください。 文脈から外れた。 そして、あなたは、彼が問題を解決する方法を知らずに問題をどのように扱うかを見るでしょう。 これが作業の本質です。事前に得られた統計についてではなく、ソリューションのコンピューターモデルについてではなく、問題について考えることです。 このようなソリューションは、スペシャリストが複雑なデータを持つ確率モデルを操作する能力を実証します。



したがって、これらすべてを実行する準備ができている、統計を理解する、データ構造とアルゴリズムを理解する、またはモデリングの基礎にあるものを理解する科学者です。 今、あなたは仕事を得ることができます。 しかし、あなたが知らない世界にはまだたくさんのことがあります。それは教科書に載っていないので、理解するのは難しいです。 たとえば、ほとんどのデータアナリストは、ソフトウェア開発におけるチームの動作を理解していません。 奇妙な素材のある環境に触れると、これは非常に怖くて不安になります。 それを認めて最初からやり直すことを卑下することはありません-より経験豊富な開発者の学生になるために。



ソフトウェアプロジェクトがゼロから開発されるのを見るのは、かけがえのない経験です。 実際の環境とやり取りする経験を積むもう1つの方法は、Kaggleプロジェクトに参加することです 。 このリソースは、さまざまな知識分野(マーケティング、金融、銀行、医学、保険、研究)の複雑な問題を解決するために使用されます。 Kaggleは、企業のビジネスタスクを、扱いやすい構造化されたデータセットに変換します。



データサイエンティスト:自分がそうでない人ではない







自分ではない人になろうとしないでください。 まれに、データサイエンティストはデータ分析として認識されます。 アナリストは、「私のデータ分析ツールが質問に答えられない場合、質問は答えられないままです。」と言うかもしれません。 ここでデータベースに質問し、30分以内に戻ってこない場合はキャンセルして次の質問に進みます。



データ科学者は次のように考えています。「データ分析ツールが質問に答えられない場合、より良いツールとデータが必要です。」 この例では、データサイエンティストになる方法について上記のベストを説明します。 科学者は言っていない:私は質問に答えることができない、私は何か他のことをするつもりです。 科学者は引き続き質問について考え、彼がそれに答えることができる方法を見つけます。



All Articles