今日の資料には、講師とのインタビューからの抜粋と、将来のデータスペシャリストが知って必要なことについてのストーリーが含まれています。

データサイエンティスト:アナリスト、数学者、プログラマー
データサイエンティストの職業は、ロシアだけでなく全世界にとっても比較的新しいものです。 もちろん、近年、現代のデータスペシャリストの専門分野のすべてのタスクが登場したわけではありません。その一部は、プログラマ、統計学者、ビジネスアナリストによって以前に解決されました。
さらに、データサイエンティストが何を知って何をすべきかという問題は未解決のままです。たとえば、米国統計協会は最近、「データサイエンス」の出現が統計に死をもたらすかどうか(およびこれらの分野がどれだけ密接に関連しているか) について議論しましたそして、ビジネス科学者、データ科学者、データ分析者、統計学者の立場で働く人々には、共通点があります。
もちろん、多くの異なる用語と役職が混乱を引き起こします。 たとえば、Visa、Microsoft、eBay、NBCで分析の方向性を開発した起業家で研究者のVincent Granvilleは、人工知能や予測などの分野から、データサイエンスのトピックと何らかの形で交差する16の異なる分野と専門職を特定していますアクチュアリー(保険の場合)やクォンタム(高頻度の取引の場合)などの職業へのモデリング。 一方では、そのような多様性は初心者を混乱させる可能性がありますが、他方では、データサイエンスの将来の専門家が仕事なしでは絶対に留まらないことは明らかです。
この投稿またはその投稿がどのように呼び出されるかに関係なく、データスペシャリストは一度に複数の分野の知識を持つことが期待されます。 最も重要なものの中で、Andrei SozykinはITMO大学での講演で次のように述べています。
- 数学、応用統計学、確率論の知識
- (特にPythonで)プログラムし、データ分析のためにライブラリを操作する機能
- 関連する機械学習方法の理解(ディープラーニング以上のものを含む)
この領域に「参加」するために、Andrei Sozykinは特に次のコースを推奨しています。
- 機械学習 (Coursera、Andrew Eunによるコース)
- 機械学習のためのニューラルネットワーク (Coursera、Jeffrey Hintonによるコース)
- データアナリスト (Udacity、Facebookと共同で準備されたコース)
- 機械学習エンジニア (Udacity、Kaggleと共同で準備されたコース)
また、最近のData Science Digestもお勧めします。
Andrey Sozykinによると、特に統計やITに偏りがある専門分野ですでに勉強している場合は、約1年で理論を習得できます。 医学または自然科学の背景、銀行部門での実務経験、保険も非常に役立ちます。
アンドレイは、将来の専門家が基礎的な工学知識だけでなく、作業が進む主題分野を理解することも重要であると強調しています。 結局、ビッグデータを扱う大企業が現在直面している問題の1つは、実際に研究結果を効果的に適用できないことです。
もちろん、このような知識のセットを持つ人はまれです。 したがって、データサイエンスは、原則として、単一の分野ではなく、「チーム」です。
これは基本的に学際的な方向です。 [...]誰かがプログラミングに優れていて、非常に高いレベルの誰かが数学を知っていて、誰かが同じ銀行を理解しているとしましょう
-アンドレイ・ソジキン
分析的都市主義
このような学際的アプローチの珍しい例は、ビッグデータおよびデータ科学のスペシャリストであるクラウディオシルバ、ニューヨーク工科大学工科大学および都市研究および進歩センターの教授の仕事です。 2015年、彼は最初にITMO大学を訪問し、データサイエンスと都市研究との関係についてインタビューを行いました。
クラウディオは、都市で生成された情報を「無駄のない生産」と認識しています。多くの都市サービスや企業の仕事の過程で作成されたビッグデータは、都市に良いサービスを提供できます。 たとえば、ニューヨークのデータスペシャリストは、都市鉄道のエンジニアがニューヨークのタクシーの動きに関する情報を効率的に使用できるようにする製品を開発しました。
都市管理者、エンジニア、建築家によって下されたすべての決定がデータの論理に従うことは、私たちにとって重要です。 市がどのように発展すべきかをより広く見る機会があり、それを使用する必要があります
-クラウディオ・シルバ
Andrei Sozykinによると、データサイエンスの分野を開発する主な方向性は、学習を加速し、より複雑で正確な学習アルゴリズムを作成し、ネットワークを構築するためのハードウェアの開発です。 同様に重要なタスク-ネットワークの「考え方」をよりよく理解する方法を学ぶことは、人間の生活に直接関係する分野のデータサイエンスの専門家の開発がどの程度広く適用されるかに依存します。
私たちにとって、それは[ネットワーク]いわゆるブラックボックスモードで動作します-「ブラックボックス」。 私たちは彼女の中で何が起こっているのか、そしてなぜ彼女がそのような選択肢を提供するのか理解していません。 医学では、これは受け入れられません。この分野では、各アクションを明確に説明し、正当化する必要があるためです。
—アンドレイ・ソジキン
ITMO大学では、特にデータサイエンスの方向での作業は、ハイテクコンピューターテクノロジー研究所(NII NKT)によって行われていることに注意してください。 研究所の従業員が混雑した場所でイベントを展開するモデルを作成し、群衆の気分を分析し、ソーシャルネットワークに従って世論を評価する方法について話しました。
PS今週の水曜日には、すでにアメリカンラピッドシティでスポーツプログラミングのACM ICPC 2017世界選手権の決勝が開催されます(ITMO大学は選手権のリーダーの1つです)。 5月24日に開催されるチャンピオンシップのライブブロードキャストをご覧になり、チームをサポートしてください!