今日、QuoraのData Scienceトピックに関する専門家の評価を行い、コミュニティの最も活発なメンバーが議論しているものを確認することにしました。
Quoraでアナリストとして働いているWilliam Chen。 データ科学者]は、彼のツールキットに関する経験を共有しています。 彼は、彼のチームはPythonとSQLを使用していると言います。 他の多くの人も統計パッケージRを使用していますが、QuoraのメインコードはPythonで記述されているため、ウィリアムのアプローチは同僚の作業を大幅に高速化します。
Chenのチームは、定期的に iPython NotebookとJupyterを使用して 、計算結果をキャプチャします。 データ分析には、ほとんどの場合、Pandas、Seaborn、Numpy、およびSciPyパッケージを使用します。 ウィリアムの同僚は、主に開発にSublime Textを使用し、ファイルの同期にUnisonを使用しています。 Quora開発者と同様に、彼のチームはバージョン管理とコード分析にPhabricatorを使用しています。
すべてのデータ科学者は 、R、Matlab、Hadoopを知っている必要があると広く信じられています。 この分野の専門家でミニクリップの従業員であるリカルド・ウラジミロは、そうではないと考えています。 彼の意見では、データの研究に真に没頭するためには、統計と確率理論に精通し、実験を行い、仮説をテストし、「ビッグデータ」を処理できるプログラミング言語を少なくとも1つ知っている必要があります。
リカルドは、分析のデータがどこから来るのか、知識の分野自体を理解する必要があると付け加えています。 さらに、まさに「データサイエンス」という名前は、専門家がデータの保存、管理、処理、および送信の方法に関する知識によって妨げられないことを示唆しています。 個人的な資質の中で、彼は新しい知識への欲求を区別します。それは、アルゴリズム、プログラミング言語、またはビジネスコミュニケーションスキルです。
データサイエンティストは 、プログラミングスキルなしではできません 。
「望みの結果を達成する代わりに、常に自分自身を制限します。 あなたはあなたの快適ゾーンを離れた場合にのみ成長することができます。 それに対処する。 プログラミングはそれほど複雑なものではありません。」
ビッグデータの分野で働いており、たとえば動的価格設定の問題を解決したい場合は、経済学、計量経済学、金融、統計学、または工業工学の少なくとも1つの分野の専門家でなければなりません。 Uberのシニアアナリスト、Laszlo Korsos 氏はそう述べています。 ウィリアム・チェンは、プログラミングのスキルを持つことは大きな利点になると付け加えています。
プログラミングスキルが低いと思う場合は、まだチャンスがあることに注意してください。 IBM Watson HealthのPaul DeVosは、分析に焦点を合わせて欠員に注意することを推奨しています。 このようなポジションの要件には、通常、SQL、Excel、SAS、およびSPSSのスキルが示されています。 PythonのRパッケージまたは分析ツール(Numpy、Pandas、Scipy、Scikit Learn、Seaborn、Plotly、Matplotlib)の使用方法を知っている場合。 SPSSやExcelよりも少し複雑ですが、プログラミングの経験がなくても十分にマスターできます。
ジョーブリッツスタインが書いているように、データサイエンスを探索するときは、練習が最も重要です。 もちろん、ビデオコースを受講すると何かを学ぶことができますが、このアクティビティは受動的です。 実践的なスキルは、実験室での作業と宿題の間にのみ取得されます。 1日中ビデオを見るのは意味がありません。ほとんどの場合、1時間の講義に耐えることができます。
その他の文献については、PandoraリサーチディレクターのMichael Hochster が Scott McCloudのComic Mechanicsを読むことをお勧めします。 彼の意見では、データ分析作業のかなり大きな部分は、漫画のように言葉と写真を使用したコミュニケーションです。 この本は深い推論と多くの例でいっぱいであり、Hochsterによれば、データの視覚化に関する標準的な文献よりも有用で興味深いものになるでしょう。
現在、入札データの専門家は、たとえば、Excelでデータを分析する人と、RまたはPythonでモデルを書く人に分けることができます。 Google、Facebook、Microsoftで働いていたDmitry Korolev( Dima Korolev )は、「ユニバーサルフルスタック開発者」の概念のような普遍的な専門知識を持つ労働者がすぐに需要があると考えています。
Appleの開発者であり、いくつかのITスタートアップの創設者であるShane Ryooが、データサイエンススペシャリストの採用方法について語ります。 まず第一に、人はPython、C / C ++および/またはJavaでうまくプログラムできなければなりません:R、Matlabおよび他の言語の知識はシェーンにとって興味がありません。 候補者はアルゴリズムを作成し、できれば機械学習を理解できる必要があります。 さらに、彼は最尤法、ベイズの定理、ビタビアルゴリズム、および正則化について詳しく説明できるはずです。理想的には、これらのトピックに関する記事を書いてください。
多くの人がこの分野の収益のレベルに興味を持っています。 ポール・デヴォス氏は 、昨年、たとえばダラスでは、平均給与が約13万ドルだったと主張しています。 彼はそのような給料を受け取る3人の専門家に精通しています。 「それぞれに異なる経験があり、それぞれに修士号があります」とポールは言います。
iGraalのデータサイエンティストであるエリアスアボウハイダーは、最も成功している同僚は、特にメディアと連携する効果的なコミュニケーションスキルによって区別されると考えています。 彼は、これは他の、あまり目立たない専門家が悪化していることを意味するものではないことに注意する。
「特に、ビジネスよりも自慢している人がたくさんいるときは苦労します」とエリアスは書いています。 もちろん、複雑な分析問題を解決する経験とスキルは重要な役割を果たします。
データを扱うと、会社のさまざまな部門の人とやり取りする必要があります。 その結果、イベントの中心にいることに気付くため、ビジネスがどの分野で機能するのか、従業員が何をするのか、どのようにそれらとやり取りするのかを理解する必要があります。 したがって、ビッグデータ分野で働くことは、近隣の活動分野の専門家やより多くのキャリアの機会に対して明確な利点をもたらします。