データサイエンティストの職業のしくみ

IaaSプロバイダーのさまざまなサービスの最適化における私たち自身の経験に関するストーリーに加えて西洋の経験も分析します。 プロジェクト管理から、他のIT企業が語るテクノロジーケースまで。



今日、私たちはデータを使った直接作業に関連する職業を見ることにし、ロチェスター大学で「データサイエンティスト」として働いているPhilipp Guoのメモに注目しました。





/写真: Jer Thorp / CC



フィリップは、2012年にトピック「 データを操作するためのソフトウェア 」に関する博士論文に取り組んでいる間に、いくつかのテーマツールを開発しました。



その瞬間から、「 データサイエンス 」の概念は特定の職業の一般に受け入れられた名前になり、世界中の高等教育機関はこの方向をカリキュラムに取り入れました。



フィリップの経験により、この分野に真剣に取り組みたいすべての人を待ち受けている困難について話すことができます。



仕組み-データ収集



「データサイエンティスト」のように感じるために、多くの公開されているソースを使用できます。 たとえば、政府や企業が公開しているオープン統計を使用して、オープンAPIを見つけて、お気に入りのソーシャルネットワークからデータをダウンロードして実験し、さらに特殊なソフトウェアを使用して自分でデータセットを生成します。



データの操作はマルチステッププロセスであり、テクニックを注意深く順守する必要があります。 最も基本的なレベルである、すべてが始まるデータ収集でさえ、収集されたデータの質が低いために、さらなる分析を不可能にする可能性のある明らかな困難と潜在的なエラーに満ちています。 ここでは、ソース自体の側でデータの品質を検証し、それらが元々どのように取得され体系化されたかを理解する必要があります。



この段階から次のようになります-データストレージ。 もちろん、ここでの問題は、どのバージョンのExcelを選択するかではなく、さらに詳細に分析される関連データを含む何千ものファイルをグループ化および整理する方法です。



大量のデータの場合、予算がそれほど割り当てられていない個々の実験について話している場合は、クラウドITインフラストラクチャの使用を検討することをお勧めします。 これらの資金をあなたの鉄の購入に使うのはおかしいでしょう。将来的にはそれも売らなければなりません。



データ処理



さまざまなデータ分析タスクでは、特定の形式および形式で情報を提示する必要があります。 原則として、追加の処理を行わずにすぐに分析できる既製のデータセットは受け取りません。



この段階で、セマンティックエラーを修正し、フォーマットを修正する必要が生じます。 ここでは、 プロファイルソフトウェアが便利です。これは、多くの日常的なタスクを自動化するのに役立ちます。



作業フォームにデータを取り込むプロセスの一部として、再びその構造を分析し、研究のために提出するのが理にかなっている仮説に関する追加の洞察を得ることができます。



もちろん、このステップでは生産性が全般的に低下しますが、この作業は必須と見なされる必要があります。 それなしでは、データを分析することは非常に難しく、その品質は非常に簡単に批判されます。



データ分析



ここでは、データセットの解釈を担当するアルゴリズムとプログラムに直接取り組むことについて話します。 便宜上、スクリプトはPython、Perl、R、およびMATLABを使用して記述されたスクリプトと呼ばれます。



データ分析のサイクル全体を理解する必要があります。これは、最初の結果が得られるまでスクリプトを準備および編集し、それらを解釈してから、スクリプトのプラクティスを調整することから成ります。



計画どおりに動作しない可能性があることから、時間コストとさまざまな障害に注目する価値があります。 大量の処理データとコンピューティングリソースの非効率的な使用により、膨大な時間を費やすことができます。 たとえば、リソースのスケーリングが非常に難しいホームコンピューターのみを使用します。



また、スクリプトに埋め込まれたデータ分析アルゴリズムにも時間がかかる場合があります。 このためには、試運転を実行し、プロセスの進行状況を分析し、迅速に調整する必要があります。 同様に、障害の可能性に注意する必要があります。



入力データのさまざまなパラメーターと機能を考慮して分析を実行してください。 このプロセスでは、これらのパラメーターを変更する一連の実験と、処理アルゴリズム自体を調整する追加の反復が必要になる場合があります。




結論



最初の3つのステップの結果、特定の結果が得られます。 それらはもはや生ではなく、結論を引き出すことができます。 これを行うには、詳細なメモを作成して同僚に提示することをお勧めします。



このアプローチは、特定のトピックで作業の非常に早い段階で得ようと計画したものに結果を関連付けるのに役立ちます。 このような反射により、仮説の進化を追跡でき、データを使用した追加の実験につながる場合があります。 結果を同僚に視覚的に提示することも、これに貢献できます。



他の科学者による同様の研究で得られた結果との比較は、潜在的なエラーを伴う作業を行い、前のステップの1つに戻り、その後、研究結果の処理段階に進むのに役立ちます。



プレゼンテーション



口頭発表、インフォグラフィック、およびこれらすべての要素を聴衆の前でまとめることができる古典的な発表に加えて、研究プロジェクトを完了する他の方法があります。 データ分析に関する多くの作業の結果は、ドキュメントと説明ノートを備えたプログラムとアルゴリズムです。



このフォームにより、専門職の同僚の結果を迅速に再現し、データ分析の領域を前進させることができます。 これを行うには、明確なドキュメントなしでスクリプトを操作する際に専門家コミュニティを厄介な立場に置かないように、ソフトウェア開発に精通している必要があります。



PS Philippe Guoが推奨する追加の読み物



All Articles