デヌタサむ゚ンスで最も人気のあるスキル

知識に関しおは、デヌタサむ゚ンスの専門家は、機械孊習、プログラミング、統蚈、数孊、デヌタの芖芚化、コミュニケヌション、ディヌプラヌニングに倚くのこずを期埅しおいたす。 これらの各領域は、研究に利甚できる倚数の蚀語、フレヌムワヌク、技術を網矅しおいたす。 それでは、雇甚䞻が手頃な䟡栌になるために、デヌタの専門家がトレヌニング時間の予算を管理するこずはどのように良いでしょうか



私は珟圚、雇甚者に最も人気のあるスキルを芋぀けるために、求人サむトを泚意深く調べたした。 別の研究の䞀環ずしお、デヌタの操䜜に関連する幅広い分野ず、特定の蚀語ずツヌルの䞡方を怜蚎したした。 玠材に぀いおは、2018幎10月10日珟圚 、 LinkedIn 、 Indeed 、 SimplyHired 、 Monster、 AngelListを参照したした。 以䞋のグラフは、これらの各リ゜ヌスで衚瀺されるデヌタサむ゚ンスゞョブの数を瀺しおいたす。











どのスキルが最も頻繁に蚀及されるかを理解するために、私は倚くの職務蚘述曞ず調査を研究したした。 「管理」などの甚語は、非垞に広範囲の倚様な状況の珟堎で䜿甚されるため、分析には含たれたせんでした。



怜玢は、「デヌタサむ゚ンス」、「キヌワヌド」ずいう甚語に基づいお米囜で実斜されたした。 出力を枛らすために、正確な出珟のみを遞択したした。 䜕らかの方法で、同様の方法により、すべおの結果がデヌタサむ゚ンスに関連し、同じ基準がすべおのク゚リに適甚されるこずが保蚌されたした。



AngelListは、デヌタの操䜜に関連する空垭の総数ではなく、そのような空垭を提䟛しおいる䌚瀟の総数を提䟛したす。 怜玢アルゎリズムは明らかに「OR」原理に基づいお機胜し、「And」モデルに䜕らかの方法で切り替えるこずができないため、このサむトを䞡方の研究から陀倖したした。 「デヌタサむ゚ンティスト」「TensorFlow」の粟神で䜕かを入力するず、AngelListを䜿甚できたす。この堎合、2番目のク゚リの䞀臎は最初のク゚リの䞀臎を意味したす。 ただし、「デヌタサむ゚ンティスト」「react.js」の粟神でキヌワヌドを䜿甚するず、デヌタサむ゚ンスに関連しない空垭が倚くなりたす。



Glassdoorを含む資料も陀倖する必芁がありたした。 このサむトは、26,263件のデヌタ求人に関する情報があるず䞻匵したしたが、実際には最倧900件が衚瀺されたした。さらに、他の倧芏暡サむトの3倍以䞊の求人を収集したこずは非垞に疑わしいようです。



調査の最終段階では、LinkedInで倧きな成果が埗られたキヌワヌドを遞択したした。広範なプロファむルスキルでは400以䞊、プラむベヌトテクノロゞヌでは200以䞊です。 もちろん、いく぀かの重耇したオファヌがありたした。 この段階の結果をGoogleドキュメントに蚘録したした 。



次に、.csvファむルをダりンロヌドし、JupyterLabにアップロヌドし、それぞれの有病率をパヌセンテヌゞで蚈算し、取埗した倀をさたざたなリ゜ヌスで平均したした。 その埌、蚀語ごずの結果を、2017幎前半のGlassdoorのデヌタサむ゚ンスの求人に関する研究で提瀺された結果ず比范したした。 これにKDNuggetsの䜿甚に関する調査からの情報を远加するず、䞀郚のスキルが人気を埗おいる䞀方で、他のスキルは埐々に䟡倀を倱っおいるようです。 しかし、それに぀いおは埌で。



私のKaggleカヌネルには、むンタラクティブなグラフず远加の分析がありたす。 芖芚化には、Plotlyを䜿甚したした。 PlotlyずJupyterLabを組み合わせお䜿甚​​するには、少なくずもこの蚘事の執筆時点で䜕かをプレむする必芁がありたす。手順は、Kaggleカヌネルの最埌ずPlotlyのドキュメントに蚘茉されおいたす 。



幅広いスキル



雇甚䞻が候補者に芋おもらいたい最も人気のある䞀般的なスキルを衚すグラフを次に瀺したす。











結果は、分析ず機械孊習がデヌタサむ゚ンスの専門家の仕事の基瀎を圢成し続けおいるこずを瀺しおいたす。 この専門分野の䞻な目的は、デヌタ配列に基づいお有甚な結論を出すこずです。 機械孊習は、それぞれのむベントの経過を予枬できるシステムを䜜成するこずを目的ずしおおり、倧きな需芁がありたす。



デヌタ凊理には統蚈の知識ずコヌドを曞く胜力が必芁です-驚くべきこずは䜕もありたせん。 さらに、統蚈、数孊、゜フトりェア゚ンゞニアリングは、倧孊でトレヌニングが行われる専門分野であり、リク゚ストの頻床にも圱響を䞎える可胜性がありたす。



興味深いこずに、空垭のほが半数の説明では、コミュニケヌションが蚀及されおいたす。デヌタの専門家は、調査結果を人々に䌝え、チヌムで働く必芁がありたす。



AIずディヌプラヌニングに぀いおの蚀及は、他のク゚リの䞀郚ほど頻繁ではありたせん。 ただし、これらの領域は機械孊習の分岐です。 ディヌプラヌニングは、機械孊習アルゎリズムが以前に䜿甚されおいたタスクでたすたす䜿甚されおいたす。 たずえば、自然蚀語を凊理するずきに発生する問題に最適な機械孊習アルゎリズムは、特にディヌプラヌニングの分野に関連しおいたす。 将来的にはたすたす普及し、機械孊習は深局の同矩語ずしお埐々に認識されるようになるず思いたす。



雇甚䞻によるず、どの特定の゜フトりェア゜リュヌションがデヌタサむ゚ンスの専門家によっお習埗されるべきですか 次のセクションでこの質問に移りたす。



技術的スキル



以䞋は、雇甚䞻によるず、デヌタ凊理の専門家が経隓すべき20の特定の蚀語、ラむブラリ、および技術ツヌルです。











リヌダヌをすばやく芋おみたしょう。











Pythonは、最もリク゚ストの倚いオプションです。 このオヌプン゜ヌス蚀語がプログラマヌの間で非垞に人気があるずいう事実は、倚くの人が指摘しおいたす。 初心者にずっお、これは非垞に䟿利なオプションです。倚くのトレヌニングリ゜ヌスがありたす。 新しいデヌタツヌルの倧郚分は、これず互換性がありたす。 このすべおに基づいお、Pythonはデヌタサむ゚ンスの専門家の䞻芁蚀語ず呌ばれたす。











RはPythonにわずかなマヌゞンを付けたす。 むかしむかし、デヌタサむ゚ンススペシャリストの䞻芁蚀語は圌でした。 圌ぞの積極的な関心が今も続いおいるこずに驚きたした。 この蚀語は統蚈に由来し、したがっお、それを扱う人々の間で非垞に人気がありたす。



ほがすべおの空垭があるため、PythonたたはRの2぀の蚀語のいずれかを知る必芁がありたす。











SQLも非垞に需芁がありたす。 略語は構造化照䌚蚀語Structured Query Languageの略で、この蚀語はリレヌショナルデヌタベヌスず察話するための䞻芁なツヌルです。 デヌタサむ゚ンスコミュニティのSQLはしばしば無芖されたすが、劎働垂堎ぞの参入を蚈画しおいる堎合に流SQLにすべきスキルを指したす。

















次に来るのはHadoopずSparkで 、どちらもApacheのオヌプン゜ヌスツヌルであり、ビッグデヌタで動䜜するように蚭蚈されおいたす。 Mediumに関するチュヌトリアルや蚘事はそれほど倚くありたせん。 PythonたたはRに粟通しおいる人よりも、それらを所有しおいる応募者の数が倧幅に少ないず思いたす。HadoopずSparkの䜿甚方法を知っおいるか、それらを習埗する機䌚がある堎合、これは競合他瀟よりも有利です。

















次はJavaずSASです。 これらの2぀の蚀語が非垞に高く登れるこずに驚いた。 どちらも倧䌁業の発案であり、どちらもある皋床の無料資料です。 ただし、デヌタサむ゚ンスの専門家の間では、JavaもSASも特に重芁ではありたせん。











人気のあるテクノロゞヌのランキングの次は、 Tableauです。 匷力で䜿いやすい分析プラットフォヌムおよび芖芚化ツヌルです。 その人気は着実に高たっおいたす。 Tableauには無料のパブリックバヌゞョンがありたすが、プラむベヌトモヌドでデヌタを操䜜する堎合は、分岐する必芁がありたす。 Tableauを初めお䜿甚する堎合は、短いコヌスを受講するのが理にかなっおいたす。たずえば、UdemyのTableau 10 AZです。 圌らは私に広告の代金を払っおいない、私はこのコヌスを自分でやっただけで、それは非垞に䟿利だず感じた。



以䞋のチャヌトでは、䞀般的な蚀語、フレヌムワヌク、およびデヌタを操䜜するためのその他のツヌルの拡匵リストを芋぀けるこずができたす。











歎史的比范



GlassDoorチヌムは、2017幎1月から7月にかけお、デヌタサむ゚ンスの専門家に最も人気のある 10のスキルに関する調査を公開したした。 以䞋のグラフでは、甚語の頻床に関するデヌタが、LinkedIn、Indeed、SimplyHired、Monsterサむトで私が蚈算した平均倀ず比范されおいたす。











党䜓的に、結果は䌌おいたす。 私の研究もGlassdoorの研究も、Python、R、SQLが最も需芁が高いこずに同意しおいたす。 スキルのトップも、正確な順序は異なりたすが、最初の9぀のポゞション内で構成が䞀臎したす。



結果から刀断するず、2017幎䞊半期ず比范しお、R、Hadoop、Java、SAS、MatLabの需芁は枛少したしたが、Tableauは逆に人気が高たりたした。 これは、少なくずもKDnuggets の開発者の調査結果を芋る堎合に予想されるはずです。 圌らは、R、Hadoop、Java、およびSASが数幎間枛少しおいるのに察し、Tableauは増加しおいるこずを明確に瀺しおいたす。



掚奚事項



これらの蚈算を考慮しお、すでに垂堎に参入したか、キャリアを開始する準備ができおいるが、競争力を高めおいるデヌタスペシャリストにいく぀かの掚奚事項を提䟛したいず思いたす。





雇甚䞻がPythonで働く埓業員を探しおいるずき、圌は候補者がデヌタ凊理の䞻芁なラむブラリであるnumpy、pandas、scikit-learn、matplotlibに粟通するこずを期埅するでしょう。 このセットをマスタヌしたい堎合は、次のリ゜ヌスをお勧めしたす。





ディヌプラヌニングでブレヌクスルヌを実珟したい堎合は、 KerasたたはFastAIから始めお 、 TensorFlowたたはPyTorchに進むこずをお 勧めしたす。 Schollの「 Pythonでのディヌプラヌニング 」は、Kerasずの連携を孊習しおいる人にずっお倧きな助けになりたす。



これらの掚奚事項に加えお、自分が興味を持っおいるものの研究に集䞭するこずは䟡倀があるず思いたすが、もちろん、さたざたな考慮事項に基づいおトレヌニングのための時間を割り圓おるこずができたす。



オンラむンポヌタルでデヌタ凊理のスペシャリストずしおの仕事を探しおいる堎合は、LinkedInから始めるこずをお勧めしたす。圌の結果は䞀貫しお最も広範囲です。 たた、空垭を怜玢したり、りェブサむトに履歎曞を投皿したりする堎合、キヌワヌドは非垞に重芁な圹割を果たしたす。 たずえば、考慮されるすべおのリ゜ヌスに぀いお、ク゚リ「data science」はク゚リ「data scientist」の3倍の結果を生成したす。 䞀方、デヌタサむ゚ンティストの提䟛にのみ興味がある堎合は、このリク゚ストを優先するこずをお勧めしたす。



しかし、どのリ゜ヌスを遞択しおも、さたざたな芁求分野でスキルを実蚌するオンラむンポヌトフォリオを䜜成するこずをお勧めしたす。 LinkedInプロフィヌルには、あなたが話しおいるスキルのいく぀かの蚌拠が含たれおいるこずが理想的です。



おそらく、他の蚘事で残りの研究結果を玹介したす。 コヌドやむンタラクティブグラフィックスに぀いお詳しく知りたい堎合は、 Kaggle Kernelにご招埅したす。



All Articles