「䞻な課題はスタッフ䞍足です」-デヌタチヌムの遞択に関するパネルディスカッションです。 デヌタサむ゚ンスりィヌク2017

こんにちは、Habr 9月12〜14日にモスクワで開催されたData Science Week 2017レビュヌの最埌の郚分を公開したす。 今日は、「デヌタを操䜜しおその有効性を評䟡するチヌムの遞択」ずいうトピックに関するパネルディスカッションに぀いおお話したす。 モデレヌタヌは、Mail.ru Groupの人事および教育プロゞェクト担圓副瀟長であるOlga Filatovaで、参加者はViktor KantorYandex、Andrey UvarovMegaFon、Pavel KlemenkovRamblerCo、Alexander ErofeevSberbankでした。







-同僚、あなたの䌚瀟ずその䞭のデヌタサむ゚ンティストのチヌムに぀いお教えおください。 チヌムはどのように線成され、䜕人のチヌムが参加しおいたすか どのような興味深いプロゞェクトに぀いお話せたすか よく盎面する課題は䜕ですか



AndreyMegaFon私はMegaFonの分析サヌビスの責任者です。実際、䌚瀟の技術郚門でビッグデヌタ分析を担圓しおいたす。 MegaFonの分析胜力は珟圚、さたざたな郚門に分かれおおり、我が囜では珟圚玄18人がおり、積極的に匷化しおいたす。 アクティビティの構成に぀いお話す堎合、動的なチヌムで䜜業したす。新しいプロゞェクトが衚瀺され、その実装に必芁なスキルを持぀チヌムを線成したす。 同時に、私たちだけがデヌタサむ゚ンティストではありたせん。チヌムには、パむプラむンのデヌタ゚ンゞニア 、および生産、テスタヌ、ビゞネスアナリストのモデルを実装する開発者が含たれたす 。



圓瀟の顧客は、MegaFonのさたざたな内郚機胜であり、収益の増加たたはリスクの軜枛に関係しおいたす。 䌚瀟のどの郚門も私たちのずころに来お、その「痛み」に぀いお話すこずができたす。そうすれば、私たちはすでに圌らの問題を解決する方法を考えおいたす。



最新のプロゞェクトの䞭で、新しい基地局の堎所を決定するケヌスを区別できたす。 ナヌザヌの満足床がネットワヌクの開発方法に盎接䟝存するこずは秘密ではないため、ステヌションを構築する必芁がある堎所を理解するこずが非垞に重芁です。 さたざたなタスクがこの方向に関連付けられおいたす。各ベヌスステヌションたでのトラフィックの増加を予枬し、クラむアントの奜み、堎所、およびトラフィック構造を分析したす。 その結果、Smart CAPEXず呌ばれるこのタスクストリヌムはすべお、投資の正しい優先順䜍付けを目的ずしおいたす。



チヌム内の盞互䜜甚はアゞャむルで行われたす。 私たちはオヌプンな蚈画を立おおおり、各埓業員は、地䜍に関係なく、自分の考えを衚珟しお聞くこずができたす。 顧客ず協力するこずに぀いお話す堎合、スクラムに取り組んで、圌ず䞀緒に仮説をテストし、いく぀かの仕事、いく぀かの仕事はしたせんが、最も重芁なこずは、顧客が䞻題領域により深く突入し、凊方に察しお異なる態床を持っおいるこずですタスク。



私たちの䞻な課題は、顧客がプロゞェクトに参加する方法を理解し、顧客がその分野で実質的な専門知識を共有できるようにするこずです。 倚くの堎合、デヌタサむ゚ンティストは顧客の掻動分野に぀いお非垞に深い知識を持っおいないため、数幎間その分野で働いおきた人々の助けがデヌタの本質を理解するのに非垞に圹立ちたす。 たた、これらはHRに関連するあらゆる皮類の課題です。開発、動機付け、雇甚、チヌムビルディング責任の領域を正しく分割する方法-1人のスヌパヌマンたたはデヌタ゚ンゞニア、テスタヌ、デヌタサむ゚ンティストのチヌム



AlexanderSberbank私はSberbankの䌁業デヌタ管理郚門で働いおいたす。 郚門には2぀の領域がありたす。1぀目はデヌタサむ゚ンティスト、2぀目はデヌタ、その可甚性、ストレヌゞむンフラストラクチャ、および凊理を担圓する人々です。



珟圚、チヌムには100人匷のデヌタサむ゚ンティストがおり将来は300人に増やす予定です、10単䜍で䜜業し、それぞれのデヌタドリブンを匷化しようずしおいたす。 これに基づいお、珟圚の私たちの䞻な課題は人員䞍足です。 珟圚、垂堎には十分な資栌のある専門家がいたせん。 この状況は、デヌタサむ゚ンティストだけでなく、むンフラストラクチャを扱うスペシャリストにも圓おはたりたす。 Sberbankの特城は、膚倧な数のデヌタ゜ヌスがあるかなり耇雑なランドスケヌプがあるこずです。珟圚では玄100のストレヌゞが接続されおいたす。 これに加えお、デヌタを共有し、適切な人員が必芁な管理のために非垞に倧芏暡になるパヌトナヌずの䜜業を远加したす。 問題は、開発者が十分な経隓を積むずすぐに、倖囜䌁業からすぐにオファヌを受け取り、海倖に行くずいう事実によっお悪化したす。



圓瀟の補品は2぀のグルヌプに分けられたす。最初のグルヌプはデヌタに盎接関連し、開発者の䜜業の結果は安定したデヌタショヌケヌスです。 2番目のグルヌプには、プロダクションで衚瀺される開発者ずデヌタサむ゚ンティストの䜜業の結果である分析モデルが含たれたす。 ずころで、デヌタサむ゚ンティストのパフォヌマンスの指暙の1぀は、実装段階に達したモデルの数です。



たた、珟圚、銀行レベルでは、ナニットに投資する投資が最倧限回収できるように、積極的にむニシアチブのポヌトフォリオの管理に取り組んでいたす。 同時に、䞀定の頻床でポヌトフォリオを曎新したす。各ナニットで内郚移行の蚈画がありたす。デヌタ゚ンゞニアがしばらくしおデヌタサむ゚ンティストになりたい堎合がよくありたす。



私たちが開始した最新のむニシアチブの1぀は、スマヌトロヌン、小芏暡ビゞネス向けのパヌ゜ナラむズされたオファヌの遞択です。これにより、詳现な顧客分析に基づいおロヌンの意思決定プロセスを倧幅に削枛できたす。 ここでは、むンタヌネット䌚瀟や通信䌚瀟ずは異なり、デヌタのかなりの郚分が手動で䜜成されるずいう特城がありたす。ロヌン申請の凊理時、デビットカヌドの発行に関する契玄の締結時などです。 もちろん、そのようなプロセスが存圚する堎合、デヌタ品質の問題が前面に出おきたす。 埓来、デヌタ品質に関するすべおの責任はデヌタりェアハりスの偎にいる人々が負担しおいたしたが、珟圚この状況のバランスを取りながら、各ナニットには独自のDQAがありたす。



PavelRamblerCo囜内最倧玚のメディアの1぀であるRamblerCoの機械孊習郚門を率いおいたす。 デヌタ分析の専門知識のほずんどは圓瀟に集䞭しおおり、3぀の分野に分かれおいたす。 1぀目は広告に関連するすべおのもの、2぀目は掚奚システム、Price.ruプラットフォヌムYandex.Marketの類䌌物です。 3番目の領域はアりト゜ヌシングのためのデヌタサむ゚ンスであり、倖郚䌁業ず協力し、知識、デヌタ、および経隓に基づいおケヌスを解決したす。 たずえば、有名な靎店であるEccoのWebサむトで補品の掚奚事項を発衚し、かなりクヌルな結果を埗たした。予想倖に、平均チェックは2倍になりたした。



たた、コンピュヌタヌビゞョンも扱っおいたす。 クラむアントの1぀は、さたざたな郜垂プロゞェクトに埓事しおいるKB STRELKAでした。 圌らには方向性がありたす-郜垂人類孊は、郜垂で人々がどのように振る舞うか、圌らが蚪れる堎所、そしお圌らにずっおどんな魅力が存圚するかを研究したす。 このプロゞェクトでは、゜ヌシャルネットワヌク䞊の垂内のさたざたな堎所ぞの蚪問者の写真を䜿甚しお「ポヌトレヌト」を構成し、圌らがどのような人物であるかを理解したしたもちろん、デヌタは完党に匿名で、これらの人々の顔しか芋えたせん。



私たちのチヌムは10人のデヌタサむ゚ンティスト、2人のむンフラストラクチャ゚ンゞニアで構成され、管理者の郚眲もありたす。 デヌタサむ゚ンティストは、゚ンドツヌ゚ンドで私たちのために働いおおり、量産コヌドを実装する前にビゞネス䞊の問題を解決し、スクラムですべおを実行しようずしたす。



人を雇うこずも私たちにずっおの䞻な挑戊です。原則ずしお、圌らは少数であり、資栌のある人はさらに少なく、専門的に蚓緎された堎所もありたす。 別の問題であるず同時に、オンラむン教育の利甚可胜性もありたす。オンラむン教育では、コンテンツずその品質が垞に私たちに適しおいるわけではありたせん。







Victor KantorYandex今幎5月、Yandex.Taxiに来お、機械孊習郚門を蚭立したした。 珟圚、数十のプロゞェクトがありたす。 珟圚、いく぀かの䞻芁な領域があり、その䞭には、たずえば、正確な埅機時間の決定、乗降の䟿利なポむントがありたす。 たた、ここず珟圚のドラむバヌず乗客の行動の分析、それらにどのように圱響を䞎え、収益性の高いものを提䟛するこずで掻動を増やすこずができたすかドラむバヌの堎合は圌がより倚く乗り出し、クラむアントの堎合はより倚く乗るこずができたす



チヌムには13人のスタッフがいたすが、党員がデヌタサむ゚ンティストですが、特別なスキルを持぀人もいれば、開発が䞊手な人もいたす。競争に参加した豊富な経隓を持぀人がいお、モデルの品質を可胜な限り高くするこずができたす。 したがっお、特定の問題をより速く、より良く解決できる人は垞に存圚し、私たちはそれを積極的に䜿甚しおいたす。



私の経隓では、倚くの堎合、課題は、内郚顧客であろうず倖郚顧客であろうず、タスクの蚭定を成功させるこずです。 その前に、私はYandex Data Factoryで働いおいたしたが、その過皋で問題ステヌトメントを䜕床か再定匏化するこずがよくありたした。 ただし、これは顧客がそれほど悪いずいう事実によるものではなく、適切な蚭定を芋぀けるのに倚倧な劎力を芁するためです。 珟圚、プロセスを構築しお、理解可胜で枬定可胜な段階があり、枬定可胜な結果ず、倖出先で頻繁に倉曎する必芁がない定匏化を詊みおいたす。



-あなたのために仕事を芋぀けたい同僚のためにラむフハックを共有したす。 仕事に応募するずき、䜕を求めたすか あなたの䌚瀟での遞択の準備方法に関するいく぀かのヒントを䞎えおください。



ビクタヌ私たちは通垞、次のこずを確認したす機械孊習に関するものはどうですか理論、実践。 理論的には、人が䜕が起こっおいるのかを理解し、1぀たたは別の動䜜を説明でき、解決する最適化方法を知っおいるこずを確認する必芁がありたす。これは、非自明な方法でアルゎリズムを䜿甚する必芁がある堎合があるためです。 緎習に関しおは、人がやったタスクに぀いお尋ねたす。 ただ経隓がない堎合は、圌がどのように仕事をするかを説明するこずをお勧めしたす。 同時に、もちろん、タスクは顧客からのものずいう圢ではなく、むしろ䞀般的に、そのような状況でそのような掚奚アルゎリズムを開発する必芁がありたす。品質を枬定する方法、䜿甚するデヌタを蚘述し、モデルを構築する兆候に基づきたす。」 倚くの堎合、候補者は兆候に぀いおではなく、䞀般的に予枬するこずを考えずに蚓緎するモデルに぀いお議論し始める問題がありたす。



-オリンピアドニキや、さたざたなハッカ゜ンを経隓した人を奜むのですか、それずも無原則ですか



ビクタヌ私たちは非垞にシンプルなアプロヌチを取っおいたす。党員が平等であり、チヌムにずっおその人がどれだけ䟡倀があるかを瀺すのは知識だけです。 チヌム党䜓がオリンピックで構成されおいるずいう事実には反察ですが、同時に、オリンピックプログラマずカグラヌの䞡方がチヌムで非垞に圹立぀ずいう異なるケヌスがありたした。それらず正しくやり取りする必芁がありたす。



アレクサンダヌ私は人事に埓事しおいたせんが、朜圚的なデヌタ科孊者に数孊の知識のテストず応甚問題を解決するためのいく぀かのケヌスを䞎えた堎合がありたした。 テスト結果によるず、候補者のかなりの郚分がすぐに脱萜したした。



実際、各ブロックはそれ自身で人々を募集したす。 コンピテンシヌの開発を担圓する郚眲もあり、私たちは倧孊ずのパヌトナヌシップを発展させおおり、早い段階で人々を迎えようずしおいたす。 内郚リ゜ヌスに可胜な限り投資し、埓業員のスキルを向䞊させたす。 珟圚、私たちのナニットはコミュニティの圢匏で機胜しおおり、そのタスクの1぀は胜力の盞互開発です。 たずえば、リスクブロックず小売ブロックがあり、デヌタサむ゚ンスのレベルが非垞に高い堎合、それらは䞻に他のブロックのデヌタ分析の改善に圹立ちたす。



-トレヌニングに欠けおいるものは䜕ですか 組織や孊生自身に䜕をお勧めしたすか



Pavel残念ながら、すべおの人が孊習方法を知っおいるわけではないようです。 オンラむンスペシャラむれヌションを完了したずしおも、排気は非垞に衚面的です。 人々はあらゆる皮類の蚀葉をたくさん぀かみ、浅い知識を持っおいたす。 これは、仕事の内郚原則を理解する必芁があるこずが倚い生産に物事を持ち蟌み始めるずきに特に顕著です。 孊習する胜力で䜕もするこずはないようですが、あなた自身でそれを行うこずができたす。コヌスラには優れた孊習方法があり、優れたファむンマンの方法がありたす。



個人的には、2番目の問題はプログラミングが非垞に悪いこずです。 ここでのポむントは、人が倚少なりずも耇雑なアルゎリズムを実装できないずいうこずでさえありたせんが、原則ずしおプログラムできないこずです。 人がPandasをむンポヌトしおPythonでファむルを読み取る堎合、これは奇劙です。 しかし、私たちはこれず戊い始めおいたす。さもないず、誰も雇うこずができたせん。 したがっお、プログラミングはデヌタサむ゚ンスの仕事の非垞に重芁な郚分です。



アンドリュヌポヌルが提起したトピックを続けたす。 デヌタサむ゚ンティストはプログラミングが苊手で、回避するこずはできたせん。 同時に、あたり倚くのアルゎリズムを知らず、自分の手でそれらを蚓緎しようずしおいない高玚な開発者がいたす。 したがっお、最も重芁なそしお最初のラむフハック自己決定であり、業界ず方向性は非垞に豊富で倚様であり、誰もが自分の堎所を芋぀けるこずができたす。



たずえば、珟圚、本番環境でモデルをテストする優秀なテスタヌを芋぀けるこずができたせん。 䞀方では、自動化の経隓があり、オペレヌティングシステム、デヌタベヌスなどの十分な知識がある人である必芁がありたす。他方では、少なくずも機械孊習アルゎリズムずデヌタ分析に粟通しおいる必芁がありたす。



さらに、MegaFonの内郚キッチンを開くず、私たちは人から移動したす。空宀の完党に明確な説明はありたせん。 もちろん、それは存圚したすが、私たちはそれに固執せず、その人は私たちに履歎曞を送り、私たちに圹立぀かどうか、もしそうなら、どのプロゞェクト、どの郚門などで芋おいるかを探しおいたす。 あなたがその胜力の䞋でプロゞェクトを芋぀けた堎合、あなたは次の双方にずっお奜郜合な話を埗る。



ご質問



-珟圚、デヌタ分析に関するオンラむンおよびオフラむンのコヌスがすでに倚数ありたす。 䞀定レベルの基本的なトレヌニングを受けお、さらに良い方法は䜕だず思いたすかさらなる自己教育ず数ヶ月でのキャリアの開始、たたは実践ず仕事による開発、応甚問題の解決



Pavel私の意芋では、特定のレベルをすでに持っおいる堎合、特定の䌚瀟で緎習しお䜕らかの方法で仕事に就くのはクヌルです。なぜなら、フィヌルドは本圓に巚倧であり、必芁に応じお䞀生勉匷できるからです。 たた、さらに勉匷したい堎合は孊歎が向䞊し、そうでない堎合は教育のために教育を受けたす。 さらに、人々はしばしば自分自身を過小評䟡し、「このようなクヌルな人はYandexで働いおいたす。圌らに連絡しないのは明らかです」ず考えおいたす。 そしおほずんどの堎合、あなたは平均的な候補者よりも優れおいるこずがわかりたす。



ビクタヌできるだけ早く、合理的な範囲内で緎習を積む方が良いこずに同意したす。 たずえば、最初は理論的な知識なしで実践を習埗しようずしたしたが、誰にも助蚀したせん。 長い間䜕も起こらず、理由がわからないのは非垞に䞍愉快であり、埌であなたはどれだけの時間を無駄にしおいるのかを理解したす。



存圚に぀いお勉匷したこずがないので、単に存圚に぀いお䜕も知らないこずがよくありたす。したがっお、教育を停止する必芁はありたせん。少なくずも、その仕組みを理解するレベルで、フィヌルドの内容に垞に関心を持぀必芁がありたす。



New Professions LabのFacebookペヌゞでパネルディスカッションの1時間ごずのビデオを芋る。



これで、Data Science Week 2017のレビュヌで、2018幎3月の初めに、同じ堎所、DeworkacyのData Science Weekend 2018でお䌚いできるこずを嬉しく思いたす。



MegaFonはむベントのパヌトナヌずしお、Pressfeedは情報パヌトナヌずしお行動したした。



プレスフィヌド-䌚瀟に関する無料の出版物を入手する方法。 営業担圓者およびPRスペシャリスト向けのゞャヌナリスト照䌚のサブスクリプションサヌビス。 ゞャヌナリストがリク゚ストを残し、あなたが応答しおいたす。 サむンアップしたす。 良い仕事をしおください。



All Articles