デヌタサむ゚ンスりィヌク゚ンド2018の初日の抂芁。機械孊習の実践、競技䌚ぞの新しいアプロヌチなど

こんにちは、Habr 3月2〜3日に、パヌトナヌの䌚瀟であるRamblerCoの屋根裏郚屋で、 デヌタを扱う分野の専門家による倚くのプレれンテヌションが行われた埓来のData Science Weekendが開催されたした。 この蚘事の䞀郚ずしお、機械孊習アルゎリズム、チヌム管理、およびデヌタサむ゚ンス分野での競争の実践にすべおの泚意が払われた、䌚議初日の最も興味深い瞬間に぀いおお話ししたす。







Vectorx



Open Data Science Weekend 2018は 、VectorXのプログラム「ビッグデヌタスペシャリスト」 Roman Smirnovの卒業生によっお衚地されたした。このプログラムは、䌁業内で情報を広め、情報フィヌルドを構成するプロセスに埓事しおいたす。 スピヌチの䞀環ずしお、ロヌマンは、デヌタサむ゚ンティストのチヌムず協力するこずが非垞に難しい理由ず、仕事を可胜な限り効率的にする方法に぀いお話したした。



私の経隓に基づいお、デヌタサむ゚ンティストず仕事をするずきに䌚瀟が盎面する4぀の䞻な問題がありたす専門家ず呌びたす。



問題 専門知識に察する高い需芁が原因で予枬できないパフォヌマンス。 ゚キスパヌトは科孊者であり、圌の知識を利甚しお私たちをより健康で豊かにするため、専門家はあなたのものではなく、瀟䌚のものです。 圌らはただ圌のすべおを望んでいるこずがわかりたすが、圌は誰に぀いおも気にしたせん。 このこずから、動機付けず劎働効率に関する問題が起こり埗たす。



解決策たず、別の専門家の圢で垞に存圚する必芁があり、その存圚は秘密のたたでなければなりたせん。 第二に、専門家にフィヌドバックを䞎え、個人的な䟡倀感を維持するために、すべおのプロゞェクトの蚘録を保持し、統蚈を収集する必芁がありたす。 最埌に、CRMは顧客だけでなく、分散したチヌムで䜜業する堎合にも適しおいるこずが刀明したした。



問題 モチベヌションの察立。 デヌタサむ゚ンティストは、自分が先駆者であるこずを皆に玍埗させ、重倧な問題に察凊し、哲孊者の石の秘密を発芋しようずする人です。 残念なこずに、基本的な生理孊的動機は圌にずっお異質ではなく、この察立は圌に優先順䜍を付けるこずを蚱可したせんが、あなたにずっお-圌ずの有利な合意を締結したす。



解決策この二元性は、独自の目的に䜿甚できたす。 専門家が圌に十分なお金がないず蚀ったら、圌の人道䞻矩的な䟡倀を呌び、「私の友人、あなたは科孊者です」ず蚀うこずができたす。 そしお逆もたた同様です。圌は自分が身分にある人であり、ひじにパッチを圓おたスヌツを着お1幎間は行かないこずを圌に思い出させる䟡倀がありたす。







問題 投機。 議論の䜙地のない経隓豊富な理論家が些现な実甚的な問題を解決できないこずがよくありたす。 その結果、圌はプロゞェクトの耇雑さをすべおの結果で冷静に評䟡するこずはできたせん期限の倱敗、チヌムのモチベヌションの損倱、法倖な費甚など。



解決策朜圚的なプロゞェクトマネヌゞャヌにポヌトフォリオを芁求し、懞念を確認たたは解消するためにコヌドレビュヌにお金をかけるこずをためらわないでください。



問題 䞍玔な動機。 科孊者ずしおの専門家は、その階玚ではなく、瀟䌚の䞊になりたいず思っおいたす。 したがっお、圌は垞に知識の可胜な限り広い範囲で自分の意芋を広めたいずいう願望を持っおいたすが、それはプロゞェクトの商業的利益ずはよく盞関しおいたせん䜕かが䌚瀟の専門家の評刀を脅かす堎合、それを倱うリスクがありたす。



解決策今日、科孊はビゞネスず非垞に密接に関連しおいたす。数幎前、誰もマヌケティングが科孊蚘事にたで及ぶずは考えおいたせんでした。 科孊蚘事の執筆に協賛-科孊集玄型プロゞェクトの堎合、これは優れたマヌケティング掻動です。

たた、専門知識を倱う恐れがある堎合は、競合する研究宀の専門家を雇いたす。 そのような行為は、最初の科孊者を怒らせ、圌を刺激しお、競合他瀟で錻を拭く行動を起こすこずができたす。



ズベルバンク



それから、もう䞀人の卒業生であるアレクサンダヌ・りリダノフの出番でした。圌は、Sberbankのデヌタサむ゚ンス゚グれクティブディレクタヌです。 党囜のATMネットワヌクでの珟金管理プロゞェクトの䟋を䜿甚しお、耇雑なモデルをすぐに攻撃しお構築しようずするのではなく、たず座っお統蚈デヌタ分析を培底的に行う必芁がある理由に぀いお話したした。 実際のデヌタを扱う堎合、これは非垞に重芁です。なぜなら、倚くの堎合、情報の蚘録に倚くの省略、異垞倀、䞍正確な枬定、および些现な゚ラヌがあるため、各デヌタ科孊者は、たずえば、異垞を怜出するための統蚈的方法を持っおいるか、少なくずもその数を芋るこずができるからですデヌタセットのれロ、フィヌチャの最倧倀ず最小倀。 「ガベヌゞむン-ガベヌゞアりト」の原則はキャンセルされおいたせん。







アレクサンダヌのスピヌチずATMネットワヌクの管理の事䟋に぀いおは、HabréのSberbank䌁業ブログで近日䞭に読むこずができたす。 埅っお



新しい職業研究宀



次に、Newprolabでデヌタを操䜜するための教育プログラムの責任者であるArtem Pichuginは、今埌のプログラム「Big Data Specialist 8.0」でテストされる、機械孊習コンテストをホストする新しいアプロヌチを導入したした。 プログラムの開始は3月22日です。



すべおは2009幎にNetflixからの競争で始たり、勝者は100䞇ドルを受け取り、これらのむベントが人気になり、Kaggleが登堎し、すべおが急速に発展し始めたした。 しかし、圓初からすべおがうたくいかなかったこずが刀明したした2012幎には、Netflixからのコンテストの勝者の決定は、実皌働環境で実装するこずは䞍可胜であり、耇雑すぎお困難でした。



数幎が経ちたしたが、䜕が芋えたすか それは2018幎であり、人々はただ掗緎されたモデルを䜜成しようずしおいたす、圌らは巚倧なアンサンブルを構築しおいたす。 そしお、それはたすたす高い成果のスポヌツに䌌おいたす。



もちろん、プログラムでは、このアプロヌチを䜿甚しお、意思決定の耇雑さに関係なく、特定のメトリックで孊生をランク付けしたした。 ただし、これらの決定がすべおビゞネスからどれだけ離れおいるかを認識し、プログラムの競争に察しおたったく新しいアプロヌチを取りたす。



これで、最終評䟡では、SLAに適した、぀たりある皋床の合理的な期間に適合する゜リュヌションのみが考慮されたす。 さらに、他のいく぀かのアプロヌチずは異なり、合蚈モデルトレヌニング時間は考慮されたせんが、テストサンプルの1぀の芁玠の予枬がどれだけ速く蚈算されるかが考慮されたす。





以前は、Jupyter Notebookでモデルを䜜成した人がテストサンプルの予枬を䜜成し、保存しお送信し、最終的なメトリックを蚈算しおいたした。 次に、圌はこのモデルをDockerにパックする必芁がありたす。぀たり、 JSONファむルを受け取っお、小さな「クッキヌ」を䜜成する必芁がありたす。 したがっお、私たちはプロダクションに近づき、コンペティションやハッカ゜ンを開催するすべおの人にこの方向に進むよう促したす。



ずころで、今埌数か月以内にハッカ゜ンを開催したす。 情報を芋逃さないように、 FacebookずTelegramで賌読しおください



ランブラヌCo



次に、映画通でのコンピュヌタヌビゞョンの䜿甚に関する興味深い事䟋を敎理しお、映画通蚪問者の数、性別、幎霢を認識するRamblerCoの機械孊習スペシャリストのグルヌププレれンテヌションに぀いお説明したす。



映画通のネットワヌクのセッションで芳客の構成を評䟡し、芳客の瀟䌚人口統蚈的構成を理解する必芁があり、セッションの前に衚瀺される1぀たたは別の広告にお金を提䟛する広告䞻に報告するこずを担圓したした。



デヌタ゜ヌスから始めたしょう。 Rambler-Cashierがあるように芋えるため、ナヌザヌに関する倚くの情報がありたすが、これらのデヌタによるず、実際には掚定倀に偏りがありたす。 家族で芋る堎合、チケットはお父さんたたはお母さんが賌入したす。これがカップルの堎合は、男性が賌入するなどです。 したがっお、別の解決策を芋぀けるこずができたした。各郚屋には、映画通に座っおいる党員を芋るカメラがありたす。



将来を芋据えお、蚪問者の堎所、性別、幎霢を撮圱した写真から掚定するモデルを構築できたず蚀いたす。 ほが100の粟床で人の数を刀別し、90の男性ず女性を区別し、わずかに䜎い確率で子䟛を認識するこずができたした。 どうやっおやったの



マヌクアップデヌタ。 圓初から倚くの問題に盎面しおいたした。 たず、少なくずも2぀の類䌌した映画通を芋぀けるこずは非垞に困難です。それらはすべお異なっおおり、芏暡や芖点が異なりたす。 ホヌル党䜓を撮圱せず、斜めに撮圱するカメラがありたす。 これに、撮圱時にスクリヌンで䜕が起こっおいるかに応じお、ホヌルの異なる照明を远加したす。異なる品質のデヌタがあり、自動的にマヌクアップするこずは䞍可胜です。



手動マヌキングに頌らなければなりたせんでした。 非垞に費甚がかかり、困難で、䜜業時間の倧郚分を占めおいたため、デヌタを通垞か぀完党にマヌクアップする「゚リヌトマヌカヌ」のチヌムを倖郚から雇うこずにしたした。 もちろん、人的芁因を陀倖するこずは䞍可胜であり、倚くの゚ラヌがありたしたが、最終的にはすべおの写真をマヌクアりトするこずができ、モデルを䜜成する準備が敎いたした。



LinkNet-ResNetモデル。 これが最初のモデルであり、かなり高い品質を瀺したした。 3぀の䞻芁郚分で構成されおいたした写真の頭のマスクを芋぀けるセグメンテヌションLinkNet 、 各人の頭ず境界ボックスの座暙を芋぀けるロヌカラむザヌ 、および境界ボックスに基づく分類子ResNet 、この写真に座っおいる人を決定したす男性、女性、子䟛。



トレヌニングはタグ付きの写真から始たりたす。 この写真では、各人の頭に癜いガりススポットを適甚しおマスクを取埗したす。 その埌、各頭の呚囲の境界ボックスを䜿甚しお画像を切り取り、その埌、受信したすべおをネットワヌクに送信したす。 ゜ヌス画像ず䞀緒にマスクがセグメンタヌに送られ、LinkNetが取埗され、タヌゲットタヌゲットず䞀緒にクロップがResNetで提䟛されたす。



予枬は少し異なりたす。 LinkNetで゜ヌス画像を提䟛し、マスクを取埗したす。 それをロヌカラむザヌに送信したす。ロヌカラむザヌは、ヘッドずバりンディングボックスの座暙を芋぀けたす。 次に、それらの䜜物を切り取り、ResNetに䟛絊し、ニュヌラルネットワヌクの出力を取埗したす。これに基づいお、セッションの人数ず瀟䌚人口統蚈の構成など、必芁なすべおの分析を取埗できたす。



モデル「チアリヌダヌ」。 前のモデルでは、ホヌルに床に釘付けされたアヌムチェアがあり、写真では垞に同じ堎所に衚瀺されるずいう先隓的な知識は䜿甚したせんでした。 さらに、人々がゞムに来るずき、圌らは通垞怅子に行き着きたす。 この情報を基に、モデルを構築したす。



最初に、写真の座垭がどこにあるかを認識するようモデルに教える必芁がありたす。ここで、再び手動マヌキングに頌らなければなりたせん。 各ホヌルの各怅子には、圌が怅子に座っおいた堎合の平均的な人の頭がある堎所にマヌクが付けられたした。



モデルに移りたしょう。 たず、䞀臎させる必芁がありたす。頭ず怅子を比范し、次に怅子ごずに、それが占有されおいるか、自由であるか、そしお占有されおいるかどうかを正確に刀断したす。 次に、これらの怅子に察応する画像のセクションを切り取り、2぀のモデルをトレヌニングしたす。1぀は怅子が占有されおいるかどうかを認識し、2぀目は聎衆を3぀のカテゎリに分類したす。 䞡方のモデルは、ResNetニュヌラルネットワヌクに基づいおいたす。 したがっお、「Armchair」ずLinkNet-ResNetの違いは、すべおの䜜物が固定されおおり、写真の座垭の䜍眮に結び付けられおいるのに察し、最初のモデルでは任意に切り取られおいるこずです-頭はどこにありたすか





クレバヌデヌタ



この忙しい日の別のスピヌカヌは、さたざたなデヌタ管理゜リュヌションを専門ずするCleverDataのシニアデヌタサむ゚ンティストであるArtem Prosvetovでした。 圌のプロゞェクトは、矎容業界向けのマヌケティングコミュニケヌションを最適化するこずでした。







誰に、䜕を、い぀送信するかを理解するには、個人が賌入履歎を持っおいるもの、珟圚必芁なもの、圌に連絡するポむント、およびチャネルを知る必芁がありたす。 さらに、この情報は賌入の履歎だけでなく、サむトでの行動、クリックしたリンク、開いたメヌルなどからも取埗できたす。 䞻な質問この䞀連のアクションからモデルの機胜を取埗する方法は



最も明癜な方法は、これらのむベントシヌケンスを次のように゚ンコヌドするようです。







簡単です。アクションは1で゚ンコヌドされ、アクションの省略はれロです。 ただし、ここで問題が発生したす。アクションの数が人によっお異なりたす。 したがっお、次の論理ステップは、最も長い履歎を持぀人のアクションの期間に等しい固定長のベクトルを蚭定するこずです。



たた、このような゚ンコヌディングでは、隣接するアクション間の経過時間が考慮されないこずにも泚意しおください。これは非垞に重芁です。 したがっお、远加のベクトルずしお、むベント間の時間差を远加し、数䞇秒の倀がないように、このベクトルを察数化したす。 ずころで、分垃は察数正芏分垃のように芋えたす。







最埌に、機胜が取埗され、モデル、぀たり䞀連のむベントを凊理するための最も䞀般的な方法であるニュヌラルネットワヌクをトレヌニングする準備が敎いたした。 自動゚ンコヌダヌずLSTMネットワヌクのいく぀かのレむダヌで構成されるモデルは、比范的高い品質を瀺したした。ROC-AUCメトリックは0.87でした。



TrainMyData



䌚議の初日は、もう1人の卒業生であり、 ビッグデヌタスペシャリスト8.0プログラムのコヌディネヌタヌであるArtem Trunovによっお完了したした。 Artemは、TrainMyDataプラットフォヌムの機械孊習コンテストでどのように勝ったかに぀いお話したした。



競争の䞀環ずしお、Ascott Groupの週次売䞊の時系列を予枬する必芁がありたした。 もちろん、ニュヌラルネットワヌクは珟圚最も䞀般的な時系列予枬方法ですが、これは叀兞的な蚈量経枈孊アルゎリズムが機胜しないこずを意味するものではありたせん。 私がこのコンテストで優勝するのを助けたのは圌らだったので、それぞれに぀いお思い出したいず思いたす。















むベントに関するフィヌドバック



「クレヌムされたテクノロゞヌが実際のプロゞェクトでどのように䜿甚されおいるかを孊ぶこずは非垞に有甚で興味深いものでした。」- Andrey Tolmachev、Assi LLC。



「良いむベントをありがずう。正しい䜜業圢匏、きちんずした準備、講挔者の良い構成、そしお倚くの有甚な情報。」- マキシム・゜ロキン、STC「Volcano」RDグルヌプの責任者。



Facebookペヌゞですべおのスピヌチのビデオを芋るこずができたす 。



たもなく、デヌタ゚ンゞニアリング、デヌタプラットフォヌム、ETL、怜玢ヒントサヌビスなどのニヌズに合わせたさたざたなデヌタ゚ンゞニアツヌルの䜿甚に重点が眮かれた、デヌタサむ゚ンスりィヌク゚ンド2018の2日目のレビュヌを公開したす。 お楜しみに



All Articles