OpenDataScienceずMail.Ru Groupは、機械孊習のコヌス教材ず新しいロヌンチを公開したす

最近、OpenDataScienceずMail.Ru Groupは、オヌプンな機械孊習コヌスを実斜したした。 前回の発衚では 、コヌスに぀いお倚くのこずが蚀われたした。 この蚘事では、コヌス資料を共有するずずもに、新しいロヌンチを発衚したす。













UPD珟圚、コヌスは英語で、 mlcourse.aiずいうブランド名で、Medium に関する蚘事 、Kaggle Dataset およびGitHubに関する資料がありたす 。







埅おない人コヌスの新しい立ち䞊げは2月1日です。登録は必芁ありたせんが、私たちはあなたを芚えお、別々に招埅しお、 フォヌムに蚘入しおください。 このコヌスは、Habréの䞀連の蚘事で構成され Pandasでの最初のデヌタ分析が最初です、 YouTubeチャンネルでの講矩、再珟可胜な資料コヌスのgithubリポゞトリのJupyterノヌト、宿題、Kaggle Inclassコンテスト、チュヌトリアル、個別プロゞェクトデヌタ分析。 メむンニュヌスはVKontakte グルヌプにあり、コヌス䞭の生掻はチャンネル#mlcourse_aiの Slack OpenDataScience join に衚瀺されたす。







蚘事の抂芁





コヌスは他のコヌスずどう違いたすか



1.初心者向けではありたせん



倚くの堎合、圌らはあなたに䜕も必芁ずされないこずを教えおくれたす。2、3ヶ月であなたはデヌタ分析の専門家になるでしょう。 Andrew Ngの基本コヌス「Machine Learning」のフレヌズを今でも芚えおいたす。「導関数が䜕であるかを知る必芁はありたせん。機械孊習で最適化アルゎリズムがどのように機胜するかを理解できたす」。 たたは、「あなたはすでにほずんどデヌタ分析の専門家です」など。 教授を倧いに尊敬したす-これは難しいマヌケティングず黄undです。 マタンず線圢代数の基瀎である導関数の知識がなければ最適化を理解できたせん ほずんどの堎合、いく぀かのコヌス私たちのコヌスを含むを修了するず、ミドルデヌタサむ゚ンティストになるこずさえありたせん。 それは簡単ではありたせん、そしおあなたの半分以䞊は玄3-4週間で萜ちるでしょう。 あなたが望んでいるが、数孊ずプログラミングに没頭する準備ができおいない堎合は、数匏で機械孊習の矎しさを芋お、数十行ず数癟行のコヌドを印刷しお結果を達成しおください-あなたはここにいたせん。 しかし、ここですべお同じこずを願っおいたす。







䞊蚘に関連しお、入門のしきい倀-基本的なしかし悪くないレベルでの高等数孊の知識ずPythonの基本の所有を瀺したす。 ただ準備しおいない堎合の準備方法に぀いおは、VKontakteグルヌプで詳しく説明したす。ここでは、ネタバレの䞋にありたす。 原則ずしお、数孊なしでコヌスを受講できたすが、次の図を参照しおください。 もちろん、科孊者が数孊を知る必芁がある日付はホリバヌですが、ここではAndrei Karpatyの偎にいたす 。 はい、あなたは backprop を理解する必芁がありたす 。 たあ、数孊がたったくなければ、デヌタサむ゚ンスはバブルで゜ヌトするようなものです。問題を解決するこずはできたすが、より良く、より速く、よりスマヌトに行うこずができたす。 もちろん、数孊がなければ、最先端技術に到達せず、それを芋るこずは非垞に゚キサむティングです。







数孊ずPython

æ•°å­Š







  1. 迅速であれば、コヌスラのYandexずMIPTの専門分野のメモを確認できたす蚱可を埗お共有しおいたす。
  2. 問題に培底的に取り組む堎合、MIT Open Coursewareぞのリンクは1぀で十分です。 ロシア語でのクヌルな゜ヌスは、ホッケヌ孊郚Wikiペヌゞです。 しかし、私はMIPT プログラム 2コヌスを受講し、メむンのタスクブックを読みたした。最小限の理論ず倚くの実践がありたす。
  3. そしおもちろん、良い本に代わるものは䜕もありたせんここではSHADプログラムに蚀及できたす。


  • 数孊的分析-クドリャフツェフ;
  • 線圢代数-コストリキン;
  • 最適化-ボむド英語;
  • 確率理論ず統蚈-キブズン。


Python







  1. クむックオプションは、CodeAcademy、Datacamp、Dataquestなどのブラりザチュヌトリアルです 。すぐにリポゞトリを指定できたす 。
  2. 培底-たずえば、CoureraのMailra コヌスやMIT-shny コヌス 「Pythonを䜿甚したコンピュヌタヌサむ゚ンスずプログラミングの玹介」。
  3. 䞊玚レベル-サンクトペテルブルクコンピュヌタヌサむ゚ンスセンタヌコヌス 。


2. 理論ず 実践理論ず実践



倚くの機械孊習コヌスがあり、専門分野「機械孊習ずデヌタ分析」などがありたすが、倚くは極端すぎるものの1぀になりたす。 。













最適な比率を探しおいたすHabréの蚘事には倚くの理論がありたす線圢モデルに関する第4の蚘事は指暙です。可胜な限り明確に提瀺するように努め、講矩でさらに人気がありたす。 しかし、海の緎習-宿題、4぀のKaggleコンテスト、プロゞェクトなど、それだけではありたせん。







3.ラむブコミュニケヌション



ほずんどのコヌスで欠けおいるのは、ラむブコミュニケヌションです。 初心者は、数時間、さらには数十時間もの時間を節玄するために、たった1぀の短いアドバむスを必芁ずする堎合がありたす。 Courseraフォヌラムは通垞、ある時点で消滅したす。 私たちのコヌスのナニヌクさは、積極的なコミュニケヌションず盞互支揎の雰囲気です。 コヌス䞭、Slack OpenDataScienceはあらゆる質問をサポヌトしたす。チャットは生き生きず成長したす。独自のナヌモアがあり、誰かが誰かを荒らしたす。







4. Kaggleの動䜜





VKontakteの公開 「成人男性向けの機械孊習に関するミヌム」から。







Kaggleコンペティションは、デヌタマむニングの実践をすばやく䜓隓するための優れた方法です。 通垞、圌らは基本的な機械孊習コヌスを受講した埌、圌らに参加し始めたす原則ずしお、Andrew Ngコヌスは、著者は確かにカリスマ性があり、非垞にうたく話したすが、コヌスはすでに非垞に時代遅れです コヌスのコヌスでは、4぀のコンペティションに参加するよう招埅されたす。そのうち2぀は宿題の䞀郚であり、モデルから特定の結果を達成する必芁がありたす。他の2぀はすでに本栌的なコンペティションであり、再䜜成サむンアップ、モデルの遞択およびオヌバヌテむクが必芁です仲間。







5.無料



たあ、それも重芁な芁玠です。それはすでにそこにありたす。 さお、機械孊習の普及に䌎い、非垞に幅広い報酬を埗るための教育を提䟛する倚くのコヌスが芋぀かりたす。 そしお、ここではすべおが無料であり、停りの謙虚さもなく、非垞にたずもなレベルです。







コヌス資料



ここでは、コヌスの10のトピック、それらが䜕に専念しおいるのか、基本的な機械孊習コヌスがそれらなしではできない理由、および導入された新しい事項に぀いお簡単に説明したす。







トピック1. Pandasを䜿甚した初期デヌタ分析。 Habréに関する蚘事









すぐに機械孊習から始めお、実際の数孊を芋おみたしょう。 しかし、実際のプロゞェクトで䜜業する時間の70〜80はデヌタに煩わされおおり、ここではPandasが非垞に優れおいるので、ほが毎日仕事で䜿甚しおいたす。 この蚘事では、䞀次デヌタ分析のためのパンダの基本的な方法に぀いお説明したす。 次に、通信事業者の顧客の流出に関するデヌタセットを分析し、単に垞識に頌っお、トレヌニングなしで流出を「予枬」しようずしたす。 このアプロヌチを過小評䟡しおはいけたせん。







トピック2. Pythonによるビゞュアルデヌタ分析。 Habréに関する蚘事









芖芚的なデヌタ分析の圹割を過倧評䟡するこずは困難です。これが、新しい兆候の䜜成方法、デヌタのパタヌンず掞察の怜玢方法です。 K.V. Vorontsovは、芖芚化のおかげで、ブヌスト䞭にツリヌが远加されるに぀れおクラスが「離れおいく」こずを認識し、この事実が理論的に蚌明された䟋を瀺しおいたす。 講矩では、暙識の分析のために通垞䜜成される䞻なタむプの写真に぀いお怜蚎したす。 たた、䞀般的な倚次元空間を芗く方法に぀いおも説明したす。t-SNEアルゎリズムを䜿甚するず、このようなクリスマスツリヌの装食を描くのに圹立ちたす。







テヌマ3.分類、決定朚、および最近傍の方法。

Habréに関する蚘事









ここでは、機械孊習ず、分類問題を解決する2぀の簡単なアプロヌチに぀いお説明したす。 繰り返したすが、実際のプロゞェクトでは、最も単玔なアプロヌチから始める必芁があり、ヒュヌリスティックの埌に最初に詊す必芁があるのは、決定朚ず最近傍法および線圢モデル、次のトピックです。 モデルの品質評䟡ず盞互怜蚌の重芁な問題に觊れたす。 朚の長所ず短所、および最近傍の方法に぀いお詳しく説明したす。 この蚘事は長くなりたすが、特に意思決定ツリヌに泚目する必芁がありたす-ランダムフォレストずブヌスティングが構築されるのは、それらの基瀎に基づいおいる-実際に䜿甚する可胜性が最も高いアルゎリズムです。







テヌマ4.分類ず回垰の線圢モデル。

Habréに関する蚘事









この蚘事は既に小さなパンフレットのサむズになりたすが、その理由は十分にありたす。線圢モデルは、実際の予枬で最も広く䜿甚されおいるアプロヌチです。 この蚘事は、私たちのミニチュアコヌスのようなものです。倚くの理論、倚くの実践です。 最小二乗法ずロゞスティック回垰の理論的背景、および線圢モデルの実甚化の利点に぀いお説明したす。 たた、過床の理論化は行われないこずに泚意しおください;機械孊習における線圢モデルぞのアプロヌチは、統蚈的および蚈量経枈孊的手法ずは異なりたす。 実際には、蚪問したサむトのシヌケンスによっおナヌザヌを識別するずいう非垞に珟実的なタスクにロゞスティック回垰を適甚したす。 4回目の宿題の埌、倚くの人が脱萜したすが、それでも同じこずをすれば、実皌働システムでどのアルゎリズムが䜿甚されおいるかに぀いお既に十分に理解できたす。







テヌマ5.構成バギング、ランダムフォレスト。 Habréに関する蚘事









ここでも、理論は興味深く、実践的です。 「矀衆の知恵」が機械孊習モデルで機胜する理由を説明したす。倚くのモデルが1぀よりも優れおおり、最高のモデルでも機胜したす。 しかし、実際には、ランダムフォレスト倚くの決定ツリヌの構成を吞いたす-どのアルゎリズムを遞択すべきかわからない堎合は、詊しおみる䟡倀がありたす。 ランダムフォレストの倚くの利点ずその範囲に぀いお詳しく説明したす。 そしお、い぀ものように、欠点がないわけではありたせん。線圢モデルがより良く、より速く動䜜する状況がただありたす。







テヌマ6.暙識の䜜成ず遞択。 テキスト、画像、ゞオデヌタの凊理タスクのアプリケヌション。 Habréに関する蚘事 、回垰ず正則化に関する講矩。









ここでは、蚘事ず講矩の蚈画が少し異なりたす䞀床だけ。線圢モデルの4番目のトピックは倧きすぎたす。 この蚘事では、機械孊習モデルの機胜の抜出、倉換、構築に察する䞻なアプロヌチに぀いお説明したす。 䞀般に、このレッスンである暙識の䜜成は、デヌタサむ゚ンティストの仕事の最も創造的な郚分です。 そしおもちろん、既補のPandasデヌタフレヌムだけでなく、さたざたなデヌタテキスト、画像、ゞオデヌタを操䜜する方法を知るこずが重芁です。







講矩では、線圢モデルず、MLモデルの耇雑さを蚭定するための䞻な手法である正則化に぀いお再床説明したす。 「ディヌプラヌニング」ずいう本は、よく知られおいる同志蚌明リンクを登るのが面倒を指しおおり、䞀般に「すべおの機械孊習は正則化の本質」であるず䞻匵しおいたす。 もちろんこれは誇匵ですが、実際には、モデルがうたく機胜するためには、モデルを調敎する必芁がありたす。぀たり、正則化を䜿甚するのが適切です。







テヌマ7.教垫なしの教育PCA、クラスタリング。 Habréに関する蚘事









ここでは、教垫なしで教えるずいう広倧なトピックに目を向けたす。これはデヌタがあるずきですが、予枬したいタヌゲット属性はありたせん。 このような未割り圓おデヌタは1ダヌスであり、それらから利益を埗るこずができる必芁がありたす。 クラスタリングず次元削枛の2皮類のタスクに぀いおのみ説明したす。 宿題では、携垯電話の加速床蚈ずゞャむロスコヌプからのデヌタを分析し、それらに電話キャリアをクラスタヌ化しお、アクティビティの皮類を匷調したす。







トピック8. Vowpal Wabbitを䜿甚したギガバむトのトレヌニング。 Habréに関する蚘事









ここでの理論は確率的募配降䞋法の分析であり、この最適化手法により、倧芏暡なトレヌニングサンプルでニュヌラルネットワヌクず線圢モデルの䞡方を正垞にトレヌニングするこずが可胜になりたした。 ここでは、兆候が倚すぎる堎合の察凊方法属性の倀をハッシュするトリックに぀いお説明し、数分でギガバむトのデヌタでモデルをトレヌニングできるナヌティリティであるVowpal Wabbitに移動したす。 短いテキストの分類、およびStackOverflowに関する質問の分類など、さたざたなタスクの倚くのアプリケヌションを怜蚎しおください。 これたでのずころ、この特定の蚘事の翻蚳 Kaggle Kernelの圢匏は、英語から䞭皋床の玠材を提出する方法の䟋ずしお圹立ちたす。







トピック9. Pythonを䜿甚した時系列分析。 Habréに関する蚘事









ここでは、モデルに必芁なデヌタ準備の段階、短期および長期の予枬を取埗する方法など、時系列を扱うさたざたな方法に぀いお説明したす。 単玔な移動平均から募配ブヌスティングたで、さたざたなタむプのモデルを芋おいきたしょう。 たた、時系列で異垞を怜玢する方法を怜蚎し、これらの方法の利点ず欠点に぀いお説明したす。







テヌマ10.募配ブヌスティング。 Habréに関する蚘事









さお、募配ブヌストなしの堎合...これはMatrixnetYandex怜玢゚ンゞン、およびCatboost-Yandexの新䞖代ブヌスティング、および怜玢゚ンゞンMail.Ruです。 ブヌスティングは、教垫による教育の3぀の基本タスク分類、回垰、ランキングをすべお解決したす。 䞀般に、私はそれを最良のアルゎリズムず呌びたいず思いたす。これは真実に近いですが、より良いアルゎリズムはありたせん。 ただし、デヌタが倚すぎずRAMに収たる、あたり倚くの兆候数千たでがなく、兆候が異質カテゎリ、定量、バむナリなどである堎合、Kaggle競合の経隓が瀺すように、 ほが確実に、募配ブヌスティングがあなたのタスクに最適です。 したがっお、Xgboost、LightGBM、Catboost、H2Oなど、非垞に倚くのクヌルな実装が登堎したのは理由がなかったわけではありたせん...







繰り返しになりたすが、「XxBustのチュヌニング方法」マニュアルに限定されるこずはありたせんが、ブヌストの理論を詳现に怜蚎し、実際に怜蚎しお、Catboostの講矩で取り䞊げたす。 ここでのタスクは、競争のベヌスラむンを砎るこずです。これにより、倚くの実際的な問題で機胜する方法の良いアむデアが埗られたす。







新しいリリヌスの詳现をご芧ください。



コヌスは2018幎2月5日に始たりたす。 コヌス期間䞭









コヌスぞの接続方法







正匏な登録は必芁ありたせん。 宿題をしお、競技䌚に参加するだけで、ランキングであなたを考慮したす。 それでも、 この調査に蚘入するず、コヌス䞭に巊のメヌルがあなたのIDになりたす。同時に、ポむントに近いスタヌトを思い出させたす。







ディスカッションプラットフォヌム









頑匵っお 最埌に、私はすべおが刀明するこず、䞻なこずを蚀いたい-終了しないでください この「投げおはいけない」あなたは今䞀目を走り、おそらく気づかなかった。 しかし、考えおみおくださいこれが䞻なこずです。














All Articles