FiztekhおよびYandexのCourseraでの機械孊習の専門

幎の初めに、YandexずHSEの機械孊習コヌスがCourseraで開講されたした。 ロヌンチ時には、14,000人がサむンアップしたした。 オヌプニングの1時間埌、ナヌザヌはSlackでチャンネルを䜜成し、そこでプログラムに぀いお議論し始めたした。 珟圚、すでに21,000人のリスナヌがいたす。







2月9日に、すでにFiztehず䞀緒に私たちのスペシャリストによっお開発されおいる機械孊習専門分野の録音が、プラットフォヌムで利甚可胜になりたした。 リスナヌがトピックに没頭できるように蚭蚈されおいたす。



専門分野である「機械孊習ずデヌタ分析」は、5぀のコヌスで構成され、独自のプロゞェクトに取り組みたす。 トレヌニングは数ヶ月続きたす。 2月19日たで登録できたす。 これを行う時間がない堎合は、3月14日から2番目のストリヌムにサむンアップできたす。



このコヌスの䜜成者は、PhysTechで教えるYandex Data FactoryのスペシャリストであるYandexの埓業員です。 コンスタンチン・ノォロンツォフもその䞭にいたす。 同僚の䜕人かに、専門分野の恩恵を受ける可胜性があるのは誰か、なぜそれが必芁なのかを尋ねたした。 たた、カットの䞋-すべおのコヌスのプログラム。



Viktor Kantor-アルゎリズムおよびプログラミング技術郚門の䞊玚講垫、FIVT MIPT、Yandex Data Factoryのナヌザヌデヌタ分析グルヌプの責任者。 圌はモスクワ物理孊技術研究所で「アルゎリズムずプログラミング技術」、「デヌタ分析」、「銀行情報技術」郚門で講矩ずセミナヌを行い、「コンピュヌタヌ蚀語孊」ず「画像認識ずテキスト凊理」郚門でも教えおいたす。



私たちの専門分野は、デヌタ分析の分野の専門家のトレヌニングでよく芋られる問題を解決したす。

  1. Pythonおよびデヌタ分析ラむブラリに関する必芁な知識を即座に提䟛するため、将来、理論が実践から脱华するこずはありたせん。
  2. 次のような冒ずく的な衚珟を配眮しないように、将来必芁な数孊をすぐに思い出させたす。「ああ、これらは行列です。 たあ、あなたはそれらで䜕ができるかを芚えおいないこずは問題ではありたせん-あなたはただコンピュヌタ䞊でそれらを乗算したす。」 私たちはあなたに私たちが蚀った方法を理解しおほしい。
  3. 私たちは、実際によく䜿甚されるものに぀いお説明したすが、単にもっず䌝えたいだけのものではありたせん。
  4. 統蚈を䜿甚しおデヌタから結論を導き、よくある間違いを避けるこずをお教えしたす。
  5. 倚くの適甚された問題を分析したす。その䟋では、孊んだこずをすべお適甚する方法を孊びたす。




Evgeny RyabenkoはYandex Data Factoryの有力なアナリストであり、物理孊および数理科孊の候補者であり、MIPTの准教授です。 圌はVMKモスクワ州立倧孊ずFUPM MIPTの孊郚で応甚統蚈に関する講矩を行っおいたす。 Yandex Data Analysis Schoolの講垫。



HSEコヌスず専門分野の違いは、教育のペヌスだけでなく、取り䞊げられおいるトピックにもありたす。 Konstantin Vyacheslavovichのコヌスは機械孊習専甚です。 これはかなり珟代的な科孊分野ですが、その存圚の長幎にわたっお、その教育の特定の孊術的芏範がすでに圢成されおいたす最初に最も簡単な方法が説明され、次により耇雑な方法がそれらに基づいお構築され、最終的にどこかで最先端の技術に到達したす適甚されたタスクで本圓に高品質の結果を埗るこずができたす。 倧たかに蚀えば、機械孊習は数孊的分析ずしお教えられたす。



私たちの専門分野では、より耇雑で完党なデヌタサむ゚ンスの党䜓像を提䟛しようずしおいたす。ここでは、機械孊習が最も重芁な芁玠の1぀ですが、それだけではありたせん。 珟圚、デヌタサむ゚ンスのトピックに関する暙準的なコヌパスはありたせんが、同僚ず私は実践者ずしお、適甚された問題で䜕らかの方法で察凊しなければならないこずに぀いおある皋床の考えを持っおいたす。 たずえば、デヌタを収集するための実隓ずシミュレヌション結果を解釈するための方法を構築するためのテクニックに専念する別のコヌスがありたす-これは統蚈の応甚分野です。 機械孊習自䜓に関しおは、専門分野では、HSEが怜蚎するトピックの範囲を拡倧し、たずえば、教垫なしで教える問題に倚くの泚意を払いたす。この分野では、クラスタリング、異垞の怜玢、構造の抜出など、テキスト。 いく぀かの重芁なトピック-たずえば、アルゎリズムの構成-は、実際の重芁性に埓っお、より詳现に怜蚎されたす。



適甚されるタスクを芋るすべおのトレヌニングの出発点。 特定のアプリケヌション分野に関係なく、デヌタの科孊で最も頻繁に発生する最も重芁な生産物を怜蚎したす。 掚奚システムを構築したり、時系列を予枬したりするタスクは、機械孊習のさたざたな方法で解決できたす。 このような問題がどのように数孊的なステヌトメントに垰着するか、どの分析方法を詊しおみるのが理にかなっおいるか、そしお最終的に最良のものを遞択する方法を生埒に教えたいず思いたす。




Evgeny Sokolovは、Yandex Data Factoryの非構造化デヌタ分析グルヌプの責任者です。 2013幎、モスクワ商工倧孊を卒業し、珟圚、マトリックス分解に関する論文を曞いおいたす。 孊郚で機械孊習ワヌクショップを開催し、経枈孊郚で講矩を行いたす。 Yandex Data Analysis Schoolの講垫。



HSEの機械孊習コヌスが開始されたずき、倚くの人々がトピックにスムヌズに没頭する必芁があるこずが明らかになりたした。 コヌスは倚くの人にずっお難しいこずがわかりたした。そのような圢匏は非垞に集䞭しおいるからです。 耇雑な蚈算が倚すぎるこずや、Pythonをよく理解する必芁があるこずに぀いお䞍満を蚀う人がいたす。 専門分野はいく぀かのコヌスで構成されおおり、孊習をスムヌズに行うこずができたす。 最初のコヌスは、人々が関䞎するのを助け、Pythonず必芁な数孊を教えたすだから誰も「デリバティブ」ず「ベクトル」ずいう蚀葉を恐れたせん。 基本的な機械孊習に぀いお説明する郚分は、2぀のコヌスで構成されおいたす。 さらに、特殊化圢匏により、実際に必芁なデヌタ分析の他の有甚な領域をカバヌできたした。 1぀の倧きなプロゞェクトず远加のコヌスもありたす。





Emeli Dralは、Yandex Data Factoryの䞻芁なアナリストです。 圌女は、RUDN倧孊の物理、数孊、自然科孊の情報技術孊郚を卒業したした。 トレヌニング資料を䜜成し、「゜フトりェアシステム開発技術」、「゜フトりェアシステム開発ぞのオブゞェクト指向アプロヌチ」、「知的怜玢方法」などのコヌスを教えたした。 MIPTで、圌はコンピュヌタヌテクノロゞヌおよびコンピュヌタヌ゚ンゞニアリング研究所、アルゎリズムおよびプログラミングテクノロゞヌ孊科で「機械孊習」コヌスのセミナヌを開催しおいたす。



専門分野ずコヌスは、解決するタスクが異なりたす。 私はHSEからのコヌスが本圓に奜きです-それは非垞に基本的です。 問題の圢匏化された数孊的定匏化、アルゎリズムの構造、およびその背埌にある数孊に぀いお説明しおいたす。 私の意芋では、このコヌスは、䜕らかの機械孊習アルゎリズムを䜿甚するだけでなく、その仕組みを理解したい十分に蚓緎された孊生に適しおいたす。 これを行うには、適切な数孊的装眮を所有する必芁がありたす。



専門化は、難しい問題に移る前に、理論的な知識や実践的な経隓がない人や䜕かを忘れた人を助ける簡単な問題を怜蚎する機䌚を䞎えおくれたす。 線圢代数、数孊的分析および統蚈から興味深い事実を思い出し、たずえば仮説怜定に぀いお話したす。 倚くの人はこれらのこずを忘れるこずができたす。圌らは長い間それらを研究しおきたからです。 ペヌスは遅くなりたすが、゚ントリヌのしきい倀は䜎くなりたす。



さらに、スペシャラむれヌションのプレれンテヌションも少し異なりたす。 䜿甚するすべおのものが盎感的であるこずを確認しようずしたす。




コヌス1.デヌタ分析のための数孊ずPython



このコヌスでは、デヌタ分析に必芁な基本的な数孊的抂念に粟通し、Pythonの初期プログラミングスキルを習埗したす。 コヌスは2぀の倧きな郚分で構成されおいたす。 コヌスの最初の郚分は実甚的で、Pythonプログラミング蚀語に焊点を圓おおいたす。 蚀語の構文ずむデオロギヌに粟通し、簡単なプログラムを曞くこずを孊びたす。 たた、NumPy、SciPy、Matplotlib、Pandasなど、実際にデヌタ分析によく䜿甚されるラむブラリに぀いおも孊習したす。 コヌスの2番目の郚分は、線圢代数、数孊的分析、最適化手法、確率論などの数孊の分野に専念したす。 同時に、耇雑な公匏の導出や定理の蚌明ではなく、数孊的抂念の説明ず実際の応甚に重点が眮かれおいたす。



コヌス2.タグ付きデヌタのトレヌニング



私たちの泚意の焊点は、線圢モデル、ニュヌラルネットワヌク、決定朚などの実際の分類および回垰アルゎリズムにうたく適甚されたす。 個々のアルゎリズムの品質を倧幅に向䞊させるこずができ、応甚問題の解決に広く䜿甚されおいる構成䜜成などの匷力な手法に特に重点を眮きたす。 特に、ランダムフォレストず募配ブヌスティング法に぀いお孊びたす。



予枬アルゎリズムの構築は、デヌタ分析の問題を解決する仕事の䞀郚にすぎたせん。 アルゎリズムの䞀般化胜力の評䟡、モデルパラメヌタヌの遞択、品質指暙の遞択ず蚈算など、他の段階を扱いたす。



コヌス3.デヌタ内の構造の怜玢



このコヌスでは、デヌタクラスタリングアルゎリズムに぀いお孊習したす。たずえば、これを䜿甚しお、類䌌のモバむルオペレヌタヌクラむアントのグルヌプを怜玢できたす。 マトリックス分解を構築しおテヌマモデリングの問題を解決し、デヌタの次元を枛らし、異垞を探し、倚次元デヌタを芖芚化する方法を孊びたす。



コヌス4.デヌタの結論



デヌタ分析方法の知識は賃金に圱響したすか 銀行の顧客の信甚力を評䟡するシステムは機胜しおいたすか 新しいバナヌは叀いバナヌより本圓に優れおいたすか このような質問に答えるには、デヌタを収集する必芁がありたす。 デヌタにはほずんどの堎合ノむズが含たれおいるため、それらに基づいお䜜成できるステヌトメントは垞に正しいずは限りたせんが、䞀定の確率でのみです。 統蚈的手法は、最も正しい結論を構築し、それらに察する信頌床を数倀的に評䟡するのに圹立ちたす。



少数の芳枬から未知のシステムパラメヌタヌを掚定するにはどうすればよいですか そのような掚定の粟床を枬定する方法は 質問に回答するにはどのデヌタが必芁ですかたた、既存のデヌタを䜿甚しお回答できる質問は䜕ですか デヌタを結論に導くために必芁なすべおを孊びたす-実隓の線成、A / Bテスト、パラメヌタヌを掚定し、仮説、盞関、因果関係をテストするための普遍的な方法。



コヌス5.適甚されるデヌタ分析タスク



このコヌスでは、テキスト分析ず情報怜玢、協調フィルタリングず掚奚システム、ビゞネス分析、時系列予枬など、デヌタ分析のさたざたな分野から適甚されたタスクを分析したす。 それらの䟋を䜿甚しお、異皮デヌタから蚘号を抜出する方法、この堎合に発生する問題、およびそれらを解決する方法を孊習したす。 顧客のタスクを機械孊習問題の正匏な声明に枛らす方法を孊び、構築されたモデルの品質を履歎デヌタずオンラむン実隓で確認する方法を理解したす。 各タスクに぀いお、合栌した機械孊習アルゎリズムの長所ず短所を調査したす。



このコヌスを聞いた埌、䞀般的なタむプの応甚問題に粟通し、それらを解決するためのスキヌムを理解したす。



デヌタ分析最終プロゞェクト



モデルデヌタに基づくタスクずは異なり、実際のプロゞェクトに取り組むこずで、デヌタの準備から最終モデルの構築、品質の評䟡たで、デヌタ分析のすべおの段階を個別に進めるこずができたす。 その結果、プロゞェクトが実際に䜿甚できる歊噚庫に衚瀺され、将来独立しお開発できたす。



私たちの専門分野の理想的な目暙は、リスナヌが自分の専門的な経隓に合ったレベルでデヌタサむ゚ンティストの立堎でむンタビュヌできるようにするこずです。 デヌタの科孊をマスタヌし、その方法を䜿甚しお分析問題を解決する方法を孊びたす-デヌタの収集から最適なモデルの構築ずその品質の評䟡たで。 Coursera 専門ペヌゞの詳现ず゚ントリ。



All Articles