Yandex MachineおよびHSE Machine Learningコース

Habrで 、データ分析学部のKonstantin Vorontsovによる機械学習コースを公開しました。 その後、これを宿題のある本格的なコースにして、カーソルの上に置くように提案されました。



そして今日、私たちは最終的にこれらすべての願いを実現できると言いたいです。 1月には、Yandex(データ分析学部)とHSEが共同で開催するコースがKurserで開催されます。 今すぐサインアップできます: www.coursera.org/learn/introduction-machine-learning





ヤンデックスオフィスのCoursera共同設立者Daphne Koller



コースは7週間続きます。 これは、ShADの2学期コースと比較して、大幅に簡素化されることを意味します。 しかし、この7週間で、実際に役立つものと、あなたが知ることができない基本的なことだけに対応しようとしました。 その結果、機械学習の最初の知り合いにとって理想的なロシア語コースができました。



さらに、コースを修了すると、人は頭の中で理論を身につけるだけでなく、「指で」スキルを身に付ける必要があると考えています。 したがって、すべての実践的な演習は、 scikit-learnライブラリー(Python)の使用を中心に構築されています。 コースを修了すると、データ分析の問題を自分で解決できるようになり、開発がさらに容易になります。



カットの下で、あなたはコースのすべての著者についてもっと読むことができ、そのおおよその内容を見つけることができます。



先生について



コースの講師-コンスタンチン・ヴォロンツォフ。 Konstantin Vyacheslavovichは、長年にわたりShAD、HSE、MIPT、モスクワ州立大学の学生に機械学習の基礎を教えてきました。



コースの実際的な部分は、ピーター・ロモフ、アンナ・コズロワ、エフゲニー・ソコロフによって準備されました。 3つすべてがYandex( Yandex Data Factoryの ZhenyaとPetya、 機械翻訳部門のAnya)で働き、日常活動に機械学習を適用しています。 彼らはデータ分析の分野で何が起こっているかを認識しており、彼らの実装がコース参加者に最大の利益をもたらすように課題を準備しようとしました。



プログラム



これは、コースの開始と同時に「コースター」で開く形式のコースモジュールの説明です。



1.データ分析と機械学習に精通している。

このモジュールでは、機械学習が解決するタスクについて説明し、概念の基本セットを定義し、必要な表記法を紹介します。 また、データを操作するための主要なPythonライブラリ(NumPy、Pandas、Scikit-Learn)についても説明します。これらは、コース全体で実践的なタスクを完了するために必要です。



2.論理的な分類方法。

論理メソッドは、単純なルールに基づいてオブジェクトを分類するため、解釈可能で実装が簡単です。 論理モデルを組み合わせて構成すると、多くの問題を高品質で解決できます。 このモジュールでは、論理アルゴリズムの主要なクラスである決定木について学習します。 また、ツリーを組み合わせてランダ​​ムフォレストと呼ばれる構成にする方法についても説明します。



3.メトリック分類方法。

メトリックメソッドは類似性に基づいて分類されるため、複雑な構造のデータを処理できます。主なことは、オブジェクト間の距離を測定できることです。 k最近傍の方法と、核平滑化を使用して回帰問題に一般化する方法を研究します。



4.線形分類法。

線形モデルは、機械学習で最も研究されているアルゴリズムのクラスの1つです。 簡単にスケーラブルであり、ビッグデータを扱うために広く使用されています。 このモジュールでは、線形分類器を調整するための確率的勾配法を研究し、正則化に精通し、線形法を使用する際の微妙な点について説明します。



5.サポートベクター法とロジスティック回帰。

線形法には、このモジュールで説明するいくつかの非常に重要な亜種があります。 サポートベクターメソッドは、オブジェクトのインデントを最大化します。これは、再トレーニングの可能性を最小限に抑えることに密接に関連しています。 さらに、音の遷移により非線形分割面の構築に非常に簡単に進みます。 ロジスティック回帰により、クラスに属する確率を評価できます。これは、多くの応用問題で役立ちます。



6.品質分類のメトリック。

機械学習には多数の品質指標があり、それぞれに独自の解釈が適用され、ソリューションの特定の特性を測定することを目的としています。 このモジュールでは、バイナリおよびマルチクラス分類の品質メトリックスについて説明し、マルチクラスの問題を2クラスの問題に減らす方法を検討します。



7.線形回帰。

このモジュールでは、回帰の線形モデルを研究し、「特徴属性」行列の特異分解との関係について説明します。



8.主成分の次元と方法を下げる。

アプリケーションでは、多くの場合、機能の数を減らす必要があります(たとえば、モデルの作業を高速化するため)。 このモジュールでは、特徴の選択へのアプローチについて説明し、次元を縮小する最も一般的な方法の1つである主成分の方法についても学習します。



9.アルゴリズムの構成。

多数のモデルをコンポジションに結合すると、個々のモデルが互いのエラーを修正するため、最終品質が大幅に向上します。 このモジュールでは、作曲に関連する問題の基本的な概念と記述について説明し、それらを構築する最も一般的な方法の1つである勾配ブースティングについて説明します。



10.ニューラルネットワーク。

ニューラルネットワークを使用すると、複雑な非線形分割面を見つけることができます。これが、画像や音声認識などの困難なタスクで広く使用されている理由です。 このモジュールでは、エラーバックプロパゲーション法を使用して、多層ニューラルネットワークとその構成を学習します。 また、ディープニューラルネットワーク、そのアーキテクチャと機能についても説明します。



11.クラスタリングと視覚化。

このモジュールは、機械学習における新しいクラスのタスク-教師なしで学習することに専念しています。 これにより、データ内の構造を見つけるか、その「インテリジェンス」を実行する必要がある状況を意味します。 このモジュールでは、クラスタリング(類似オブジェクトのグループの検索)と視覚化(オブジェクトの2次元または3次元空間へのマッピング)の2つのタスクについて説明します。



12.部分トレーニング。

部分学習は、教師による学習とクラスタリングの間のタスクとして理解されます。ターゲット変数の値がオブジェクトの一部についてのみ知られているサンプルが提供されます。 このような状況は、オブジェクトのマークアップが高価な操作である場合に発生しますが、同時に、オブジェクトの符号をかなり安価に計算できます。 このモジュールでは、部分トレーニングと前述の設定の違いについて説明し、ソリューションへのいくつかのアプローチを分析します。



13.適用されたタスクの機械学習

このモジュールでは、コースを要約し、データ分析の問題を解決する主な手順を思い出してください。 また、最終プロジェクトの準備をするために、アプリケーション領域のいくつかのタスクを分析します。



All Articles