機械学習とデータ分析。 Yandex Small ShADのレクチャー

多くの場合、大量のデータの内部パターンを識別する必要に直面しています。 たとえば、スパムを認識するには、電子メールのコンテンツのパターンを見つけ、株価、財務データのパターンを予測できる必要があります。 残念ながら、それらを「手動」で識別することは不可能な場合が多く、機械学習法が助けになります。 これらにより、まだ説明されていない新しいパターンを見つけるのに役立つアルゴリズムを構築できます。 機械学習とは何か、それを使用する価値がある場所、およびどのような困難が生じる可能性があるかについて説明します。 いくつかの一般的な機械学習方法の動作原理を、実際の例を使用して検討します。



講義は高校生-Small ShADの学生を対象としていますが、大人はそれを使用して機械学習の基本を理解することができます。



画像



機械学習の主なアイデアは、トレーニングプログラムとパターン付きデータの例を用意することです。パターンのモデルを構築し、新しいデータでパターンを見つけることができます。







最近傍法



たとえば、単純な問題を解決します。 平面上には、赤と青の2色のドットが点在しています。 それぞれの座標と色は私たちに知られています。 新しいポイントの色を決定する必要があります。 各ポイントは調査対象オブジェクトであり、座標と色はそのパラメーターです。 たとえば、オブジェクトは人、座標は人の髪の毛の長さと長さ、色は人の性別です。



画像



最近傍法で解決してみましょう。 新しいオブジェクトをその最近傍と同じクラスに属します。 平面上の各ポイントの予測を行います。最も近いポイントが青の場合、このポイントに表示される新しいオブジェクトは青です。 そしてその逆。



画像



したがって、2つの領域が得られます。1つは赤色のドットが出現する可能性が高く、もう1つは青色です。



画像



次に、アルゴリズムをわずかに変更して、いくつかの(k)最近傍に焦点を当てましょう。 kを5に等しくします。



画像



この場合、ノイズの可能性のあるオブジェクトをカットし、より均等なクラス分離境界を取得できます。



画像



これは、正規分布によって取得された多数のオブジェクトの分離がどのように見えるかです。



画像



アルゴリズムの品質とパラメーター



再び、赤と青のドットが特定の方法で配置された平面があると想像してください。



画像



さまざまな方法でそれらの間に境界を描くことができます。 結果は、アルゴリズムがデータに対してどのように調整されるかに依存します。



画像



原則として、モデルの再トレーニングの傾向は、そのパラメーターの数に関連しています。 そのため、たとえば、パラメーターの数が少ないモデルは、再トレーニングすることができません



一般的な場合、機械学習の問題では、平面上ではなく、多次元空間内の点が考慮されます。 各座標は記号です。 したがって、トレーニングサンプルは次のように表すことができます。



画像



しかし、どのアルゴリズムを選択し、その作業の品質をどのように評価するのでしょうか? このため、ラベル付きのトレーニングサンプルは2つの部分に分割されます。 最初の部分では、トレーニングが直接行われ、2番目の部分はコントロールとして使用されます。 その上で、アルゴリズムが生成したエラーの数をチェックします。



問題解決サイクル



機械学習の問題を解決するおおよそのサイクルは次のようになります。



画像



まず、データを前処理してから、分類方法とパラメーターを選択し、トレーニングを実施して品質を評価します。 品質が3倍になると、タスクは完了したと見なされます。 それ以外の場合は、メソッドとパラメーターの選択に戻ります。



より詳細な情報、機械学習の実際の問題の例、および超平面、 ニューラルネットワークに関するストーリー。 ビデオ講義では、ディープラーニング、 Viola-Jonesメソッド決定的なツリー 、ブースティングが利用できます。



All Articles