🙅🏻 ⚒️ 🚸 Microsoft Azureの機械学習のアルゴリズムを選択する方法 🍬 💪🏿 😜

この記事では、 Microsoft Azure Algorithm Libraryから予測分析ソリューションに適切なアルゴリズムを選択するのに役立つMicrosoft Azure Machine Learning Cheat Sheetを紹介します。また、使用方法も学習します。

「どのような機械学習アルゴリズムを使用すべきか」という質問に対する答えは、常に次のように聞こえます。「状況に応じて」。アルゴリズムの選択は、データの量、品質、性質によって異なります。結果をどのように管理するかによります。それは、それを実装するコンピューターの命令がアルゴリズムからどのように作成されたか、そしてどれだけの時間があるかに依存します。最も経験豊富なデータアナリストでさえ、自分で試してみるまで、どのアルゴリズムが優れているかはわかりません。

Microsoft Azure Machine Learningのチートシート

Microsoft Azure Machine Learning Cheat Sheetをここからダウンロードします。

Azure Machine Learning Studioで使用するアルゴリズムを選択したい、機械学習の十分な経験を持つ初心者のデータ分析スペシャリスト向けに作成されました。これは、チートシートの情報が一般化および簡略化されていることを意味しますが、さらなるアクションの正しい方向を示します。また、すべてのアルゴリズムが含まれているわけではありません。 Azure Machine Learningが進化し、より多くのメソッドが提供されると、アルゴリズムが補完されます。

これらの推奨事項は、多くのデータアナリストと機械学習の専門家のフィードバックとアドバイスに基づいています。私たちはすべてにおいて互いに同意しているわけではありませんが、私たちの意見を一般化し、合意に達するように努めました。ほとんどの物議を醸す点は、「状況に応じて...」という言葉で始まります:)

チートシートの使用方法

次のように、図のパスとアルゴリズムのラベルを読み取る必要があります。「< パスラベルの場合> <アルゴリズム >を使用」。たとえば、「 速度を上げるには、 2つのクラスのロジスティック回帰を使用します。」時には複数のブランチを使用できます。時にはそれらのどれもが完璧な選択ではないでしょう。これらは単なる推奨事項であるため、不正確さを心配しないでください。最良のアルゴリズムを見つける唯一の確実な方法は、それらすべてを試すことだと私が話すことができたいくつかのデータアナリスト。

Cortana Intelligence Galleryの実験例を次に示します。この実験では、同じデータを使用していくつかのアルゴリズムが試行され、結果が比較されます。

この記事では、Machine Learning Studioの機能の概要を示す図をダウンロードして印刷できます。

機械学習の種類

教員養成

教師ベースの学習アルゴリズムは、一連の例に基づいて予測を行います。したがって、将来の価格を予測するために、過去の株価を使用できます。トレーニングに使用される各例には、独自の特徴的な値ラベル（この場合は株価）が付けられます。教師による学習アルゴリズムは、これらの値ラベルのパターンを探しています。アルゴリズムは、曜日、時刻、会社の財務データ、業界の種類、深刻な地政学的イベントの存在など、あらゆる重要な情報を使用でき、各アルゴリズムはさまざまな種類のパターンを探します。アルゴリズムが適切な規則性を見つけた後、その助けを借りて、将来の価格を予測するために未割り当てのテストデータを予測します。

これは人気のある便利なタイプの機械学習です。 1つの例外を除き、すべてのAzure機械学習モジュールは教師学習アルゴリズムです。 Azure Machine Learning Servicesは、教師によるいくつかの特定の種類の機械学習（分類、回帰、異常検出）を提供します。

分類。データを使用してカテゴリを予測する場合、教師による学習は分類と呼ばれます。この場合、画像には「猫」や「犬」などが割り当てられます。選択肢が2つしかない場合、これは2クラス分類と呼ばれます。 NCAA March Madnessトーナメントの勝者を予測する場合など、さらにカテゴリがある場合、これはマルチクラス分類と呼ばれます。
回帰。たとえば、株価の場合に値が予測される場合、教師との学習は回帰と呼ばれます。
放出フィルタリング 。異常なデータポイントを特定する必要がある場合があります。たとえば、詐欺が検出された場合、クレジットカードの支出の奇妙なパターンが疑われます。可能な選択肢が非常に多く、トレーニングの例が非常に少ないため、不正行為がどのように見えるかを見つけることはほとんど不可能です。外れ値をフィルタリングする場合、通常のアクティビティが（有効なトランザクションのアーカイブを使用して）単純に調査され、大きな違いがあるすべての操作が検出されます。

教師なし学習

教師なし学習では、データオブジェクトにはラベルがありません。代わりに、教師なし学習アルゴリズムはデータを整理するか、その構造を記述する必要があります。これを行うには、それらをクラスターにグループ化してより構造化するか、複雑なデータを単純化する他の方法を見つけます。

強化トレーニング

強化学習の一部として、アルゴリズムは各着信データオブジェクトに応じてアクションを選択します。しばらくすると、学習アルゴリズムは、決定がどの程度正しかったかを示す報酬信号を受け取ります。これに基づいて、アルゴリズムは最高の報酬を受け取るために戦略を変更します。現在、Azure Machine Learningには強化学習モジュールはありません。強化学習はロボット工学では一般的です。ロボット工学では、特定の時点でのセンサー読み取り値のセットがオブジェクトであり、アルゴリズムは次のロボットアクションを選択する必要があります。さらに、このアルゴリズムは、モノのインターネット上のアプリケーションに適しています。

アルゴリズム選択のヒント

精度

最も正確な答えが常に必要なわけではありません。目的によっては、おおよその答えを得るのに十分な場合もあります。その場合、おおよその方法を選択することで作業時間を大幅に短縮できます。近似法のもう1つの利点は、再トレーニングが除外されることです。

トレーニング時間

モデルのトレーニングに必要な分数または時間数は、アルゴリズムに大きく依存します。多くの場合、トレーニング時間は精度に密接に関連しています-それらは互いに定義します。また、一部のアルゴリズムは他のアルゴリズムよりもトレーニングサンプルのサイズに敏感です。時間制限は、特に大きなトレーニングセットが使用される場合に、アルゴリズムの選択に役立ちます。

直線性

多くの機械学習アルゴリズムは線形性を使用しています。線形分類アルゴリズムは、クラスを直線（またはより多次元の類似物）で分離できることを示唆しています。ここでは、ロジスティック回帰とサポートベクターメソッド（Azure機械学習）について説明しています。線形回帰アルゴリズムは、データ分布が直線*で記述されることを示唆しています。これらの仮定は多くの問題の解決に適していますが、場合によっては精度が低下します。

非線形クラスの制限-線形分類アルゴリズムを使用すると精度が低下します

非線形の規則性を持つデータ-線形回帰法を使用すると、許容されるよりも深刻なエラーが発生します

欠点にもかかわらず、通常は線形アルゴリズムが最初にアクセスされます。それらはアルゴリズムの観点でシンプルであり、学習は迅速です。

パラメータ数

パラメーターは、データの専門家がアルゴリズムをカスタマイズするためのレバレッジです。これらは、エラー許容値や反復回数、アルゴリズムの動作の違いなど、アルゴリズムの動作に影響を与える数値です。トレーニング時間とアルゴリズムの精度は、特定のパラメーターによって異なる場合があります。原則として、試行錯誤を通じてアルゴリズムのパラメーターの適切な組み合わせを見つけることができます。

また、Azureの機械学習には、指定した詳細レベルでパラメーターのすべての組み合わせを自動的に試行するモジュラーパラメーター選択ユニットがあります。この方法では多くのオプションを試すことができますが、パラメーターが多いほど、モデルのトレーニングに時間がかかります。

幸いなことに、多くのパラメータがある場合、これはアルゴリズムが非常に柔軟であることを意味します。この方法を使用すると、優れた精度を実現できます。ただし、適切なパラメーターの組み合わせを見つけることができれば。

標識の数

これらの機能の一部のタイプでは、オブジェクトよりも多くの機能を使用できます。これは通常、遺伝学またはテキストデータで発生します。多数の兆候が一部のトレーニングアルゴリズムの動作を妨げているため、トレーニング時間が非常に長くなっています。サポートベクターメソッドは、このような場合に適しています（以下を参照）。

特別な場合

一部の学習アルゴリズムは、データ構造または望ましい結果について想定しています。目標に適したオプションを見つけることができれば、優れた結果、より正確な予測、またはトレーニング時間の短縮がもたらされます。

アルゴリズムのプロパティ：

•-優れた精度、短いトレーニング時間、直線性の使用を示します。

○-優れた精度と平均トレーニング時間を示します。

アルゴリズム	精度	トレーニング時間	直線性	パラメータ	ご注意
2つのクラス分類
ロジスティック回帰		•	•	5
決定木の森	•	○		6
ジャングルツリー作成	•	○		6	低メモリ要件
改善されたデシジョンツリー	•	○		6	高いメモリ要件
ニューラルネットワーク	•			9	追加設定可能
単層パーセプトロン	○	○	•	4
サポートベクター法		○	•	5	大規模な機能セットに適しています。
サポートベクターのローカルディープメソッド	○			8	大規模な機能セットに適しています。
ベイジアン法		○	•	3
マルチクラス分類
ロジスティック回帰		•	•	5
決定木の森	•	○		6
ジャングルツリー作成	•	○		6	低メモリ要件
ニューラルネットワーク	•			9	追加設定可能
すべてに対して1	-	-	-	-	選択した2クラスメソッドのプロパティを見る
マルチクラス分類
回帰
線形		•	•	4
ベイジアン線形		○	•	2
決定木の森	•	○		6
改善されたデシジョンツリー	•	○		5	高いメモリ要件
高速クォンタイル回帰フォレスト	•	○		9	ポイント値ではなく分布を予測する
ニューラルネットワーク	•			9	追加設定可能
ポアソン			•	5	技術的に対数。予測を計算するには
序数				0	評価を予測するには
放射フィルタリング
サポートベクターメソッド	○	○		2	大規模な機能セットに最適です。
主成分分析に基づく排出フィルタリング		○	•	3	大規模な機能セットに最適です。
K平均法		○	•	4	クラスタリングアルゴリズム

アルゴリズムノート

線形回帰

すでに述べたように、線形回帰はデータを線形に（平面または超平面のいずれかで）考慮します。これは便利で高速な「主力」ですが、問題によっては簡単すぎる場合があります。ここに、線形回帰のガイドがあります。

線形トレンドデータ

ロジスティック回帰

タイトルの「回帰」という言葉があなたを誤解させないようにしましょう。ロジスティック回帰は、 2クラスおよびマルチクラス分類のための非常に強力なツールです。迅速かつ簡単です。ここでは、直線ではなく文字Sの形の曲線が使用されているため、このアルゴリズムはデータをグループに分割するのに最適です。ロジスティック回帰では線形クラスが制限されるため、線形近似を使用して用語を決定する必要があります。

属性が1つしかない2クラスデータのロジスティック回帰-クラス境界は、ロジスティック曲線が両方のクラスに近いポイントにあります

木、森、ジャングル

デシジョンツリーフォレスト（回帰、 2クラスおよびマルチクラス）、デシジョンツリージャングル（ 2クラスおよびマルチクラス）、改善されたデシジョンツリー（回帰および2クラス）は、機械学習の基本概念であるデシジョンツリーに基づいています。デシジョンツリーには多くのオプションがありますが、すべて1つの機能があります。つまり、フィーチャスペースを同じラベルを持つ領域に細分化します。これらは、分類を使用するか回帰を使用するかに応じて、同じカテゴリまたは定数値の領域になります。

決定木は、特徴空間をほぼ同じ値を持つ領域に分割します。

特性空間は小さな領域に分割できるため、1つの領域に1つのオブジェクトが存在するように実行できます。これは、誤った接続の大まかな例です。これを回避するために、ツリーが互いに接続されないように、大きなツリーのセットが作成されます。したがって、「意思決定ツリー」は偽のリンクを生成すべきではありません。決定木は大量のメモリを消費する可能性があります。デシジョンツリージャングルのメモリ消費量は少なくなりますが、トレーニングには少し時間がかかります。

改善された決定木は、誤った関係を回避するために、パーティションの数と各エリアのデータポイントの分布を制限します。アルゴリズムは一連のツリーを作成し、それぞれが以前の間違いを修正します。その結果、大きなメモリフットプリントなしで高度な精度が得られます。技術的な詳細については、フリードマンの科学的研究をご覧ください。

高速クォンタイル回帰フォレストは、領域内のデータの一般的な（平均）値だけでなく、クォンタイルの形での分布も知りたい場合の決定木の変形です。

ニューラルネットワークと知覚

ニューラルネットワークは、人間の脳のモデルに基づいた学習アルゴリズムであり、マルチクラス、ツークラス、および回帰の問題を解決することを目的としています。多数ありますが、Azureの機械学習では、ニューラルネットワークは有向非巡回グラフの形式を取ります。これは、入力フィーチャが一連のレベルを通じて前方に渡され、出力に変換されることを意味します。各レベルで、入力データはさまざまな組み合わせで測定され、合計されて次のレベルに送信されます。この単純な計算の組み合わせにより、魔法のように複雑なクラスの境界とデータの傾向を調べることができます。これらのマルチレベルネットワークは、「ディープラーニング」を提供し、テクニカルレポートやサイエンスフィクションのインスピレーションを提供します。

しかし、そのようなパフォーマンスは無料ではありません。特に多くの属性を持つ大規模なデータセットの場合、ニューラルネットワークのトレーニングには多くの時間がかかります。ほとんどのアルゴリズムよりも多くのパラメーターがあるため、パラメーターを選択すると、学習時間が大幅に増加します。そして、独自のネットワーク構造を指定したい完璧主義者にとって、可能性は事実上無限です。

ニューラルネットワークによって研究される境界は複雑で混chaとしている

単層パーセプトロンは、トレーニング時間を増やすためのニューラルネットワークの応答です。線形クラス境界を作成するネットワーク構造を使用します。現代の標準では、それは原始的なものに聞こえますが、このアルゴリズムは実際に長い間テストされており、すぐに学習します。

サポートベクターメソッド

サポートベクターメソッドは、クラスをできるだけ広く分割する境界を見つけます。 2つのクラスを明確に分離できない場合、アルゴリズムは最適な境界を見つけます。 Azure Machine Learningによると、 2クラスの参照ベクトルメソッドは直線でこれを行います（参照ベクトルメソッドの言語と言えば、線形カーネルを使用します）。線形近似のおかげで、トレーニングは十分に高速です。特に興味深いのは、テキストやゲノムなど、多くの属性を持つオブジェクトを操作する機能です。このような場合、参照ベクトルマシンはクラスを迅速に分離し、誤った接続を作成する可能性を最小限に抑えることができ、大量のメモリも必要ありません。

参照ベクトルマシンの標準クラス境界により、2つのクラス間のフィールドが増加します。

Microsoft Researchのもう1つの製品は、サポートベクターの2クラスのローカルディープメソッドです。これはサポートベクターメソッドの非線形バージョンであり、線形バージョンに固有の速度とメモリ効率が特徴です。線形アプローチでは十分に正確な答えが得られない場合に最適です。高速性を確保するために、開発者は問題を線形サポートベクトル法のいくつかの小さなタスクに分割しました。詳細については、こちらをご覧ください。

サポートベクターの非線形手法を拡張することにより、サポートベクターの単一クラスマシンがデータセット全体の境界を作成します。これは、外れ値のフィルタリングに特に役立ちます。境界内に収まらないすべての新しいオブジェクトは異常と見なされるため、慎重に調査されます。

ベイジアン法

ベイジアン手法には非常に必要な品質があります。つまり、誤った接続を回避します。これを行うために、彼らは事前に回答の可能な分布について仮定をします。また、多くのパラメーターを構成する必要はありません。 Azure Machine Learningは、分類（ベイジアン2クラス分類）と回帰（ベイジアン線形回帰）の両方にベイジアンメソッドを提供します。データは、直線に沿って分割または配置できると想定されています。

ところで、ベイジアンポイントマシンはMicrosoft Researchで開発されました。彼らの基礎は壮大な理論的研究です。このトピックに興味がある場合は、 MLRの記事とChris Bishopのブログを読んでください。

特別なアルゴリズム

特定の目標を追求すれば、あなたは幸運です。 Azure Machine Learningコレクションには、評価予測（順序回帰）、数量予測（ポアソン回帰）、および異常（一方は主要コンポーネントの分析に基づいており、他方はサポートベクターメソッドに基づいています）に特化したアルゴリズムが含まれています。また、クラスタリングアルゴリズム（ k-means method ）があります。

PCAベースの異常検出-大量のデータがステレオタイプ分布に該当します。 この分布から大きく外れている点が疑われる

データセットは、k-means法を使用して5つのクラスターに分割されます

また、NクラスをクラスN-1の2クラス問題に分類する問題を分解するマルチクラス「すべてに対して1つの」分類子があります。精度、トレーニング時間、および線形性のプロパティは、使用する2クラス分類器に依存します。

2つの2クラス分類器は3クラス分類器を形成します

さらに、AzureはVowpal Wabbitと呼ばれる強力な機械学習プラットフォームへのアクセスを提供します。 VWは分類と回帰の問題を研究し、部分的にラベル付けされたデータからも学習できるため、分類を拒否します。トレーニングアルゴリズム、損失関数、最適化アルゴリズムのいずれかを選択できます。このプラットフォームの特徴は、効率、並列実行、比類のない速度です。彼女は簡単に大きなデータセットに対処します。 VWは、Microsoft Researchのスペシャリストであるジョンラングフォードによって発表された、プロダクションカーの海でのF1カーです。すべての問題がVWに適しているわけではありませんが、これが適切なオプションであると考える場合、費やされた努力は確実に報われます。このプラットフォームは、複数の言語でのスタンドアロンのオープンソースとしても利用できます。

このトピックに関するブログの最新資料

1. プレーン言語のAzure （チートシート）。

2. クラウド内のトラックと冷蔵庫（ケース）。

ここで Microsoft Azureを試すことができます。

翻訳に誤りがある場合は、プライベートメッセージで報告してください。

* UPD

著者のテキストに誤りがあるため、資料を補足します（@fchugunovに感謝）

線形回帰は、記事で示されているように、直線（または平面）で記述される依存関係を決定するためだけに使用されるわけではありません。依存関係は、より複雑な関数で説明できます。たとえば、2番目のグラフの関数には、多項式回帰法（線形回帰の一種）を適用できます。これを行うために、入力データ（たとえば、xの値）は一連の因子[x、x²、x³、..]に変換され、線形回帰法は既にそれらの係数を選択します。

Microsoft Azureの機械学習のアルゴリズムを選択する方法