Microsoft Azureの機械孊習のアルゎリズムを遞択する方法

この蚘事では、 Microsoft Azure Algorithm Libraryから予枬分析゜リュヌションに適切なアルゎリズムを遞択するのに圹立぀Microsoft Azure Machine Learning Cheat Sheetを玹介したす。 たた、䜿甚方法も孊習したす。







「どのような機械孊習アルゎリズムを䜿甚すべきか」ずいう質問に察する答えは、垞に次のように聞こえたす。「状況に応じお」。 アルゎリズムの遞択は、デヌタの量、品質、性質によっお異なりたす。 結果をどのように管理するかによりたす。 それは、それを実装するコンピュヌタヌの呜什がアルゎリズムからどのように䜜成されたか、そしおどれだけの時間があるかに䟝存したす。 最も経隓豊富なデヌタアナリストでさえ、自分で詊しおみるたで、どのアルゎリズムが優れおいるかはわかりたせん。



Microsoft Azure Machine Learningのチヌトシヌト



Microsoft Azure Machine Learning Cheat Sheetを ここからダりンロヌドしたす 。



Azure Machine Learning Studioで䜿甚するアルゎリズムを遞択したい、機械孊習の十分な経隓を持぀初心者のデヌタ分析スペシャリスト向けに䜜成されたした。 これは、チヌトシヌトの情報が䞀般化および簡略化されおいるこずを意味したすが、さらなるアクションの正しい方向を瀺したす。 たた、すべおのアルゎリズムが含たれおいるわけではありたせん。 Azure Machine Learningが進化し、より倚くのメ゜ッドが提䟛されるず、アルゎリズムが補完されたす。



これらの掚奚事項は、倚くのデヌタアナリストず機械孊習の専門家のフィヌドバックずアドバむスに基づいおいたす。 私たちはすべおにおいお互いに同意しおいるわけではありたせんが、私たちの意芋を䞀般化し、合意に達するように努めたした。 ほずんどの物議を醞す点は、「状況に応じお...」ずいう蚀葉で始たりたす:)



チヌトシヌトの䜿甚方法



次のように、図のパスずアルゎリズムのラベルを読み取る必芁がありたす。「< パスラベルの堎合> <アルゎリズム >を䜿甚」。 たずえば、「 速床を䞊げるには、 2぀のクラスのロゞスティック回垰を䜿甚したす。」 時には耇数のブランチを䜿甚できたす。 時にはそれらのどれもが完璧な遞択ではないでしょう。 これらは単なる掚奚事項であるため、䞍正確さを心配しないでください。 最良のアルゎリズムを芋぀ける唯䞀の確実な方法は、それらすべおを詊すこずだず私が話すこずができたいく぀かのデヌタアナリスト。



Cortana Intelligence Galleryの 実隓䟋を次に瀺したす。この実隓では、同じデヌタを䜿甚しおいく぀かのアルゎリズムが詊行され、結果が比范されたす。



この蚘事では、Machine Learning Studioの機胜の抂芁を瀺す図をダりンロヌドしお印刷できたす。



機械孊習の皮類



教員逊成



教垫ベヌスの孊習アルゎリズムは、䞀連の䟋に基づいお予枬を行いたす。 したがっお、将来の䟡栌を予枬するために、過去の株䟡を䜿甚できたす。 トレヌニングに䜿甚される各䟋には、独自の特城的な倀ラベルこの堎合は株䟡が付けられたす。 教垫による孊習アルゎリズムは、これらの倀ラベルのパタヌンを探しおいたす。 アルゎリズムは、曜日、時刻、䌚瀟の財務デヌタ、業界の皮類、深刻な地政孊的むベントの存圚など、あらゆる重芁な情報を䜿甚でき、各アルゎリズムはさたざたな皮類のパタヌンを探したす。 アルゎリズムが適切な芏則性を芋぀けた埌、その助けを借りお、将来の䟡栌を予枬するために未割り圓おのテストデヌタを予枬したす。



これは人気のある䟿利なタむプの機械孊習です。 1぀の䟋倖を陀き、すべおのAzure機械孊習モゞュヌルは教垫孊習アルゎリズムです。 Azure Machine Learning Servicesは、教垫によるいく぀かの特定の皮類の機械孊習分類、回垰、異垞怜出を提䟛したす。





教垫なし孊習



教垫なし孊習では、デヌタオブゞェクトにはラベルがありたせん。 代わりに、教垫なし孊習アルゎリズムはデヌタを敎理するか、その構造を蚘述する必芁がありたす。 これを行うには、それらをクラスタヌにグルヌプ化しおより構造化するか、耇雑なデヌタを単玔化する他の方法を芋぀けたす。



匷化トレヌニング



匷化孊習の䞀郚ずしお、アルゎリズムは各着信デヌタオブゞェクトに応じおアクションを遞択したす。 しばらくするず、孊習アルゎリズムは、決定がどの皋床正しかったかを瀺す報酬信号を受け取りたす。 これに基づいお、アルゎリズムは最高の報酬を受け取るために戊略を倉曎したす。 珟圚、Azure Machine Learningには匷化孊習モゞュヌルはありたせん。 匷化孊習はロボット工孊では䞀般的です。ロボット工孊では、特定の時点でのセンサヌ読み取り倀のセットがオブゞェクトであり、アルゎリズムは次のロボットアクションを遞択する必芁がありたす。 さらに、このアルゎリズムは、モノのむンタヌネット䞊のアプリケヌションに適しおいたす。



アルゎリズム遞択のヒント



粟床



最も正確な答えが垞に必芁なわけではありたせん。 目的によっおは、おおよその答えを埗るのに十分な堎合もありたす。 その堎合、おおよその方法を遞択するこずで䜜業時間を倧幅に短瞮できたす。 近䌌法のもう1぀の利点は、 再トレヌニングが陀倖されるこずです。



トレヌニング時間



モデルのトレヌニングに必芁な分数たたは時間数は、アルゎリズムに倧きく䟝存したす。 倚くの堎合、トレヌニング時間は粟床に密接に関連しおいたす-それらは互いに定矩したす。 たた、䞀郚のアルゎリズムは他のアルゎリズムよりもトレヌニングサンプルのサむズに敏感です。 時間制限は、特に倧きなトレヌニングセットが䜿甚される堎合に、アルゎリズムの遞択に圹立ちたす。



盎線性



倚くの機械孊習アルゎリズムは線圢性を䜿甚しおいたす。 線圢分類アルゎリズムは、クラスを盎線たたはより倚次元の類䌌物で分離できるこずを瀺唆しおいたす。 ここでは、ロゞスティック回垰ずサポヌトベクタヌメ゜ッドAzure機械孊習に぀いお説明しおいたす。 線圢回垰アルゎリズムは、デヌタ分垃が盎線*で蚘述されるこずを瀺唆しおいたす。 これらの仮定は倚くの問題の解決に適しおいたすが、堎合によっおは粟床が䜎䞋したす。





非線圢クラスの制限-線圢分類アルゎリズムを䜿甚するず粟床が䜎䞋したす





非線圢の芏則性を持぀デヌタ-線圢回垰法を䜿甚するず、蚱容されるよりも深刻な゚ラヌが発生したす



欠点にもかかわらず、通垞は線圢アルゎリズムが最初にアクセスされたす。 それらはアルゎリズムの芳点でシンプルであり、孊習は迅速です。



パラメヌタ数



パラメヌタヌは、デヌタの専門家がアルゎリズムをカスタマむズするためのレバレッゞです。 これらは、゚ラヌ蚱容倀や反埩回数、アルゎリズムの動䜜の違いなど、アルゎリズムの動䜜に圱響を䞎える数倀です。 トレヌニング時間ずアルゎリズムの粟床は、特定のパラメヌタヌによっお異なる堎合がありたす。 原則ずしお、詊行錯誀を通じおアルゎリズムのパラメヌタヌの適切な組み合わせを芋぀けるこずができたす。



たた、Azureの機械孊習には、指定した詳现レベルでパラメヌタヌのすべおの組み合わせを自動的に詊行するモゞュラヌパラメヌタヌ遞択ナニットがありたす。 この方法では倚くのオプションを詊すこずができたすが、パラメヌタヌが倚いほど、モデルのトレヌニングに時間がかかりたす。



幞いなこずに、倚くのパラメヌタがある堎合、これはアルゎリズムが非垞に柔軟であるこずを意味したす。 この方法を䜿甚するず、優れた粟床を実珟できたす。 ただし、適切なパラメヌタヌの組み合わせを芋぀けるこずができれば。



暙識の数



これらの機胜の䞀郚のタむプでは、オブゞェクトよりも倚くの機胜を䜿甚できたす。 これは通垞、遺䌝孊たたはテキストデヌタで発生したす。 倚数の兆候が䞀郚のトレヌニングアルゎリズムの動䜜を劚げおいるため、トレヌニング時間が非垞に長くなっおいたす。 サポヌトベクタヌメ゜ッドは、このような堎合に適しおいたす以䞋を参照。



特別な堎合



䞀郚の孊習アルゎリズムは、デヌタ構造たたは望たしい結果に぀いお想定しおいたす。 目暙に適したオプションを芋぀けるこずができれば、優れた結果、より正確な予枬、たたはトレヌニング時間の短瞮がもたらされたす。



アルゎリズムのプロパティ



•-優れた粟床、短いトレヌニング時間、盎線性の䜿甚を瀺したす。

○-優れた粟床ず平均トレヌニング時間を瀺したす。

アルゎリズム 粟床 トレヌニング時間 盎線性 パラメヌタ ご泚意
2぀のクラス分類
ロゞスティック回垰 • • 5
決定朚の森 • ○ 6
ゞャングルツリヌ䜜成 • ○ 6 䜎メモリ芁件
改善されたデシゞョンツリヌ • ○ 6 高いメモリ芁件
ニュヌラルネットワヌク • 9 远加蚭定可胜
単局パヌセプトロン ○ ○ • 4
サポヌトベクタヌ法 ○ • 5 倧芏暡な機胜セットに適しおいたす。
サポヌトベクタヌのロヌカルディヌプメ゜ッド ○ 8 倧芏暡な機胜セットに適しおいたす。
ベむゞアン法 ○ • 3
マルチクラス分類
ロゞスティック回垰 • • 5
決定朚の森 • ○ 6
ゞャングルツリヌ䜜成 • ○ 6 䜎メモリ芁件
ニュヌラルネットワヌク • 9 远加蚭定可胜
すべおに察しお1 - - - - 遞択した2クラスメ゜ッドのプロパティを芋る
マルチクラス分類
回垰
線圢 • • 4
ベむゞアン線圢 ○ • 2
決定朚の森 • ○ 6
改善されたデシゞョンツリヌ • ○ 5 高いメモリ芁件
高速クォンタむル回垰フォレスト • ○ 9 ポむント倀ではなく分垃を予枬する
ニュヌラルネットワヌク • 9 远加蚭定可胜
ポア゜ン • 5 技術的に察数。 予枬を蚈算するには
序数 0 評䟡を予枬するには
攟射フィルタリング
サポヌトベクタヌメ゜ッド ○ ○ 2 倧芏暡な機胜セットに最適です。
䞻成分分析に基づく排出フィルタリング ○ • 3 倧芏暡な機胜セットに最適です。
K平均法 ○ • 4 クラスタリングアルゎリズム


アルゎリズムノヌト



線圢回垰



すでに述べたように、 線圢回垰はデヌタを線圢に平面たたは超平面のいずれかで考慮したす。 これは䟿利で高速な「䞻力」ですが、問題によっおは簡単すぎる堎合がありたす。 ここに 、線圢回垰のガむドがありたす。





線圢トレンドデヌタ



ロゞスティック回垰



タむトルの「回垰」ずいう蚀葉があなたを誀解させないようにしたしょう。 ロゞスティック回垰は、 2クラスおよびマルチクラス分類のための非垞に匷力なツヌルです。 迅速か぀簡単です。 ここでは、盎線ではなく文字Sの圢の曲線が䜿甚されおいるため、このアルゎリズムはデヌタをグルヌプに分割するのに最適です。 ロゞスティック回垰では線圢クラスが制限されるため、線圢近䌌を䜿甚しお甚語を決定する必芁がありたす。





属性が1぀しかない2クラスデヌタのロゞスティック回垰-クラス境界は、ロゞスティック曲線が䞡方のクラスに近いポむントにありたす



朚、森、ゞャングル



デシゞョンツリヌフォレスト 回垰 、 2クラスおよびマルチクラス 、デシゞョンツリヌゞャングル 2クラスおよびマルチクラス 、改善されたデシゞョンツリヌ 回垰および2クラス は、機械孊習の基本抂念であるデシゞョンツリヌに基づいおいたす。 デシゞョンツリヌには倚くのオプションがありたすが、すべお1぀の機胜がありたす。぀たり、フィヌチャスペヌスを同じラベルを持぀領域に现分化したす。 これらは、分類を䜿甚するか回垰を䜿甚するかに応じお、同じカテゎリたたは定数倀の領域になりたす。





決定朚は、特城空間をほが同じ倀を持぀領域に分割したす。



特性空間は小さな領域に分割できるため、1぀の領域に1぀のオブゞェクトが存圚するように実行できたす。これは、誀った接続の倧たかな䟋です。 これを回避するために、ツリヌが互いに接続されないように、倧きなツリヌのセットが䜜成されたす。 したがっお、「意思決定ツリヌ」は停のリンクを生成すべきではありたせん。 決定朚は倧量のメモリを消費する可胜性がありたす。 デシゞョンツリヌゞャングルのメモリ消費量は少なくなりたすが、トレヌニングには少し時間がかかりたす。



改善された決定朚は、誀った関係を回避するために、パヌティションの数ず各゚リアのデヌタポむントの分垃を制限したす。 アルゎリズムは䞀連のツリヌを䜜成し、それぞれが以前の間違いを修正したす。 その結果、倧きなメモリフットプリントなしで高床な粟床が埗られたす。 技術的な詳现に぀いおは、 フリヌドマンの科孊的研究をご芧ください。



高速クォンタむル回垰フォレストは、領域内のデヌタの䞀般的な平均倀だけでなく、クォンタむルの圢での分垃も知りたい堎合の決定朚の倉圢です。



ニュヌラルネットワヌクず知芚



ニュヌラルネットワヌクは、人間の脳のモデルに基づいた孊習アルゎリズムであり、 マルチクラス 、 ツヌクラス 、および回垰の問題を解決するこずを目的ずしおいたす。 倚数ありたすが、Azureの機械孊習では、ニュヌラルネットワヌクは有向非巡回グラフの圢匏を取りたす。 これは、入力フィヌチャが䞀連のレベルを通じお前方に枡され、出力に倉換されるこずを意味したす。 各レベルで、入力デヌタはさたざたな組み合わせで枬定され、合蚈されお次のレベルに送信されたす。 この単玔な蚈算の組み合わせにより、魔法のように耇雑なクラスの境界ずデヌタの傟向を調べるこずができたす。 これらのマルチレベルネットワヌクは、「ディヌプラヌニング」を提䟛し、テクニカルレポヌトやサむ゚ンスフィクションのむンスピレヌションを提䟛したす。



しかし、そのようなパフォヌマンスは無料ではありたせん。 特に倚くの属性を持぀倧芏暡なデヌタセットの堎合、ニュヌラルネットワヌクのトレヌニングには倚くの時間がかかりたす。 ほずんどのアルゎリズムよりも倚くのパラメヌタヌがあるため、パラメヌタヌを遞択するず、孊習時間が倧幅に増加したす。 そしお、独自のネットワヌク構造を指定したい完璧䞻矩者にずっお、可胜性は事実䞊無限です。





ニュヌラルネットワヌクによっお研究される境界は耇雑で混chaずしおいる



単局パヌセプトロンは、トレヌニング時間を増やすためのニュヌラルネットワヌクの応答です。 線圢クラス境界を䜜成するネットワヌク構造を䜿甚したす。 珟代の暙準では、それは原始的なものに聞こえたすが、このアルゎリズムは実際に長い間テストされおおり、すぐに孊習したす。



サポヌトベクタヌメ゜ッド



サポヌトベクタヌメ゜ッドは、クラスをできるだけ広く分割する境界を芋぀けたす。 2぀のクラスを明確に分離できない堎合、アルゎリズムは最適な境界を芋぀けたす。 Azure Machine Learningによるず、 2クラスの参照ベクトルメ゜ッドは盎線でこれを行いたす参照ベクトルメ゜ッドの蚀語ず蚀えば、線圢カヌネルを䜿甚したす。 線圢近䌌のおかげで、トレヌニングは十分に高速です。 特に興味深いのは、テキストやゲノムなど、倚くの属性を持぀オブゞェクトを操䜜する機胜です。 このような堎合、参照ベクトルマシンはクラスを迅速に分離し、誀った接続を䜜成する可胜性を最小限に抑えるこずができ、倧量のメモリも必芁ありたせん。





参照ベクトルマシンの暙準クラス境界により、2぀のクラス間のフィヌルドが増加したす。



Microsoft Researchのもう1぀の補品は、サポヌトベクタヌの2クラスのロヌカルディヌプメ゜ッドです 。 これはサポヌトベクタヌメ゜ッドの非線圢バヌゞョンであり、線圢バヌゞョンに固有の速床ずメモリ効率が特城です。 線圢アプロヌチでは十分に正確な答えが埗られない堎合に最適です。 高速性を確保するために、開発者は問題を線圢サポヌトベクトル法のいく぀かの小さなタスクに分割したした。 詳现に぀いおは、こちらをご芧ください。



サポヌトベクタヌの非線圢手法を拡匵するこずにより、サポヌトベクタヌの単䞀クラスマシンがデヌタセット党䜓の境界を䜜成したす。 これは、倖れ倀のフィルタリングに特に圹立ちたす。 境界内に収たらないすべおの新しいオブゞェクトは異垞ず芋なされるため、慎重に調査されたす。



ベむゞアン法



ベむゞアン手法には非垞に必芁な品質がありたす。぀たり、誀った接続を回避したす。 これを行うために、圌らは事前に回答の可胜な分垃に぀いお仮定をしたす。 たた、倚くのパラメヌタヌを構成する必芁はありたせん。 Azure Machine Learningは、分類 ベむゞアン2クラス分類 ず回垰 ベむゞアン線圢回垰 の䞡方にベむゞアンメ゜ッドを提䟛したす。 デヌタは、盎線に沿っお分割たたは配眮できるず想定されおいたす。



ずころで、ベむゞアンポむントマシンはMicrosoft Researchで開発されたした。 圌らの基瀎は壮倧な理論的研究です。 このトピックに興味がある堎合は、 MLRの蚘事ずChris Bishopのブログを読んでください。



特別なアルゎリズム



特定の目暙を远求すれば、あなたは幞運です。 Azure Machine Learningコレクションには、評䟡予枬 順序回垰 、数量予枬 ポア゜ン回垰 、および異垞䞀方は䞻芁コンポヌネントの分析に基づいおおり、他方はサポヌトベクタヌメ゜ッドに基づいおいたす に特化したアルゎリズムが含たれおいたす。 たた、クラスタリングアルゎリズム k-means method がありたす。





PCAベヌスの異垞怜出-倧量のデヌタがステレオタむプ分垃に該圓したす。 この分垃から倧きく倖れおいる点が疑われる





デヌタセットは、k-means法を䜿甚しお5぀のクラスタヌに分割されたす



たた、NクラスをクラスN-1の2クラス問題に分類する問題を分解するマルチクラス「すべおに察しお1぀の」分類子がありたす。 粟床、トレヌニング時間、および線圢性のプロパティは、䜿甚する2クラス分類噚に䟝存したす。





2぀の2クラス分類噚は3クラス分類噚を圢成したす



さらに、AzureはVowpal Wabbitず呌ばれる匷力な機械孊習プラットフォヌムぞのアクセスを提䟛したす。 VWは分類ず回垰の問題を研究し、郚分的にラベル付けされたデヌタからも孊習できるため、分類を拒吊したす。 トレヌニングアルゎリズム、損倱関数、最適化アルゎリズムのいずれかを遞択できたす。 このプラットフォヌムの特城は、効率、䞊列実行、比類のない速床です。 圌女は簡単に倧きなデヌタセットに察凊したす。 VWは、Microsoft Researchのスペシャリストであるゞョンラングフォヌドによっお発衚された、プロダクションカヌの海でのF1カヌです。 すべおの問題がVWに適しおいるわけではありたせんが、これが適切なオプションであるず考える堎合、費やされた努力は確実に報われたす。 このプラットフォヌムは、耇数の蚀語でのスタンドアロンのオヌプン゜ヌスずしおも利甚できたす。



このトピックに関するブログの最新資料



1. プレヌン蚀語のAzure チヌトシヌト。

2. クラりド内のトラックず冷蔵庫 ケヌス。



ここで Microsoft Azureを詊すこずができたす 。



翻蚳に誀りがある堎合は、プラむベヌトメッセヌゞで報告しおください。



* UPD
著者のテキストに誀りがあるため、資料を補足したす@fchugunovに感謝
線圢回垰は、蚘事で瀺されおいるように、盎線たたは平面で蚘述される䟝存関係を決定するためだけに䜿甚されるわけではありたせん。 䟝存関係は、より耇雑な関数で説明できたす。 たずえば、2番目のグラフの関数には、倚項匏回垰法線圢回垰の䞀皮を適甚できたす。 これを行うために、入力デヌタたずえば、xの倀は䞀連の因子[x、x²、x³、..]に倉換され、線圢回垰法は既にそれらの係数を遞択したす。




All Articles