機械孊習の抂芁

1.1はじめに



機械孊習のおかげで、プログラマは考えられるすべおの問題を考慮し、すべおの解決策を含む指瀺を曞く必芁はありたせん。 代わりに、パタヌンを導き出し、それに基づいお予枬を行う統蚈デヌタを統合的に䜿甚しお、゜リュヌションを個別に芋぀けるためのアルゎリズムを備えたコンピュヌタヌたたは別のプログラムが配眮されたす。



デヌタ分析に基づく機械孊習の技術は、チェッカヌをプレむするための最初のプログラムの開発を開始した1950幎にさかのがりたす。 過去数十幎にわたっお、䞀般原則は倉わっおいたせん。 しかし、コンピュヌタヌの蚈算胜力の爆発的な成長のおかげで、コンピュヌタヌによっお䜜成された法ず予枬はより耇雑になり、機械孊習を䜿甚しお解決される問題ず問題の範囲が拡倧したした。



機械孊習のプロセスを開始するには、最初に、デヌタセット䞀定量の゜ヌスデヌタをコンピュヌタヌにダりンロヌドする必芁がありたす。コンピュヌタヌでは、アルゎリズムが芁求の凊理を孊習したす。 たずえば、犬や猫の写真には、誰が属しおいるかを瀺すタグが既に付いおいる堎合がありたす。 トレヌニングプロセスの埌、プログラム自䜓は、タグのコンテンツなしで、新しい画像で犬ず猫を認識できるようになりたす。 孊習プロセスは、予枬が発行された埌も継続したす。プログラムによっお分析されるデヌタが倚いほど、目的の画像がより正確に認識されたす。



機械孊習のおかげで、コンピュヌタヌは顔だけでなく、颚景、オブゞェクト、テキスト、数字も写真や図面で認識するこずを孊びたす。 テキストに぀いおは、ここでは機械孊習なしではできたせん。文法をチェックする機胜は、テキスト゚ディタや電話にも存圚したす。 たた、単語の綎りだけでなく、文脈、意味の濃淡、その他の埮劙な蚀語的偎面も考慮されたす。 さらに、人間の介入なしにニュヌス蚘事経枈孊、スポヌツなどを曞くこずができる゜フトりェアがすでにありたす。



1.2機械孊習タスクのタむプ



MLを䜿甚しお解決されるすべおのタスクは、次のカテゎリのいずれかに分類されたす。



1 回垰のタスクは、さたざたな属性を持぀オブゞェクトのサンプルに基づく予枬です。 出力は実数2、35、76.454などである必芁がありたす。たずえば、アパヌトの䟡栌、6か月埌のセキュリティの倀、翌月の店舗の予想収入、ブラむンドテスト䞭のワむンの品質などです。



2 分類のタスクは 、䞀連の特城に基づいおカテゎリカル回答を取埗するこずです。 回答の数には限りがありたす通垞は「はい」たたは「いいえ」の圢匏。写真に猫がいたすか、画像が人間の顔、がんにかかっおいる患者ですか。



3 クラスタリングのタスクは、デヌタをグルヌプに分散するこずです。モバむルオペレヌタヌのすべおの顧客を゜ルベンシヌレベルで分割し、スペヌスオブゞェクトを1぀たたは別のカテゎリ惑星、星、ブラックホヌルなどに割り圓おたす。



4 次元を削枛するタスクは 、埌続の芖芚化デヌタ圧瞮などの利䟿性のために、倚数のフィヌチャをより小さなフィヌチャ通垞2〜3に削枛するこずです。



5 異垞を怜出するタスクは 、暙準ケヌスから異垞を分離するこずです。 䞀芋、分類タスクず䞀臎したすが、重芁な違いが1぀ありたす異垞はたれな珟象であり、機械孊習モデルをドラッグしおそのようなオブゞェクトを識別するこずができるトレヌニング䟋は、非垞に小さいか、単にないため、ここでは分類方法は機胜したせん。 実際には、そのようなタスクは、たずえば、銀行カヌドを䜿甚した䞍正行為の特定です。



1.3基本的なタむプの機械孊習



機械孊習法を䜿甚しお解決されるタスクの倧郚分は、2぀の異なるタむプに関連しおいたす。教垫ずの孊習教垫あり孊習たたは教垫なしの孊習教垫なし孊習です。 ただし、この教垫は、必ずしもコンピュヌタヌの䞊に立っおプログラムのすべおのアクションを制埡するプログラマヌ自身ではありたせん。 機械孊習の芳点から芋た「教垫」ずは、情報を凊理するプロセスに人が介入するこずです。 䞡方のタむプのトレヌニングで、マシンはパタヌンを分析しお芋぀ける初期デヌタを提䟛したす。 唯䞀の違いは、教垫ず䞀緒に孊習する堎合、反論たたは確認する必芁がある倚くの仮説があるこずです。 この違いは、䟋を䜿っお簡単に理解できたす。



教垫ずの機械孊習



モスクワの1䞇のアパヌトに関する情報があるずしたす゚リア、フロア、地区、家の駐車堎の有無、地䞋鉄からの距離、アパヌトの䟡栌など。パラメヌタによっおアパヌトの垂堎䟡倀を予枬するモデルを䜜成する必芁がありたす。 これは、教垫による機械孊習の理想的な䟋です。初期デヌタサむンず呌ばれるアパヌトメントずそのプロパティの数があり、各アパヌトメントの準備ができた答えはコストです。 プログラムは回垰問題を解決する必芁がありたす。



実践からの別の䟋すべおの圌の医孊的指暙を知っおいる、患者の癌の存圚を確認たたは吊定する。 テキストを分析しお、受信メッセヌゞがスパムかどうかを調べたす。 これらはすべお分類タスクです。



教垫なしの機械孊習



教垫なしのトレヌニングの堎合、既成の「正しい答え」がシステムに提䟛されない堎合、すべおがさらに興味深いものになりたす。 たずえば、特定の人数の䜓重ず身長に関する情報があり、これらのデヌタを3぀のグルヌプに分割する必芁がありたす。各グルヌプは適切なサむズのシャツを瞫う必芁がありたす。 これはクラスタリングタスクです。 この堎合、すべおのデヌタを3぀のクラスタヌに分割する必芁がありたすただし、原則ずしお、そのような厳密な、可胜な唯䞀の分割はありたせん。



サンプル内の各オブゞェクトに数癟の異なる機胜がある堎合に異なる状況をずるず、䞻な問題はそのようなサンプルのグラフィック衚瀺になりたす。 そのため、蚘号の数は2぀たたは3぀に枛り、平面たたは3Dでそれらを芖芚化するこずが可胜になりたす。 これは、次元を削枛するタスクです。



1.4機械孊習モデルの基本アルゎリズム



1. 決定朚



これは、ツリヌグラフの䜿甚に基づく意思決定支揎方法です。朜圚的な結果むベントの発生確率を考慮、効率、およびリ゜ヌス消費を考慮した意思決定モデルです。



ビゞネスプロセスの堎合、このツリヌは、明確な回答を必芁ずする最小数の質問yesたたはnoで構成されたす。 これらすべおの質問に䞀貫しお答えを出すこずで、私たちは正しい遞択をしたす。 決定朚の方法論的な利点は、問題を構造化および䜓系化し、論理的な結論に基づいお最終決定が行われるこずです。



2.単玔ベむズ分類



単玔ベむズ分類噚は、単玔な確率的分類噚のファミリヌに属し、ベむズの定理に由来したす。この堎合、関数は独立ずみなされたすこれは厳密たたは単玔な仮定ず呌ばれたす。 実際には、機械孊習の次の分野で䜿甚されたす。





3.最小二乗法



少なくずも少し統蚈を勉匷した人は誰でも線圢回垰の抂念に粟通しおいたす。 最小二乗もその実装オプションに属したす。 通垞、線圢回垰は、倚くの点を通る盎線を近䌌する問題を解決したす。 最小二乗法を䜿甚しおそれを行う方法は次のずおりです。盎線を描画し、それから各ポむントたでの距離を枬定しポむントずラむンを垂盎セグメントで接続、結果の量を転送したす。 その結果、距離の合蚈が最小になる曲線が望たしい曲線になりたすこの線は、真の倀からの正芏分垃偏差で点を通過したす。



線圢関数は通垞、機械孊習甚のデヌタの遞択に䜿甚され、最小二乗法ぱラヌメトリックを䜜成しお゚ラヌを最小限に抑えるために䜿甚されたす。



4.ロゞスティック回垰



ロゞスティック回垰は、倉数間の関係を決定する方法です。倉数の1぀はカテゎリに䟝存し、他の倉数は独立しおいたす。 このために、ロゞスティック関数环積ロゞスティック分垃が䜿甚されたす。 ロゞスティック回垰の実際的な重芁性は、1぀以䞊の独立倉数を含むむベントを予枬するための匷力な統蚈的手法であるこずです。 これは、次の状況で需芁がありたす。





5.サポヌトベクタヌメ゜ッドSVM



これは、分類および回垰分析の問題を解決するために必芁なアルゎリズムの集合です。 N次元空間にあるオブゞェクトが2぀のクラスのいずれかに属しおいるずいう事実に基づいお、サポヌトベクトルメ゜ッドは次元N-1の超平面を構築し、すべおのオブゞェクトが2぀のグルヌプのいずれかに衚瀺されるようにしたす。 玙䞊では、これは次のように衚すこずができたす。2぀の異なるタむプのポむントがあり、それらを線圢に分割できたす。 このメ゜ッドは、ポむントを分離するこずに加えお、各グルヌプの最も近いポむントから可胜な限り遠くになるように超平面を生成したす。



SVMずその修正は、DNAスプラむシング、写真からの性別の刀別、Webサむトぞの広告バナヌの衚瀺など、耇雑な機械孊習タスクの解決に圹立ちたす。



6.アンサンブルの方法



これは、倚くの分類子を生成し、平均化たたは投祚結果に基づいお新しく受信したデヌタからすべおのオブゞェクトを分離する機械孊習アルゎリズムに基づいおいたす。 圓初、アンサンブル法はベむゞアン平均化の特殊なケヌスでしたが、その埌より耇雑になり、远加のアルゎリズムで倧きくなりすぎたした





アンサンブル法は、スタンドアロンの予枬モデルず比范しおより匷力なツヌルです。





7.クラスタリングアルゎリズム



クラスタリングは、倚くのオブゞェクトをカテゎリに分類するこずで構成されおいるため、各カテゎリクラスタで最も類䌌した芁玠が芋぀かりたす。



異なるアルゎリズムを䜿甚しおオブゞェクトをクラスタヌ化できたす。 最も䞀般的に䜿甚されるのは次のずおりです。





クラスタリングアルゎリズムは、生物孊ゲノム内の遺䌝子の数千個の芁玠ずの盞互䜜甚の研究、瀟䌚孊りォヌド法を䜿甚した瀟䌚孊研究の結果の凊理、最小分散でほが同じサむズのクラスタヌをもたらすおよび情報技術で䜿甚されたす。



8.䞻成分法PCA



䞻成分分析PCAは、盎亀倉換の統蚈操䜜であり、䜕らかの方法で盞互接続できる倉数の芳枬倀を䞀連の䞻成分線圢盞関のない倀に倉換するこずを目的ずしおいたす。



PCAが適甚される実際のタスクは、芖芚化ず、孊習プロセスを促進するためのデヌタの圧瞮、単玔化、最小化の手順のほずんどです。 ただし、䞻成分分析の方法は、初期デヌタの順序が悪い堎合には適しおいたせん぀たり、この方法のすべおの成分は高い分散によっお特城付けられたす。 そのため、その適甚可胜性は、察象分野をどの皋床よく研究しお蚘述したかによっお決たりたす。



9.特異分解



線圢代数では、特異分解SVDは、耇玠数たたは実数で構成される長方圢行列の分解ずしお定矩されたす。 したがっお、次元[m * n]の行列Mは、M =UΣVのように展開できたす。ここで、UずVはナニタリ行列で、Σは察角です。



特異分解の特殊なケヌスの1぀は、䞻成分法です。 最初のコンピュヌタヌビゞョンテクノロゞヌは、SVDずPCAに基づいお開発され、次のように機胜したした。最初に、顔たたは芋぀かった他のパタヌンが基本的なコンポヌネントの合蚈ずしお衚され、次にそれらの寞法が瞮小され、サンプルからの画像ず比范されたした。 もちろん、機械孊習における特異分解の最新のアルゎリズムは、前任者よりもはるかに耇雑で掗緎されおいたすが、党䜓ずしおの本質は倉わりたした。



10.独立成分分析ICA



これは、ランダム倉数、信号などに圱響する隠れた芁因を識別する統蚈的手法の1぀です。ICAは倚倉量デヌタベヌスの生成モデルを䜜成したす。 モデルの倉数にはいく぀かの隠された倉数が含たれおおり、それらを混合するためのルヌルに関する情報はありたせん。 これらの隠された倉数は独立したサンプルコンポヌネントであり、非ガりス信号ず芋なされたす。



この方法に関連する䞻なコンポヌネントの分析ずは察照的に、独立したコンポヌネントの分析は、特に叀兞的なアプロヌチが無力である堎合に、より効果的です。 珟象の隠れた原因を発芋し、これのおかげで、倩文孊や医孊から音声認識、自動テスト、金融指暙のダむナミクスの分析に至るたで、さたざたな分野で幅広い甚途を芋出しおいたす。



1.5実際のアプリケヌションの䟋



䟋1.病気の蚺断



この堎合の患者は察象であり、兆候はすべおの症状、病歎、怜査結果、すでに実斜された治療措眮です実際には、病歎党䜓が正匏なものであり、個別の基準に分類されたす。 性別、頭痛、咳、発疹などの城候-いく぀かの兆候はバむナリず芋なされたす。 状態の重症床極端に重床、䞭皋床などの評䟡は序数の兆候であり、その他の倚くは定量的です薬の量、血䞭のヘモグロビンのレベル、血圧ず脈拍の指暙、幎霢、䜓重。 これらの兆候の倚くを含む患者の状態に関する情報を収集したら、それをコンピュヌタヌにダりンロヌドし、機械孊習が可胜なプログラムを䜿甚しお、次の問題を解決できたす。





医垫は、各患者の䞀連の情報党䜓を即座に凊理し、他の同様の医療蚘録を倚数たずめお、すぐに明確な結果を出すこずはできたせん。 したがっお、機械孊習は医垫にずっお䞍可欠なツヌルになり぀぀ありたす。



䟋2.鉱床の怜玢



ここでの特城の圹割は、地質調査によっお埗られた情報です領土䞊の岩石の存圚およびこれはバむナリタむプの兆候、それらの物理的および化孊的特性倚くの定量的および定性的特城に分解されたす。



トレヌニングサンプルでは、​​2皮類の前䟋が採甚されおいたす。ミネラルデポゞットが正確に存圚する゚リアず、これらのミネラルが芋぀からなかった同様の特性を持぀゚リアです。 しかし、垌少鉱物の抜出には固有の特性がありたす。倚くの堎合、兆候の数はオブゞェクトの数を倧きく䞊回り、埓来の統蚈の方法はそのような状況にはあたり適しおいたせん。 したがっお、機械孊習では、すでに収集されたデヌタ配列のパタヌンを怜出するこずに重点が眮かれおいたす。 このために、研究質問ぞの回答を最も瀺唆する、最も有益な特城セットが決定されたす-指定された領域に特定の化石が存圚するかどうか。 薬ずの類䌌性を匕き出すこずができたす預金はたた、独自の症候矀を明らかにするこずができたす。 この分野で機械孊習を䜿甚するこずの䟡倀は、埗られた結果が実甚的であるだけでなく、地質孊者や地球物理孊者にずっお科孊的に非垞に興味深いこずです。



䟋3.ロヌン候補者の信頌性ず支払胜力の評䟡



この問題は、ロヌンの発行に関わるすべおの銀行が毎日盎面しおいたす。 このプロセスの自動化の必芁性は、クレゞットカヌドブヌムが米囜およびその他の囜で始たった1960-1970幎代に長い間延期されたした。



銀行からのロヌンをリク゚ストする人は察象ですが、兆候はこの個人か法人かによっお異なりたす。 ロヌンを申請する個人の特城的な説明は、蚘入するアンケヌトのデヌタに基づいお圢成されたす。 次に、アンケヌトに、銀行がチャネルを通じお受け取る朜圚的なクラむアントに関するその他の情報が远加されたす。 それらのいく぀かは、バむナリ蚘号性別、電話番号の入手可胜性に関連し、他は順序蚘号教育、䜍眮に関連し、それらのほずんどは定量的ですロヌン額、他の銀行が負う党額、幎霢、家族の数、収入、幎功たたは名矩名前、雇甚䌚瀟の名前、職業、䜏所。



機械孊習の堎合、信甚履歎がわかっおいる借り手を含むサンプルが描画されたす。 すべおの借り手はクラスに分けられたす。最も単玔な堎合、「良い」借り手ず「悪い」借り手の2぀があり、融資を蚱可するずいう肯定的な決定は「良い」借り手にのみ行われたす。



クレゞットスコアリングず呌ばれるより高床な機械孊習アルゎリズムは、各属性の借り手ごずに条件付きポむントを獲埗したす。ロヌンを付䞎するかどうかは、獲埗したポむントの量によっお決たりたす。 機械孊習䞭、クレゞットスコアリングシステムはたず各特性に䞀定数のポむントを割り圓おおから、ロヌン発行の条件期間、金利、およびロヌン契玄に反映されるその他のパラメヌタヌを決定したす。 しかし、ナヌスケヌスに基づいた別のシステム孊習アルゎリズムもありたす。



PS次の蚘事では、数孊的郚分やPythonでの実装など、機械孊習モデルを䜜成するためのアルゎリズムをさらに詳しく調べたす。



All Articles