線圢モデルを満たす

機械孊習は地球を歩いおいたす。 ニュヌラルネットワヌクできしむ人工知胜は、ニュヌロンで到達するこずができたタスクにおいお、埐々に人々の先を行っおいたす。 ただし、単玔な線圢回垰モデルを忘れおはなりたせん。 第䞀に、ニュヌラルネットワヌクを含む倚くの耇雑な機械孊習方法が構築されおいるためです。 そしお、第二に、しばしば適甚されるビゞネスタスクは、線圢モデルによっお簡単、迅速、効率的に解決されるためです。

そしお、手始めに、ちょっずしたテスト。 線圢モデルを䜿甚しお説明するこずは可胜ですか

-身長に察する人の䜓重の䟝存床

-1日の異なる時間に店頭で䞊んでいる時間

-指数関数的成長の段階でのサむトトラフィック

-地䞋鉄の駅で電車を埅っおいる人の数の時間ダむナミクス

-パフォヌマンスに応じお、クラむアントがサむトで泚文しない可胜性は

ご想像のずおり、すべおの質問に察する答えは「はい、できたす」です。 そのため、線圢モデルは䞀芋しただけでは単玔ではありたせん。 したがっお、圌らの豊かな倚様性に粟通したしょう。





問題の声明



䞀連のM組の゜ヌスデヌタX i 、Y i が䞎えられるずしたす。ここで、

ℝ-実数のセット

ℕ-自然数のセット

MЄℕ、iЄℕ、1≀i≀M

X iЄℝd、dЄℕ、すなわち 各X iは、長さdの実数のシヌケンスです

Y iЄℝk、kЄℕ、すなわち たた、各Y iも実数のシヌケンスですが、長さはkです。

Xは、独立倉数および因子たたはリグレッサヌず呌ばれたす。 たた、Yは埓属倉数たたは説明倉数ず呌ばれたす。



最も単玔な堎合、 d = k = 1 、぀たり、数倀のペアが䞎えられたす。たずえば、人の身長、人の䜓重たたは郚品の䜓積、郚品の重量たたは䞊んでいる時間、クラむアントの出発のサむン。

ほずんどの堎合d> 1 、およびk = 1です 。぀たり、各Yに耇数のXが䞎えられたす。たずえば、growth、age、weightたたは昚日の販売、昚日の販売、昚日の販売、今日の販売たたは割り圓おられたタスクの数、タスクの耇雑さの合蚈、埓業員がもっずもらしい口実の䞋で歩いた日数。

Yもいく぀かの倀で構成され、ペアX i 、Y i は、たずえば次のように芋えるこずがありたす-身䜓掻動の期間、負荷のレベル、ボディマス指数、フィットネスのレベル、血䞭の乳酞のレベル、回埩期間の長さ。



そしお、ご想像のずおり、突然予想倖の仮定を立おたした。YはXに䟝存するだけでなく、 Y = b T Xに線圢に䟝存したす。ここで、 bは次元dₓkの実行列圢匏のモデルパラメヌタヌです。



ただし、2぀の重芁な偎面をすぐに思い出したす。 第䞀に、このようなb T Xが厳密にYに等しい理由はありたせん。 結局、最初のデヌタを枬定しおそしおおそらく最もよく枬定した゚ラヌを出しおしたう可胜性がありたす。 さらに、 Yにも圱響を䞎えるいく぀かの芁因Xを芋倱っおいる可胜性がありたすほが確実にほが確実です 。 したがっお、モデルではランダム゚ラヌを考慮する必芁がありたす。

第二に、 YがXに盎接線圢に盎接䟝存するずいう保蚌はありたせん。 結局のずころ、圌らは他の䜕かに䟝存しおいる可胜性があり、それはXに䟝存しおいたす。 たずえば、 Yはb∙X 2たたはb∙log Xに等しい堎合がありたす。 そしお、実際には、Yに䟝存する倀ではなく、Y自䜓の䟝存性を厳密に求めるのです。たずえば、 log Y = b T Xです。



したがっお、線圢問題の䞀般化された定匏化に到達したす。

Y * = b T X * +ℇ

ここで、X * = fX、Y * = gY、

randomは確率倉数です。



fずgは非線圢関数になり、結果ずしおYはXに非垞に非線圢に䟝存するずいう事実にもかかわらず、モデルはパラメヌタヌbに関しお線圢のたたです。 それが線圢モデルず呌ばれる理由です。



しかし、これは問題の党䜓的な定匏化ではありたせん


これたでのずころ、 XずYのみを知っおいたす。 確かに、これが私たちに䞎えられたので、私たちのメリットはそうではありたせん。 そしお、 bずknowをどうやっお知るのでしょうか



モデルの本質は正確に係数bであるこずを思い出しおください。 結局、私たちがこの倧隒ぎを始めたのは圌らのためだけでした。 ランダム゚ラヌwereがなければ、 bはd方皋匏の基本システムを解くこずで簡単に蚈算できたす。dは因子の数、぀たりベクトルX iの長さです。 ぀たり、初期デヌタずしお正確にd個のペアX i 、Y i を取埗するだけで十分です。各X iは正確にd個の倀で構成され、正確なモデルの準備ができおいたす。

たずえば、゜ヌスデヌタの圢匏郚品サむズ、材料䟡栌、郚品のコストがある堎合、2぀の郚品だけで十分なデヌタで正確なコスト匏を䜜成できたす。



しかし、実際にはこれは起こりたせん。 私たちは幞運に恵たれず、圱響芁因の完党なリストを䜜成し、正確に枬定したす。 したがっお、モデルの匏には、回埩䞍胜なランダム゚ラヌalwaysが垞に存圚したす。 さらに、ほずんどの堎合、これは埮芖的゚ラヌではなく、無芖しお損傷なしで無芖できたす。 いいえ、あなたは圌女を考慮しなければなりたせん。 そしお、2぀の郚分ではなく、数癟および数千を枬定しお蚈算する必芁がありたす。



それでもただ存圚する


ランダム性のため、モデルの望たしい係数bを簡単に蚈算するこずはできたせん。 したがっお、 b * = argmin Fb | X、Yの圢匏の最適化問題を解く必芁がありたす。ここで、 Fは特定の関数たずえば、∑Y i -b T X i  2で、最小二乗法に導きたすが、およびその他の機胜。



正確で正確な係数bがただ存圚するこずに泚意しおくださいが、それらはわかりたせん。 そしお、私たちが期埅できる最善の方法は、 b *の掚定倀です。これはおそらくbに近いでしょう。 さらに、機胜が異なるずb *が異なる可胜性があり、理想的なbずは異なる方法で異なりたすただし、ただわかりたせん。



゚ラヌに察凊したす


ランダム゚ラヌ自䜓では、 ℇはさらに耇雑です。 私たちはそれらを知らないようで、それらから蚈算するものは䜕もありたせんが、それにもかかわらず、少なくずも前述の最適化問題の正確な定匏化のためにそれらたたはむしろそれらに぀いおの情報が必芁ですそうでなければそれを解決する方法 したがっお、いく぀かのパラメトリックな仮定を行う必芁がありたす。

初期デヌタを生成するプロセスの性質に基づいお、 prior∜℥Ξ 、぀たり、ランダム倉数ℇがパラメヌタヌΞのセットを持぀既知の分垃described正芏分垃などによっお蚘述されるこずをアプリオリに宣蚀するずしたす。

たたは、分垃がわからない堎合、その重芁な特性に぀いお掚枬するこずができたす。 たずえば、 E [ℇ] = 0 、぀たり、゚ラヌの数孊的期埅倀はれロです。 たたは、 D [ℇi] =σ2 = const 、぀たり、すべおの誀差の分散は同じで有限です。



しかし、なぜそれだけなのでしょうか 結局、遞択した関数からargminを取埗し、倀bを取埗するだけです。

本圓に可胜です。 唯䞀の問題は、この倀の品質です。 䜕を取り、蚈算するかが明確でない堎合、モデルではなく、䜕を理解するかがわかりたせん。

たずえば、 ℇにコヌシヌ分垃がある堎合、OLSメ゜ッドを䜿甚した゜リュヌションは無秩序で無意味な結果をもたらしたす。

しかし、たずえば、条件が同時に満たされる堎合

-E [ℇ] = 0

-E [ℇ| X] = 0 、぀たり、゚ラヌはXに䟝存したせん

-D [ℇi] =σ2 = const

-covℇi、ℇj= 0 、ここでi≠j

次に、最小二乗法による蚈算の結果ずしお、目的のパラメヌタヌbの掚定倀だけでなく、最も効果的で䞍偏の䞀貫した掚定倀を取埗したす。 そしお、これはすべおの偎面からの定理によっお非垞に明確に正圓化され、蚌明され、拘束されおいたす。



重芁な事実に泚意しおください。 積b T X *は完党に決定的であるため、 Y *は distributionず同じ分垃圢匏を持぀ランダム倉数であるずも蚀えたす。 そしお、モデルをE [Y * ] = b T X *の圢に曞き換えるこずにより、䟿利な結論を導き出すこずができたす 。これは、線圢モデルがY *倀自䜓を予枬するのではなく、その数孊的な予想を意味したす。 そしお、最も豊富な統蚈ハヌドりェアを接続しお問題を解決したす。

特に、初期デヌタを持ち、分垃圢匏para したがっおY * に関するパラメトリックな仮定を指定しお、尀床関数ℒ bを構築し、それを最倧化できたす。これは、線圢モデルの構築ず同等です。 蚀い換えれば、分垃パラメヌタヌを遞択するこれらはすべお同じbである ため、 Yに可胜な限り類䌌するようなランダム倉数を生成する方法を孊習したす。 基本的に達成したこず。



さたざたな線圢パタヌン



モデルの説明を繰り返したす。

Y * = b T X * +ℇ

b * = argmin Fb | X * 、Y *  。

コンポヌネントの圢匏ず配眮Y * 、X * 、b * 、ℇ、Fを倉曎するず、さたざたなプロパティを持ち、さたざたなタスクに適甚できるさたざたなモデルが埗られたす。



独立倉数 X の次元に埓っお、1因子単倉数モデルず倚因子倚倉数モデルを区別できたす。

埓属倉数 Y がスカラヌ倀である堎合、単䞀単倉量モデルがありたす。 埓属倉数が倚次元、぀たりベクトルで衚される堎合、倚倉量の䞀般モデルを取埗したす。



たた、独立倉数には、゜ヌスデヌタず、繰り返されるものを含むその倉換の䞡方を含めるこずができるこずを忘れないでください。 たずえば、入力に単䞀の倉数Xがあり 、その倉数からいく぀かの芁玠 [X、X 2 、X 3 ] を䜜成し、それによっお奇劙に聞こえる倚項匏線圢モデルを取埗するずしたす。

別の優れた䟋は、カテゎリヌ倉数の倉換です。 たずえば、゜ヌスデヌタの倉数の1぀は、「メトロ」、「車」、「自転車」の倀を取りたす。 モデルに察しお、 X * metro 、 X * car 、 X * bikeの 3぀の芁玠がすぐに䜜成されたす。X * metro = 1 、 X 茞送モヌド = metroなどの堎合。

このため、 Y = bXずいう圢匏の非垞に曖昧なモデルではなく、 茞送モヌドを Y = b 1 X * metro + b 2 X * car + b 3 X * bikeずいう圢匏の䟿利で柔軟なモデルに切り替えたす。



埓属倉数には、゜ヌスデヌタこれは単玔なモデルになりたすずその倉換の䞡方を含めるこずもできたす。 さらに、倉換された埓属倉数が分垃の指数ファミリヌに属する堎合、いわゆる䞀般化線圢モデルGLMに぀いおすでに話しおいる。これには、特に、正芏、ロゞスティック、ポア゜ン、指数、二項、および他の倚くのモデルが含たれる。 䞀般化モデルは、収束パラメヌタヌ、埗られた掚定倀の品質、および異なるタむプの汎関数の圱響を蚌明しおいるため、䜿甚するのに非垞に重芁で䟿利です。 理想的には、タスクをいく぀かのGLMモデルに枛らすようにしおください。



そしおここで、埓属倉数の性質が倧きく異なる可胜性があるこずを思い出しおください。 特に、連続重みや確率などの実数たたは離散にするこずができたす。 埌者は、敎数顧客数や日数などたたはカテゎリパラメヌタヌであり、バむナリyes / noたたは倚項匏であり、䞡方ずも無秩序自転車、バス、地䞋鉄、および順序付け評䟡 "good" "、"正垞 "、"悪い "。

圓然、異なるタむプの倉数には異なるモデルが必芁です。 同じモデルでは、たずえ圱響芁因が同じであっおも、顧客が去る可胜性ず賌入量を予枬するこずはできたせん。



分垃が異なる可胜性のあるランダム゚ラヌを忘れないため、モデルずその構築方法に匷い圱響を及がしたす。 たずえば、ロゞットモデルずプロビットモデルは、たったく同じ倖郚構造であり、同じデヌタを取埗しお、特定のXに察するむベントYの確率を予枬したす。 ただし、プロビットモデルのみで゚ラヌが正芏分垃し、ロゞットモデルではロゞスティック分垃がありたす。 圓然、これらのモデルは異なる結果を䞎えるため、混同しないでください。



損倱関数


モデルの匏を敎理し、最適化された関数を䜿甚したす。 たた、損倱関数、぀たりモデルによっお予枬された倀ず実際の倀の差のみを考慮するず、簡単になりたす。 単玔な機胜の兞型的な䟋は次のずおりです。

-最小二乗最小∑Y i * -b T X i *  2

-重み付き最小二乗min ∑ W i Y i * -b T X i *  2なので、たずえば、最近のデヌタに重みを远加しお、過去のデヌタの重芁性を枛らすこずができたす。

- マハラノビス距離による䞀般化最小二乗min minY i * -b T X i * TΩ -1 Y i * -b T X i * 

-Huberの関数 。これは、最小倀に近い2次関数的に動䜜し、他の堎所では線圢に動䜜するずいう点で興味深いものです。

逆フヌバヌ関数です。逆に、どこでも二次関数であり、最小倀の近くで線圢です。

もちろん、これは可胜な機胜のオプションはたったく制限されおいたせん。 おそらく最も広いクラスは最尀汎関数です。 ランダム誀差paraしたがっおY * の分垃に関するパラメトリックな仮定を導入するず、尀床関数を明瀺的に蚘述し、最倧化関数を構築しお、目的のパラメヌタヌを蚈算できたす。

ずころで、奇劙な事実 Y *が正芏分垃しおいる堎合、最尀汎関数は実際には最小二乗汎関数ず同等です。



正則化


耇雑な汎関数には正則化が含たれおおり、通垞は远加の正則化項ずしお衚されたす minℒb+λℱb 、ここでℒbは損倱関数、 ℱbは正則化関数、 λは圱響床を決定するパラメヌタヌです正則化。

正則化は、モデルの耇雑さを調敎するように蚭蚈されおおり、その目暙はモデルを単玔化するこずです。 これは、特に、再蚓緎ず戊うのに圹立ち、モデルの䞀般化胜力を高めるこずができたす。



正則化関数の兞型的な䟋

1. L 1 = ∑ | b |

LASSO正則化最小絶察収瞮および遞択挔算子ずしお知られおおり、名前が瀺すように、係数の次元を枛らしお、それらの䞀郚をれロにするこずができたす。 たた、゜ヌスデヌタが高床に盞関しおいる堎合、これは非垞に䟿利です。



2. L 2 = ∑ | b | 2

リッゞ正則化ず呌ばれるこずもあり、モデルの係数の倀を最小化するず同時に、゜ヌスデヌタの小さな倉曎に察しお堅牢にするこずができたす。 たた、差別化も優れおいるため、モデルを分析的に蚈算できたす。



3. L EN =αL 1 +1-αL 2

LASSOずridgeを組み合わせるず、2぀の䞖界ずすべおのプラスずマむナスを組み合わせたElasticNetが埗られたす。



4. L N = ∑ E [Ab、Ŝ]-Ab、X 、 Aはログパヌティション関数

Åœ= X +℥の圢匏の新しい倉数を導入したす。ここで、 ℥はランダム倉数であり、実際に元のデヌタにランダムノむズを远加したす。これは明らかに再トレヌニングずの戊いに圹立ちたす。

最も単玔な線圢回垰では、加法性ノむズの導入はL 2正則化ず同じですが、他のモデルでは、加法性ノむズは非垞に興味深い結果をもたらしたす。 たずえば、ロゞスティック回垰では、圌は本質的に1/2に近い予枬に察しお眰金を科したす蚀い換えるず、カテゎリヌ予枬を奚励し、䞍確実性に察しお眰を科したす。



5.ドロップアりト

ニュヌラルネットワヌクで積極的に䜿甚されおいるもう1぀の巧劙なアプロヌチ。 variable = X *℥ずいう圢匏の新しい倉数を導入したす。ここで、 ℥は長さdのランダム倉数のベルヌヌルベクトルです。 簡単に蚀えば、因子Xのサブセットをランダムに遞択し、それらからモデルを構築し、このランダム性にあたり䟝存しないモデルを遞択したす。

最も単玔な線圢回垰では、ドロップアりトは再びL 2正則化に䌌おいたす。 しかし、たずえば、ロゞスティック回垰では、たれではあるが非垞に特城的な芁因の圱響を考慮するこずができたす蚀い換えるず、非垞に小さなX ijの堎合、倧きな係数b jが遞択されるため、結果ぞの圱響が倧きくなりたす。



もちろん、利甚可胜な正芏化の皮類はこれに限定されたせん。 線圢モデルがそれ以䞊必芁になるこずはほずんどありたせんが。



そしお今、゜リュヌション


機胜を構築した埌、その゜リュヌションに進むこずができたす。 そしお、䞻に2぀の方法がありたす。

-分析゜リュヌション

-数倀解。



ONKのような単玔な汎関数や、リッゞ正芏化を備えたONKでさえ、解析的に解くこずができたす。぀たり、目的の係数を蚈算するための匏を導き出すこずができたす。 原則ずしお、このような決定は、たずえばSVDたたはコレスキヌ分解を䜿甚しお、マトリックス圢匏で盎ちに行われたす。

ただし、倧量のデヌタがある堎合、たたはデヌタが非垞にたばらな堎合は、これらの堎合でも反埩数倀法の方が適しおいたす。



通垞、分析゜リュヌションは䞀般に利甚できず、数倀的手法に頌らなければなりたせん。もちろん、ここでは、非垞に倚様なアルゎリズムに盎面しおいたす。

- 確率的募配降䞋

- 確率的平均募配

- 共圹募配法

-Broyden-Fletcher-Goldfarb-Shannoアルゎリズム 、および制限されたメモリL-BFGSによる倉曎 。



たずめるず


ご芧のずおり、単玔な線圢モデルはたったく単玔でもありたせん。 膚倧な数の通垞のビゞネス䞊の問題は、線圢モデルによっおうたく解決されたす。 特に、銀行や保険䌚瀟は長幎にわたっお積極的にそれらを䜿甚しおいたす。 いずれにせよ、ニュヌラルネットワヌクや他の機械孊習法を扱う前に、線圢回垰を泚意深く研究する䟡倀がありたす。これは、より耇雑な分析モデルを䜜成するための構築ブロックであるためです。



All Articles