機械孊習ぞのニュヌロベむズのアプロヌチ。 YandexでのDmitry Vetrovの講挔

この投皿では、Data Festずの䞀連の講矩を完了しおいたす。 䌚議の䞭心的なむベントの1぀は、HSEコンピュヌタサむ゚ンス孊郚の教授であるDmitry Vetrovによる報告でした。 Dmitryはロシアで最も有名な機械孊習の専門家の1人であり、昚幎からYandexで䞻芁な研究者ずしお働いおいたす。 レポヌトでは、ベむゞアンアプロヌチの基本に぀いお説明し、ニュヌラルネットワヌクを䜿甚する堎合にこのアプロヌチが提䟛する利点に぀いお説明したす。





カットの䞋-デコヌドずスラむドの䞀郚。




時間はあたりありたせん。トップに沿っお走りたす。 興味のある方はスラむドを芋るこずができたす-より厳密な結論があり、倚くの矎しく異なる匏がありたす。 あたり退屈にならないこずを期埅したしょう。



䜕に぀いお話したすか。 ベむズの方法、確率論ずしおのベむズのアプロヌチ、機械孊習の問題ずしおの簡単な説明をしようずしたす。 このアプロヌチは、ディヌプニュヌラルネットワヌクの勝利の行列によっお匕き起こされた、90幎代ずれロ幎-ディヌプ革呜が始たる前に非垞に人気がありたした。 しばらくの間、これらすべおのベむゞアン手法が必芁な理由は、ニュヌラルネットワヌクが非垞にうたく機胜しおいるように思えたした。 しかし、よくあるこずですが、ある時点で、ニュヌラルネットワヌクずベむゞアンアプロヌチの利点を組み合わせるこずができるこずがわかりたした。 たず第䞀に、倉分ベむズ掚論の手法が登堎し、これらのモデルは互いに矛盟せず、互いに完党に補完し、盞互に補匷し合っおいるずいう事実のためです。



ある意味で、私はこれを珟代の機械孊習ず深局孊習のさらなる発展の方向性ず考えおいたす。 ニュヌラルネットワヌクは䞇胜薬ではないこずを理解するこずが重芁です。 それらは正しい方向ぞの重芁なステップにすぎたせんが、最埌のステップからはほど遠いものです。 機械孊習の理論における次の可胜なステップに぀いおお話したす。 そしお、次の講挔者であるセルゲむ・バルトゥノフは、神話の脱構築を詊み 、ある意味で、ディヌプラヌニングは䞇胜薬ではないずいう考えを続けたす。 しかし、Sergeyはこれに少し異なる芖点からアプロヌチし、よりグロヌバルな芖点を提䟛したす。







それでは、ベむゞアンアプロヌチずは䜕ですか 党䜓のアプロヌチは、単䞀の匏たたは定理に基づいおいたす。 ベむズの定理は、数孊的および抂念的な圢匏で䞎えられたす。



重芁なアむデア。 間接的な兆候のいく぀かによっお掚定したい未知の量があるず仮定したす。 この堎合、未知の量はΞであり、その間接的な発珟はyです。 次に、ベむズの定理を䜿甚しお、未知の量Ξの䜕らかの間接的な特城を間接的に特城付けるいく぀かの間接的な特性を芳察した埌、未知の量の初期の無知たたは知識、事前知識を事埌的に倉換するこずができたす。



匏の重芁な特城は、未知の量に関する無知たたは䞍確実性をコヌド化する入力にアプリオリ分垃を䞎え、その分垃も出力であるこずです。 これは非垞に重芁なポむントです。 ポむントの掚定倀ではなく、入力時にあった同じ圢匏の䜕らかの゚ンティティ。 これにより、たずえば、ベむズ導出の結果である事埌分垃を、新しい確率モデルのアプリオリずしお䜿甚するこずが可胜になり、そのため、さたざたな間接的な発珟を分析するこずにより、異なる角床から新しい未知の量を特城付けるこずができたす。 これは、単玔なモデルからより耇雑なモデルを構築できる堎合に、さたざたな確率モデルの拡匵性たたは構成可胜性の特性を取埗できるための最初の利点です。



2番目の興味深いプロパティ。 確率の積を合蚈する最も単玔なルヌルは、確率モデル、぀たり、問題で発生するすべおの倉数の結合確率分垃がある堎合、少なくずも理論的には、垞に確率的予枬を構築し、関心のある倉数を予枬できるこずを意味したす。 U、いく぀かの芳枬可胜な倉数Oを知っおいたす。さらに、倉数Lがありたすが、これは知らず、興味もありたせん。 この公匏によれば、それらは考慮から完党に陀倖されたす。



これらの3぀の倉数グルヌプの任意の組み合わせに぀いお、Oの倀おそらくUに関連するを芳察した堎合、関心のある量に関するアむデアがどのように倉化したかを瀺す条件付き分垃をい぀でも構築できたす。







実際、ベむズの公匏が広く䜿甚されたこずにより、確率論に察する2番目の代替アプロヌチが生たれたした。 西偎ではしばしばフリヌク゚ンシヌず呌ばれる叀兞的なアプロヌチがありたす-そしお、別のベむゞアンアプロヌチがありたす。 これが私のすべおの講矩で提䟛する短い衚であり、アプロヌチの違いを瀺しおいたす。 圓然、それらは互いに矛盟したせん。 むしろお互いを補完したす。 このプレヌトでは、共通点ず盞違点を確認できたす。



䞻な違いは、ランダム倉数の意味です。 頻床の甚語では、統蚈倉数を評䟡しないずその倀を予枬できない量ずしおのランダム倉数を意味したす。 客芳的な䞍確実性を備えたものが必芁ですが、ベむゞアン手法では、ランダム倉数は決定論的なプロセスずしお単玔に解釈されたす。 完党に予枬するこずができたす。 この決定論的なプロセスでは、結果に圱響するいく぀かの芁因がわからないずいうだけです。 私たちはそれらを知らないので、決定論的なプロセスの結果を予枬するこずはできたせん。 したがっお、私たちにずっお、この結果はランダム倉数のように芋えたす。



最も単玔な䟋は、コむンを投げるこずです。 これは叀兞的なランダム倉数ですが、コむンは叀兞力孊の法則に埓い、実際、すべおの初期条件力、加速、媒䜓の抗力係数などを知っおいるこずを理解しおいたす。萜ちたすワシたたは尟。



考えおみるず、ランダムず芋なすために䜿甚した量の倧郚分は、実際にはベむゞアンの意味でランダムです。 これらはいく぀かの決定的なプロセスであり、これらのプロセスの芁因の䞀郚はわかりたせん。



ある芁因ず他の芁因を知らない堎合があるため、䞻芳的な䞍確実性たたは䞻芳的な無知ずいう抂念が生じたす。



残りはこの解釈の盎接的な違いです。 ベむゞアンアプロヌチのすべおの倀は、ランダムずしお解釈できたす。 確率論の装眮は、ランダム倉数の分垃パラメヌタヌに適甚されたす。 蚀い換えれば、叀兞的なアプロヌチでは無意味なこずは、ベむゞアンのアプロヌチでは意味がありたす。 最尀法の代わりに統蚈的手法-ベむズ定理。 ポむントではなく、異なる確率モデルを組み合わせるこずができる事埌分垃の圢匏の掚定倀を取埗したす。 そしお、nが倧きい堎合に理論的に正圓化される呚波数アプロヌチずは異なり、たずえばnが無限に向かう傟向があるこずを蚌明するものずは異なり、ベむズのアプロヌチは、n = 0であっおも任意のサンプルサむズに察しお有効です。 。







シンプルなむラスト。 盲目の賢者ず象の有名なたずえ話は、モデルがどのように匕っ掛かるかを瀺しおいたす。



想像しおみおくださいいく぀かの盲目の賢者ず1頭の象が䞎えられたした。 タスクは、この象の質量を評䟡するこずです。 賢者は、今や䜕らかの動物を感じるようになるこずを知っおいたす。 圌らはどれを知りたせんが、質量を評䟡しなければなりたせん。







それらはすべお、動物の可胜な質量に぀いおのアむデアを先隓的分垃の圢で゚ンコヌドするこずから始たりたす。なぜなら、分垃の密床が、䜕かに関する私たちの無知の単玔な尺床を決定できるからです。 この知識をコヌド化するには、確率論の装眮を䜿甚するだけです。



私たちは賢者に぀いお話しおいるので、圌らは惑星地球䞊の動物の特城的な質量を知っおいたす。 したがっお、圌らはそのような先隓的な分垃に぀いお理解したす。



最初の賢者は圌の尟に近づき、圌の尟を感じ、明らかに圌の前に蛇のような䜕かたたは倧きな動物の尟があるず結論付けたす。 したがっお、ベむズ導出の過皋で、p1の確率的区分ずしお衚珟できる衚珟の結果を組み合わせるこずにより、条件x = 1の䞋で事埌分垃pΞを受け取りたす。



次に、別の賢者が来たす。 これは完党に異なるモデルです。 X2は完党に異なる領域からの倀であり、間接的に動物の質量を特城づけたす。 圌のベむゞアン結論の過皋で、圌はアプリオリ分垃ずしお、党員が始めた最初の分垃ではなく、以前の賢者の結論の結果を䜿甚したす。 したがっお、2぀の完党に異なる次元、2぀の情報源を1぀の゚レガントな確率モデルに組み合わせるこずができたす。



したがっお、䞀連の枬定を行った埌、最終的にはかなりシャヌプな事埌分垃、ほが正確な掚定倀を取埗したす。 動物がどれだけ持っおいたかをすでに正確に蚀うこずができたす。 これは3番目の特性、぀たり拡匵性、぀たりモデルが垞に拡匵および関䞎する胜力の䟋です。



すでに機械孊習に適甚されおいるベむゞアンアプロヌチのもう1぀の利点は、正則化です。 先隓的な蚭定を考慮するこずにより、機械孊習の手順䞭にパラメヌタヌのオヌバヌチュヌニングを防ぎ、再トレヌニングの圱響に察凊するこずができたす。 少し前、アルゎリズムが膚倧な量のデヌタでトレヌニングを開始したずき、再トレヌニングの問題は議題から取り陀かれたず考えられおいたした。 しかし、ポむントは、人々が巚倧なニュヌラルネットワヌクに切り替えるこずを心理的に恐れおいるずいうこずだけでした。 それらはすべお小さなニュヌラルネットワヌクで始たり、巚倧なトレヌニングサンプルでは実際には再蚓緎されたせんでした。 しかし、心理的な恐怖が消えるず、人々はたすたす倧きなネットワヌクを䜿甚し始めたした。



2぀のこずが明らかになりたした。 たず、ネットワヌクが倧きいほど良いです。 倧芏暡なネットワヌクは、小芏暡なネットワヌクよりもうたく機胜したす。 しかし、倧芏暡なネットワヌクは再蚓緎を始めおいたす。 1億個のパラメヌタヌがある堎合、10億個のオブゞェクトは非垞に倧きなトレヌニングサンプルではないため、このような機械孊習の手順を正芏化する必芁がありたす。



ベむゞアンアプロヌチは、これらのパラメヌタヌの事前分垃、トレヌニング手順䞭に構成されるニュヌラルネットワヌクの重みを導入するこずにより、これを行う絶奜の機䌚を提䟛したす。



特に、ドロップアりトなどの䞀般的なヒュヌリスティック正則化手法は特別なケヌスであり、ベむゞアン正則化の倧たかな近䌌であるこずが刀明したした。 実際、これはベむゞアンの結論を匕き出す詊みです。



最埌に、3番目の利点は、朜圚倉数を䜿甚しおモデルを構築できるこずです。 圌女に぀いおの詳现。







やる気にさせる䟋がありたす-䞻成分法です。 この方法は非垞に簡単です-線圢次元削枛。 高次元の空間でサンプルを取埗し、共分散行列を䜜成し、察応する最倧倀を持぀䞻軞に投圱したす。 ここに幟䜕孊的に瀺されおいるものがありたす。 そしお、サンプルに含たれる最倧の分散を維持しながら、空間の次元を2から1に瞮小したした。



この方法は簡単で、明瀺的に解決できたす。 ただし、確率モデルの芳点から、別の方法で定匏化するこずもできたす。







デヌタが次のように線成されおいるず想像しおください。各オブゞェクトに぀いお、小さな次元の空間に隠された衚珟がありたす。 ここでは、zずしお瀺されおいたす。 そしお、高次元の空間でこの隠された衚珟の線圢関数を芳察したす。 線圢関数を取り、さらに通垞のノむズを远加したした。 したがっお、xの高次元デヌタを取埗したしたが、そこから䜎次元の衚珟を埩元するこずが非垞に望たれたす。







数孊的には、このように芋えたす。 確率モデルを定矩したした。これは、xずzの芳枬されたコンポヌネントず隠れたコンポヌネントの同時確率分垃です。 モデルは非垞に単玔で、サンプルはオブゞェクトの積によっお特城付けられたす。 各オブゞェクトの芳枬されたコンポヌネントは、非衚瀺コンポヌネントによっお決定されたす。非衚瀺コンポヌネントのアプリオリ分垃に぀いお話しおいたす。 どちらも正芏分垃です。 小さな空間では、デヌタはアプリオリに正芏分垃しおいるず仮定し、これらのデヌタの線圢関数を芳枬したす。



高次元衚珟を衚すサンプルが䞎えられたす。 私たちはxを知っおおり、zを知らず、私たちの仕事はパラメヌタヌΞを芋぀けるこずです。 Ξは行列V、σ²です。



瀺された問題は、朜圚倉数を持぀孊習問題ずしおベむゞアン蚀語で定匏化できたす。 通垞の最尀法を適甚するには、zの増加に関する知識が十分ではありたせん。 この手法には、EMアルゎリズムずさたざたな修正に基づく暙準的なアプロヌチがあるこずがわかりたす。 反埩プロセスを開始できたす。 EMステップには、私たちが䜕をするかを蚘述する匏がありたす。 理論的には、プロセスは単調であり、極倀に収束するこずが保蚌されおいたすが、それでもただです。



問題が発生したす。問題が明瀺的に解決されおいるこずがわかっおいるずきに、反埩プロセスを適甚する必芁があるのはなぜですか。



答えは簡単です。 はじめに-アルゎリズムの耇雑さ。 分析゜リュヌションの耇雑さはOnD²であり、EMアルゎリズムの1぀の反埩の耇雑さはOnDdです。



100䞇次元の空間を10次元の空間に投圱し、EMアルゎリズムが100の反埩を収束するず想像するず、反埩スキヌムは明瀺的な圢匏の゜リュヌションよりも1000倍速く動䜜したす。



さらに、重芁な利点私たちは基本モデルであり、䞻成分のメ゜ッドであるため、特定のタスクの詳现に応じおさたざたな方法で拡匵できたす。 たずえば、䞻成分のメ゜ッドの混合ずいう抂念を導入し、デヌタは1぀の空間、より小さな次元の線圢郚分空間ではなく、いく぀かの空間に存圚するず蚀うこずができたす。 そしお、各郚分空間からどの具象オブゞェクトが来たかはわかりたせん。



䞻成分法の混合物が生じる。 正匏には、モデルは次のように蚘述されたす。 隠れた離散倉数tの远加の呜名法を導入したした。 繰り返したすが、EMアルゎリズムを䜿甚するず、ほが同じ匏を䜿甚しお問題の解決策を芋぀けるこずができたすが、元の䞻成分の方法では倉曎を加えるこずができたせんでした。







もう1぀は、たずえば、サンプルでxの䞀郚のコンポヌネントが䞍明で、デヌタが欠萜しおいる状況で機胜するこずです。 それは起こりたすか 非垞に頻繁に。 やや゚キゟチックな状況は、オブゞェクトの䞀郚の隠された衚珟、䜎次元衚珟、党䜓たたは䞀郚を知っおいる堎合です。 しかし、再び、そのような状況は可胜です。

䞻成分法の初期モデルでは、どちらか䞀方を考慮するこずはできたせんが、ベむゞアン蚀語で定匏化された確率モデルでは、EMアルゎリズムの簡単な倉曎によっお䞡方を芁玠的に考慮したす。 芳枬可胜な隠れ倉数の呜名法をわずかに倉曎したす。



したがっお、このデヌタの任意のフラグメントが存圚しない堎合、暙準の機械孊習のように、芳枬可胜な、぀たり隠された、タヌゲット倉数の呜名法が匷調衚瀺されおおり、混合できない堎合のデヌタ凊理の問題を解決できたす。 これにより、柔軟性が向䞊したす。







最埌に、最近たで、ベむゞアン手法の倧きな制限は、蚈算の耇雑さが高いため、小さなデヌタサンプルに適甚でき、ビッグデヌタに転送できないこずであるず考えられおいたした。 過去数幎間の結果は、そうではないこずを瀺しおいたす。 人類は぀いにベむゞアン手法のスケヌラビリティを提䟛するこずを孊びたした。 そしお、人々はすぐにベむゞアン手法ずディヌプニュヌラルネットワヌクを亀差させ始めたした。



ただ時間がありたすので、ベむゞアン法をスケヌリングする方法に぀いお少し説明したす。







ベむズの定理。 有名なX、Mに぀いおZに぀いお䜕か蚀いたいのですが、これはXず䜕らかの関係がありたす。ベむズの定理を適甚したす。 質問ここで最も脆匱な堎所は䜕ですか、最も重い玙は䜕ですか 䞍可欠。



積分が分析的に取られるたれなケヌスでは、すべおがうたくいきたす。 分析的にずられない堎合は別の問題です。しかし、高次元のデヌタに぀いお話しおいるず想像しおください。ここでは、次元の空間の積分は1たたは2ではなく、数䞇および数十䞇です。



䞀方、チェヌンを蚘録したしょう。 開始∫pX | ZpZdZ。 log PXdZは独立しおいるため、1に等しいZ党䜓の積分です。



2番目のアクション。 圌らは、この匏に埓っおpXを巊に移動し、分母のpZ | Xを積分の䞋に曞きたした。



珟圚、分子ず分母はZに䟝存しおいたすが、それらの商はpXを䞎えたす。぀たり、Zに䟝存したせん。



次に、ログの䞋にあるものを乗算し、1を乗算し、qZで陀算したす。



そしお最埌-積分を2぀の郚分に分けたした。 ここでは、2番目の郚分は確率理論でよく知られおいるカルバック・ラむブラヌの発散であり、これらの2぀の分垃が䞀臎する堎合にのみ、倀は非負でれロに等しくなりたす。 ある意味では、これは分垃間の距離に類䌌しおいたす。 そしお、私はあなたに思い出させおください、私たちの仕事はベむズの結論を達成するために少なくずもpZ | Xを評䟡するこずです。



この倀は蚈算できたせん。ここにpZ | Xが衚瀺されたす。 しかし、最初の項は完党に蚈算できたす。 各項はqZに䟝存したすが、それらの合蚈はqZに䟝存したせん。logpXに等しいためです。 アむデアが生たれたすしかし、分垃のqZの最初の項を最倧化したす。



これは、最初の項を最倧化するこずで、2番目の項を最小化するこずを意味したす。これは、真の事埌分垃に察するqZの近䌌の床合いを瀺したす。 , , : , , .



.







. — .



, ? ? .



.







— . X tr , Z , ξ. , , L, ξ — ξ. L Q(Z) ξ. ξ , Q(Z) Z.



, . , , , . , , - .



, . , Z Q(Z). , . , .







, . , , , — , , .



. — . : . , , , . .



, , , - . , ÎŒ σ — . . , Z i ÎŒ σ, X i . Ξ. . , , .







, : , , . , . L, Q(Z), φ, . , , . , , — , .



. φ. , Z, X. — , X Z.



, . , .







, . , . , , , . representations.



log , , . , — , , , , — . — . - , , , , . . , , , , . .



, . — drop out. , , . , . , . . drop out , , , , .



, , attention maps, , . . , — L(Q|ξ).



. , . , . , NIPS , , — .



, , , . — . ありがずう



All Articles