機械孊習のグラフィカルモデル。 ダンデックスワヌクショップ

構造分類問題を解決するためのグラフィカルモデルの装眮は非垞に人気がありたしたが、トレヌニングサンプルのパラメヌタヌを蚭定するタスクは長い間開かれたたたでした。 圌のレポヌトで、 Dmitry Vetrovは、サポヌトベクトル法の䞀般化ず、グラフィックモデルのパラメヌタヌを調敎するためのアプリケヌションのいく぀かの機胜に぀いお述べたした。 ドミトリヌは、ベむゞアン手法グルヌプのリヌダヌであり、モスクワ州立倧孊のVMKの准教授であり、ShADの教垫です。



レポヌトのビデオ録画。



レポヌト抂芁







機械孊習の抂念そのものは非垞に単玔です-比speaking的に蚀えば、それはデヌタ内の関係の怜玢です。 デヌタは、同じ䞀般母集団から取埗されたオブゞェクトのセットによっお叀兞的な蚭定で衚瀺されたす。各オブゞェクトには芳枬可胜な倉数があり、隠された倉数がありたす。 芳枬された倉数 以䞋ではXず衚蚘したす はそれぞれ属性ず呌ばれたすが、隠れた倉数 T は決定されるものです。 芳枬可胜な倉数ず隠された倉数ずの間のこの関係を確立するために、トレヌニングサンプル、぀たり オブザヌバブルコンポヌネントず非衚瀺コンポヌネントの䞡方が既知のオブゞェクトのセット。 それを芋お、私たちは将来的に私たちが䞀連の兆候を芋たずきに隠されたコンポヌネントを評䟡できるようにするいく぀かの重芁なルヌルを蚭定しようずしおいたす。 トレヌニング手順はほが次のずおりです。通垞は重み W を䜿甚しお蚭定される䞀連の有効な決定ルヌルが固定され、その埌、トレヌニング䞭に䜕らかの方法でこれらの重みが調敎されたす。 必然的に、再トレヌニングの問題は必然的に発生したす。蚱容可胜な決定ルヌルのファミリヌが倚すぎる堎合、トレヌニングプロセス䞭に、トレヌニングサンプルに぀いおその隠れたコンポヌネントを完党に予枬する堎合に簡単にケヌスに到達できたすが、予枬は新しいオブゞェクトにずっおは悪いこずがわかりたす。 機械孊習の分野の研究者は、この問題を議題から取り陀くために長幎の努力を費やしおきたした。 珟圚、どういうわけか成功しおいるようです。



ベむゞアンパラダむムは機械孊習のサブセクションであり、この堎合、調敎可胜なパラメヌタヌW 、芳枬された倉数Xおよび隠れた倉数Tの間の関係は、たずえばこれらの3぀の倉数グルヌプすべおに぀いお、共同分垃の圢でモデル化されるず想定されおいたす。 したがっお、機械孊習問題の叀兞的な声明、぀たり、デヌタが同じ独立したオブゞェクトの同じ䞀般的なセットから取埗されたオブゞェクトのコレクションであるず想定される堎合、この共同分垃はこの比范的単玔な圢匏で衚すこずができたす







最初の芁因は、既知の特性ず特定の決定ルヌルを備えた隠し倉数の分垃を担圓したす。 2番目の芁因は、特定の決定ルヌルいわゆる刀別モデルに぀いお芳枬された倉数の分垃を担圓したす。 芳枬された倉数の分垃をモデル化しないため、この芁因は興味を持ちたせん。 しかし、いわゆるゞェネレヌティブモデルの䞀般的な堎合には、それがあるべき堎所がありたす。 そしお最埌に、確率を扱うルヌルを単に考慮する堎合に必然的に最埌の芁因は、重みWの先隓的分垃です。 決定ルヌルのパラメヌタヌ倀。 そしお、これをアプリオリ分垃に蚭定する機䌚があったずいう事実だけが、この10幎間ベむゞアン手法が掻況を呈しおいる䞻な理由であるず思われたす。 長い間、90幎代半ばたで、確率理論ぞのベむズのアプロヌチは、䜕らかの方法でパラメヌタにアプリオリ分垃を蚭定する必芁があるこずを瀺唆するずいう理由で、研究者に察しおかなり懐疑的でした。 そしお、䌝統的な質問は-それをどこで手に入れるかでした。 もちろん、尀床関数はデヌタによっお決定され、倩井からアプリオリ分垃を取りたすか 異なるアプリオリ分垃をずるず、ベむズの公匏を䜿甚しお異なる結果になるこずは明らかです。 そのため、長い間、ベむゞアンアプロヌチはある皮のメンタルゲヌムのように思われおいたした。 それにも関わらず、90幎代半ばごろ、䞀連の䜜業が始たり、解決された問題の詳现を考慮するず、機械孊習の䞀般的で暙準的な方法が倧幅に改善されるこずが蚌明されたした。



倚くの詳现があり、すべおのタスクが暙準蚭定に削枛されおいるように芋えたすが、ほずんどの堎合、特定の決定ルヌルの䜕らかの圢匏に察する特定の事前蚭定がありたす。 ぀たり 実際には、重みWの特定の倀に察する遞奜 そしお、疑問が生じたした。これをトレヌニングサンプルの決定ルヌルの品質ずどのように組み合わせるこずができたすか 埓来、機械孊習手順は孊習゚ラヌを最小限に抑えるように芋えたす。 倉数Tが既知のトレヌニングサンプルに察しおできるだけ正確に予枬できるように、決定的なルヌルを構築しようずしおいたす。 ぀たり 私たちは品質を高く評䟡できたす。 これは1぀の指暙です。 別の指暙は、 Wのいく぀かの倀がより奜たしいず考えるこずです。



このすべおを統䞀された甚語でどのようにリンクできたすか これは、ベむゞアンパラダむムの枠組み内で可胜であるこずが刀明したした。 トレヌニングの質的特性は、確率的意味である尀床関数によっお特城付けられ、パラメヌタヌの優先床は、アプリオリ分垃によっお特城付けられたす。 したがっお、尀床関数ずアプリオリ分垃は、ベむズ匏の枠組みで完党に組み合わされ、トレヌニング䞭に調敎するパラメヌタヌWの倀の事埌分垃に぀ながりたす。 したがっお、ベむゞアンパラダむムにより、トレヌニングサンプルの粟床ず、倚くの応甚問題で非垞に有機的に生じた重みの倀のアプリオリ遞奜の䞡方を均䞀な甚語で正しく組み合わせるこずが可胜になりたした。したがっお、これらのアプリオリ遞奜の導入により、結果の決定ルヌルの品質を倧幅に改善するこずができたした。 さらに、90幎代埌半かられロ幎にかけお、より高床なツヌルが登堎したした。これにより、アプリオリ分垃がデヌタに応じお䜕らかの巧劙な方法でパラメヌタヌ化および調敎できるようになりたした。 ぀たり ボタンを抌すず、特定のタスクに最適なアプリオリ分垃が自動的に構成され、その埌、機械孊習手順が実行されたした。



これらの方法はすでに十分に開発されおいたす。 機械孊習の問題に関する叀兞的な声明が解決されたず蚀っおも、それは誇匵ではありたせん。 そしお、人生でしばしば起こるように、叀兞的なプロダクションを閉じるずすぐに、非叀兞的なプロダクションにもっず興味があり、それがはるかに豊かで興味深いこずが刀明したした。 この堎合の非叀兞的なステヌトメントは、隠されたオブゞェクト倉数が盞互䟝存しおいる状況です。 ぀たり 埓来の機械孊習問題で想定されおいたように、このオブゞェクトの兆候のみを芋お、各オブゞェクトの隠し倉数を決定するこずはできたせん。 さらに、他のオブゞェクトの兆候だけでなく、他のオブゞェクトの隠された倉数にも倧きく䟝存したす。 したがっお、各オブゞェクトの隠し倉数を個別に決定するこずはできず、集蚈のみです。 以䞋に、盞互接続された非衚瀺コンポヌネントを䜿甚したタスクの䟋を倚数瀺したす。 これらの関係、぀たり サンプルの隠された倉数が盞互に䟝存しおいるずいう事実を認識するこずで、タスクをさらに正芏化するための倧きな機䌚が開かれたす。 ぀たり 最終的には、゜リュヌションの粟床をさらに向䞊させたす。



画像のセグメンテヌション







最初の最も兞型的な䟋は、画像のセグメンテヌションです。 これは、盞互䟝存する隠れ倉数に関するこのような問題を解決できるツヌルであり、実際、グラフィックモデルのブヌムが始たりたした。 このタスクは、デゞタルカメラの開発で非垞に人気がありたす。 これは䜕ですか 各ピクセルに察しお、クラスラベルを配眮しようずしおいたす。 バむナリセグメンテヌションの最も単玔なケヌスでは、オブゞェクトを背景から分離しようずしたす。 さらに耇雑なケヌスでは、オブゞェクトに䜕らかのセマンティクスを導入しようずしおいたす。 原則ずしお、この問題は暙準的な分類問題ず芋なすこずができたす。 各ピクセルはオブゞェクトであり、各ピクセルはKクラスのいずれかに属するこずができ、各ピクセルには特定の機胜セットがありたす。 最も単玔な堎合、これは色であり、テクスチャ機胜、いく぀かのコンテキスト情報を削陀できたすが、この堎合、いく぀かの仕様があるこずはかなり明らかです。 セグメント化の問題では、セグメント化の結果ずしおいく぀かのコンパクトな領域があるず仮定しおいるためです。 この事実を圢匏化しようずするず、必然的に、各ピクセルを他のすべおから個別に分類たたはセグメント化するこずができず、画像党䜓を䞀床にセグメント化するこずしかできなくなりたす。 以䞋は、隠し倉数間に盞互䟝存関係がある最も単玔なタスクです。



ビデオ远跡







次のタスクはビデオトラッキングです。 たずえば、歩行者を怜玢たたは識別する、歩行者を識別するなど、各フレヌムを個別に凊理できたす。 たたは、マりスの远跡を行いたす。 䞊郚のマりスは非垞によく䌌おいたすが、各マりスを正確に識別できるように远跡する必芁がありたす。 マりスにストレスがかかるず䞻匵する生物孊者は、矊毛に色の぀いたストロヌクを付ける詊みを厳しく抑えおいたす。 したがっお、マりスはすべお同じです。行動を分析するためには、どのマりスがどこにいるのかを知る必芁がありたす。 単䞀のフレヌムでは問題を解決できないこずは明らかです。 できれば倚数の隣接フレヌムを考慮する必芁がありたす。 ここでも、マりスの識別子が隠し倉数ずしお機胜する隠し倉数間に盞互䟝存関係がありたす。



゜ヌシャルネットワヌク分析







゜ヌシャルネットワヌクの分析は、今や明らかなタスクです。 もちろん、゜ヌシャルネットワヌクの各ナヌザヌは、他のナヌザヌずは独立しお分析できたすが、情報の重芁なレむダヌが倱われるこずは明らかです。 たずえば、珟圚の䜓制に反察するナヌザヌを分析しようずしおいたす。 「倧統領にナバルニヌ」たたは「垂長にナバルニヌ」ずいうバナヌがある堎合は、もちろん、反察掟ずしお識別できたすが、これにもっず泚意を払い、これらのバナヌを掲げない堎合は、反察掟に同情するず決めたす。これらのバナヌが喜んでぶら䞋がっおいる私の友人をあたり慎重に分析するこずはできたせん。 そのような人がたくさんいる友人の地䜍にいるこずが刀明した堎合、私自身もこれらの傟向に共感する可胜性がわずかに高くなりたす。 そのようなgbshnoyトピックから逃れる堎合、たずえば、特定のナヌザヌに関するデヌタたずえば、圌が圌のペヌゞで報告した個人デヌタだけでなく、友達のサヌクルを芋お。



2Dおよび3Dモデルの挿入







次のタスクは、画像を登録しお、画像から3次元モデルを構築し、画像を2次元たたは3次元モデルに適合させるこずです。 このタスクは、登録䞭に画像がある皋床倉圢するこずを前提ずしおいたす。 もちろん、各ピクセルの倉圢を他のピクセルずは無関係に怜玢するこずもできたすが、この堎合は匟性倉圢が発生せず、結果はかなり嘆かわしいこずは明らかです。 正匏には各ピクセルをどこかに入力したすが、各ピクセルの゚ラヌは最小限に抑えられたす。 同時に、各ピクセルが独立しお倉圢するず、画像党䜓が単玔に厩れたす。 これらの盞互䟝存性を説明する方法の1぀ずしお、グラフィックモデルの装眮を䜿甚できたす。これにより、隠れ倉数の盞互䟝存性を分析できたす。



ノむズの倚いメッセヌゞのデコヌド







別の重芁なタスクがありたす。 あたり蚀及されおいたせんが、実際には非垞に関連性があり、今埌数幎のうちに、関連性が高たるだけです。 これは、ノむズの倚いメッセヌゞのデコヌドです。 今、私たちはモバむルデバむスに囲たれおいたす。 圌らの助けを借りたデヌタ転送はあたり信頌性が高くなく、チャンネルはひどく過負荷になっおいたす。 明らかに、トラフィックの需芁は珟圚の胜力を超えおいるため、䞀方でノむズ耐性があり、他方で高い垯域幅を持぀プロトコルを䜜成するずいうタスクが自然に発生したす。 ここで私たちは奇劙な珟象に盎面しおいたす。 前䞖玀の50幎代以来、Claude Shannonが情報理論を開発したずき、各通信チャネルには、特定の干枉匷床で特定の最倧スルヌプットがあるこずが知られおいたす。



理論匏が導き出されたした。 シャノンの定理が予枬する以䞊の情報は、原則ずしおノむズの倚いチャネルを介しお送信するこずはできたせん。 しかし、この理論的な限界に近づくに぀れお、぀たり いく぀かのトリッキヌなアヌカむブスキヌムを䜿甚しお情報をより効率的に送信し、゚ラヌの修正を目的ずした制埡ビットを远加するほど、このメッセヌゞのデコヌドスキヌムはより耇雑になりたす。 ぀たり 最も効率的な゚ラヌ蚂正コヌドは、デコヌドが非垞に困難です。 単玔なデコヌド匏はありたせん。 したがっお、シャノンの制限に達するず、デコヌドの耇雑さが指数関数的に増加したす。 メッセヌゞを゚ンコヌドしお送信するこずはできたすが、解読するこずはできたせん。 れロ幎に開発および暙準化された最新のコヌド珟圚、ほずんどのモバむルデバむスで䜿甚されおいたすは、この理論的に可胜な制限に近く、いわゆるメッセヌゞ䌝播アルゎリズムは、盞互接続された隠された倉数の問題を解決しようずしお生たれたグラフィックモデルの理論。



シミュレヌション







90幎代埌半には、条件付きでシミュレヌションモデリングたたぱヌゞェント環境のモデリングず呌ばれるタスクも䞀般的になりたした。 これは、盞互䜜甚する倚数の゚ヌゞェントで構成されるシステムの動䜜を分析する詊みです。 このタスクは非垞に興味深いものであり、その解決のための厳密な方法はありたせん。 したがっお、これらの問題のほずんどは、さたざたな修正を加えたモンテカルロ法を䜿甚したシミュレヌションによっお解決されたす。 簡単な䟋は、トラフィックモデリングです。 車䞡ぱヌゞェントずしお機胜したすが、すべおのドラむバヌが高速道路䞊の最も近い隣人を芋お決定を䞋すため、文脈から車の挙動をモデル化できないこずは明らかです。 そしお、運転者間の最も単玔な盞互䜜甚をモデルに導入するだけで、驚くべき結果が埗られるこずがわかりたした。 たず、最初に理論的に確立され、次に実際に、流れの匷床に特定の限界がありたす。 フロヌがこの制限を超えるず、メタステヌブルになりたす。 䞍安定。 芏範からのわずかな逞脱たずえば、ドラむバヌの1人がもう少し急激に速床を萜ずしおすぐに走ったは、亀通枋滞がすぐそこに数十キロメヌトル成長するずいう事実に぀ながりたす。 これは、トランスポヌトチャネルが過負荷になった堎合でも、亀通枋滞がなくおも機胜できるこずを意味したすが、亀通枋滞はほずんど発生したせん。



最初に圌らは理論的にそれを埗た、そしお圌らは実際にはこれが本圓に起こるず確信したようになった。 実際、各ルヌトには、その亀換に応じお、フロヌがただ安定しお動いおいる䞀定の最倧スルヌプットがありたす。 安定した動きから死んだ亀通枋滞ぞの突然の移行のこの効果は、フェヌズ移行の䞀䟋です。 ゚ヌゞェントシステムでは、このような珟象が非垞に頻繁に発生し、盞転移が発生する条件は決しお些现なものではないこずが刀明したした。 シミュレヌトできるようにするには、適切なツヌルが必芁です。 これらがマルチ゚ヌゞェントシステムであるず既に述べた堎合、゚ヌゞェントはオブゞェクトであり、オブゞェクトは盞互䜜甚したす。 各゚ヌゞェントを蚘述する倉数間に盞互䟝存関係がありたす。



深局孊習







次の䟋はディヌプラヌニングです。 この画像は、ICML 2012カンファレンスのGoogle代衚によるレポヌトから取られたもので、機械孊習-ディヌプラヌニングで比范的若いパラダむムを䜿甚するこずで、Flickrデヌタベヌスからの写真の分類の質を倧幅に高めるこずで泚目を集めたした。 ある意味では、これは新しい方法でのニュヌラルネットワヌクの生たれ倉わりです。 埓来のニュヌラルネットワヌクは、長呜の泚文に成功しおいたす。 しかし、圌らは䜕らかの圢で別のアプロヌチの出珟を促したした。 深いネットワヌク、ボルツマンネットワヌク、これは特定の限定されたボルツマンマシンのセットです。 実際、これらは盞互接続されたバむナリ倉数の局です。 これらの倉数は隠された倉数ずしお解釈するこずができ、決定を行う際に、芳枬された倉数に埓っお䜕らかの圢で調敎されたす。 しかし、ここでの特城は、すべおの隠された倉数がvariablesな方法で盞互接続されおいるこずです。 そのようなネットワヌクを蚓緎し、そのようなネットワヌクの枠組み内で決定を䞋すために、盞互䟝存倉数を持぀オブゞェクトの分析に基づいた方法を再床適甚する必芁がありたす。



協調フィルタリング







最埌に、私の頭に浮かんだ最埌のアプリケヌションは、協調フィルタリングたたは掚奚システムです。 たた、比范的新しい方向。 ただし、明らかな理由により、たすたす人気が高たっおいたす。 珟圚、オンラむンストアは掻発に開発されおおり、数䞇から数十䞇のアむテムを提䟛しおいたす。 ナヌザヌがキャプチャを䞀lanceするこずさえできない量。 ナヌザヌがこの巚倧な品揃えから以前に䜕らかの圢で遞択した補品のみを衚瀺するこずは明らかです。 したがっお、掚奚システムを構築するタスクがありたす。 特定のナヌザヌ既に賌入した補品、個人デヌタ、性別、幎霢だけでなく、同様の補品を賌入した他のナヌザヌの行動も分析するこずで構築できたす。 繰り返したすが、倉数間には盞互䟝存関係が生じたす。



グラフィックモデル



機械孊習の叀兞的な蚭定から実際に離れなければならないずいう事実ず、実際にはより耇雑で興味深い䞖界ずの関連性を瀺すこずができたず思いたす。 盞互䟝存する非衚瀺コンポヌネントを持぀オブゞェクトがある堎合、タスクに移動する必芁がありたす。 その結果、たずえば隠れたコンポヌネントなど、高床な倚次元分垃をモデル化する必芁がありたす。 トラブルがありたす。 最も単玔な状況を想像しおください。 それぞれが隠しバむナリ倉数を持ち、倀0/1をずるこずができる1000個のオブゞェクトを考えおみたしょう。 すべおがすべおに䟝存する共同分垃を指定する堎合は、バむナリ倉数に千次元分垃を正匏に蚭定する必芁がありたす。 質問このような分垃を蚭定するには、いく぀のパラメヌタヌが必芁ですか 回答2 1000たたは玄10 300です。 比范のために、芳枬可胜な宇宙の原子の数は10 80です。 明らかに、党䞖界の蚈算胜力を組み合わせおも、 10,300を蚭定するこずはできたせん。 各ピクセルがオブゞェクト/背景倀を取るこずができる30x30の画像を想像しおください。 分垃は離散的であり、2 1000個のパラメヌタヌを必芁ずするため、このような画像のセットの分垃を原理的に蚈算するこずはできたせん。



どうする 頭に浮かぶ最初のオプションは、私たちが持っおいる各ピクセルが他から独立しお分垃しおいるず仮定したす。 その埌、必芁なパラメヌタは千個だけです。 各ピクセルが倀をずる確率、たずえば1。その埌、-1は倀が0をずる確率です。これが暙準的な機械孊習の仕組みです。 1぀の小さな問題-すべおの倉数が独立しおいたす。 ぀たり、これらのタスクをこの方法で解決するこずはできたせん。 質問どうすれば少数のパラメヌタヌに制限されたすが、すべおがすべおに䟝存する分垃を求めたすか そしお、ここでグラフィカルモデルのパラダむムが助けになりたす。これは、共同分垃が、倉数のサブセットの亀差で定矩された䞀定数の芁因の積ずしお衚されるこずを瀺唆しおいたす。 これらの芁因を指定するために、埓来、サンプル内のいく぀かのオブゞェクトを盞互に接続する無向グラフが䜿甚され、因数分解システムはこのグラフの最倧クリック数によっお決定されたす。







これらのクリック数は非垞に小さく、最倧クリック数はサむズ2です。぀たり、サむズ2のクリックの分垃を決定するには3぀のパラメヌタヌで十分です。それぞれの芁玠は少数の倉数で指定できたす。 、比范的少数のパラメヌタヌで共同分垃を蚘述するこずができたす。 䞀方、比范的単玔な因数分解システムでさえ、すべおの倉数がすべおの人に䟝存するずいう状況を保蚌したす。 ぀たり 完党な盞互䟝存性が埗られ、䞀郚の因数分解システムに限定されたした。 因数分解システムは条件付き独立性を決定したす。



䞻なタスク



グラフィックモデルの理論の枠組みで生じる䞻なタスクは䜕ですか このデバむスは、90幎代埌半に提案されたした。因数分解システムの圢で共同分垃をモデル化するためです。 このようなシステムを導入したずしたす。 次に、機械孊習の問題に戻りたす。ベむズの定匏化では、3぀の量のグルヌプぞの分垃があるこずが瀺唆されおいたす隠れ倉数T 、芳枬可胜倉数Xおよび決定ルヌルWのパラメヌタヌ。 グラフィカルモデルのフレヌムワヌク内では、タスクは非垞に䌌おいるこずが刀明したした。

  1. 意思決定。 決定ルヌルWが䞎えられたす;芳枬された倉数を芋るサンプルがありたす。 課題は、隠れた倉数を評䟡するこずです。 機械孊習の暙準的な問題に関連しお、問題は簡単に解決され、誰も考慮したせん。 グラフィカルモデルでは、タスクは実質的に自明ではなく、垞に解決可胜ずはほど遠いものになりたした。

  2. 正芏化定数Zの決定。 蚈算は必ずしも簡単ではありたせん。
  3. 先生ずのトレヌニング 。 芳枬可胜な倉数だけでなく、隠れた倉数も知っおいるトレヌニングサンプルが提䟛されたす。 これは、盞互接続されたオブゞェクトのコレクションです。 最倧結合分垃を描くベクトルWを芋぀ける必芁がありたす。

  4. 教垫なしで孊習。 サンプルが提䟛されたすが、その䞭にあるのは芳枬されたコンポヌネントのみであり、隠されたコンポヌネントはわかりたせん。 決定ルヌルを蚭定したす。 Tにはかなりの数の構成があるため、タスクは非垞に困難です。

  5. 限界分垃 。 サンプルが䞎えられ、 Xの芳枬されたコンポヌネントは既知であり、決定ルヌルWは既知ですが、サンプルのすべおの隠れ倉数の最も可胜性の高い構成を芋぀けるのではなく、任意のオブゞェクトの隠れ倉数の分垃を芋぀けたいです。 倚くの堎合、タスクはアプリケヌションに関連しおいたす。 簡単に解決されたす。





レポヌトの残りの郚分は、教垫による指導のタスクの分析に専念しおいたす。 詳现なレポヌトはこちらでご芧ください 。



All Articles