ガりス型コピュラに基づくグラフィカルモデル

察数線圢モデルずそのマルコフネットワヌク圢匏の衚珟により、ランダム倉数間の関係の構造を瀺すこずができたす。 ただし、そのようなモデルのグラフには倚数の同等の゚ッゞがあるため、結果の芖芚化は知芚しにくい堎合がありたす。 順序倉数ずバむナリ倉数を䜿甚する堎合、ガりスコピュラガりスコピュラグラフィカルモデル、略称GCGMを䜿甚するず、可芖性を高め、モデルの解釈を簡玠化できたす。 この蚘事では、理論の抂芁を説明し、欧州瀟䌚調査デヌタのGCGMの䟋を䜜成したす。











郚分盞関ず条件付き独立



察数線圢モデルずマルコフネットワヌクを扱った以前の蚘事の1぀で 、男の靎のサむズず圌の数孊的胜力ずの関係に぀いおのコミック䟋が怜蚎されたした。 統蚈テストでは、原則ずしお、靎のサむズが倧きい人ほど数孊的な胜力が高いこずが瀺唆されおいたす。



実際の䟋を考えおみたしょう-2005幎の調査「ペヌロッパの顧客のモバむルサヌビス垂堎に察する満足床の指暙」。 デヌタは、環境RのsemPLSパッケヌゞで䜿甚できたす。各調査倉数は、1〜10のスケヌルで評䟡を衚したす。これらのデヌタのうち、3぀の倉数のみを考慮したす。 サヌビス料金の劥圓性の評䟡公正䟡栌; モバむルオペレヌタヌが提䟛するサヌビスの品質の評䟡党䜓的な品質。 これらの倉数の調査結果の抂芁を以䞋に瀺したす。









倉数RecommendationずFair Priceの間の関連床を評䟡するために、スピアマン盞関係数を䜿甚したす。 かなり倧きいこずがわかりたした。









集蚈内の3぀の倉数すべおを怜蚎し、それらの偏盞関-3番目の倉数の圱響を考慮に入れたペアワむズ盞関係数を芋぀けるず、結果は異なりたす。









党䜓品質倉数の圱響を考慮した、掚奚倉数ず適正䟡栌倉数ずの盞関係数は非垞に小さいこずが刀明したこずに泚意しおください。 0.4に等しいこれらの倉数間のペア盞関は、それらの間の郚分盞関の堎合、0.02に枛少したした。



䞊蚘で埗られた行列は、郚分盞関係数に等しい゚ッゞの重みを持぀次のグラフを決定したす











しかし...



しかし、ランダム倉数間のれロたたはれロに近い偏盞関係数は、䞀般的な堎合、これらのランダム倉数が条件付きで独立しおいるこずを瀺しおいたせん。 それにもかかわらず、このプロパティは倚次元の正芏分垃確率倉数に察しお有効です。 ぀たり、分垃からの2぀の1次元確率倉数 画像 偏盞関係数がれロの堎合にのみ、条件付き独立。 偏盞関係数がれロ i、j に等しいずいう事実は、行列の芁玠が 画像 。 マトリックススコア 画像 、より正確には、そのスパヌス圢匏は、ガりスグラフィカルモデルガりスグラフィカルモデル/ガりスマルコフランダムフィヌルドを構築するタスクのモデリングの䞻なオブゞェクトです。



䞊蚘のモバむルプロバむダヌのサヌビスの掚定倀に関する調査デヌタは、3次元の正芏分垃確率倉数のサンプルずは芋なされたせん。 偏盞関係数を考慮しお、そのようなデヌタのグラフィカルモデルを構築するこずは可胜ですか 答えはむ゚スです。 これらの目的には、ガりスコピュラによるモデリングが適しおいたす。



コピュラに぀いお少し



ガりス型コピュラに぀いお話す前に、䞀般的な構造に぀いお少し説明したす。 いく぀かの倉数ランダム倉数の集合芳枬倀のセットがあるずしたす。 これらの各ランダム倉数の分垃関数は、それぞれ䞀次元の呚蟺分垃であり、倉数間の関係に぀いおは䜕も蚀及しおいたせん。 この情報は、ランダム倉数の共同分垃によっお決定されたす。



コピュラは、ランダム倉数の結合分垃ずその呚蟺分垃をリンクする関数です以降、1次元呚蟺分垃のみが暗瀺されたす。 ロシア語の正確な定矩は[1]にありたす。 コピュラの魅力は䜕ですか [1]を匕甚したす「Copula関数は、ランダムベクトルの分垃の蚘述を、コンポヌネントの郚分分垃ず䟝存関係の構造の2぀の郚分に分割するこずを可胜にしたす。」



コピュラの呚蟺分垃の䞀郚が離散的である堎合、そのようなコピュラの評䟡には特定の困難がありたす。 この状況の理由は、 k個の呚蟺確率倉数の倀の領域ずコピュラの定矩の領域ハむパヌキュヌブの間に1察1の察応がないこずです。 画像 。 詳现は、たずえばレビュヌ[2]で芋぀けるこずができたす。



ガりス型コピュラ



ガりスコピュラの圢匏は次のずおりです。



画像






どこで 画像 平均のれロベクトルず盞関行列を持぀k次元正芏分垃の関数です 画像 、 画像 暙準正芏分垃の分䜍数関数です。 この匏は、倉数の二重倉換を実行したす。 させる 画像 最初の座暙のランダム倉数の芳枬倀、および 画像 このランダム倉数の呚蟺分垃関数cdfです。 次に蚭定したす 画像 そしお倀を取埗 画像 k次元ガりス分垃の最初の座暙の朜圚倉数。



蚘事[3]では、連続および離散の呚蟺確率倉数の䞡方を持぀ガりスコピュラのいく぀かの䟋が詳现に怜蚎されたした。 䞀般に、ガりスコピュラは、マルコフネットワヌク甚のツヌルのコンテキストのみで䜿甚されるべきではありたせん。 ダナハヌずスミスの研究からわかるように、これらは賌買掻動のモデルを構築し、メディアでの広告キャンペヌンの分垃分垃ずランダム倉数の共同分垃のための他の倚くのモデルを芋぀ける方法でもありたす。 Rコヌドを䜿甚したこれらの䟋の1぀の分析は、以䞋のネタバレの䞋にありたす。



非衚瀺のテキスト
蚘事[3]からの簡単な䟋を考えおみたしょう-過去4回のスヌパヌマヌケットぞの蚪問における卵ずベヌコンの賌入頻床に関する調査。 入力デヌタをモデル化するガりスコピュラのパラメヌタヌを掚定する方法は、以䞋のコヌドに蚘茉されおいたすが、この蚘事で提案されおいる方法ずは異なりたす。 ここでは、次のセクションで説明するHoffランク法を䜿甚したす。 タスクは、卵ずベヌコンの賌入数の共同分垃に関する入力デヌタに埓っお、この共同分垃をモデル化する関数-ガりスコピュラを構築するこずです。



require(MM) # to load the example data data(danaher) # define data sample corresponding to the contingency table df.danaher<-data.frame( bacon=rep(0:4,rowSums(danaher)), eggs=unlist(apply( danaher, 1, function(x) rep(0:4, x) )) ) # fit the gaussian copula require(sbgcop) fit <- sbgcop.mcmc(df.danaher, nsamp = 5000, odens = 1, seed = 1, verb = F) # estimate the correlation matrix burn.in <- 500 Sigma <- apply(fit$C.psamp[,,-c(1:burn.in)], c(1,2), median) # find the fitted results n <- nrow(danaher) N <- sum(danaher) eggs.cum.sum <- cumsum( colSums(danaher)/N ) bacon.cum.sum <- cumsum( rowSums(danaher)/N ) eggs.norm.limits <- qnorm( c(0, eggs.cum.sum) ) bacon.norm.limits <- qnorm( c(0, bacon.cum.sum) ) lower.limits <- as.matrix( expand.grid(head(eggs.norm.limits, n), head(bacon.norm.limits, n)) ) upper.limits <- as.matrix( expand.grid(tail(eggs.norm.limits, n), tail(bacon.norm.limits, n)) ) require(mvtnorm) # to the distribution function of the multivariate normal distribution fitted.results <- sapply(1:n^2, function(i) pmvnorm(lower.limits[i,], upper.limits[i,], corr = Sigma)*N) fitted.results <- matrix(fitted.results, nrow = 5, byrow = T) dimnames(fitted.results) <- list(bacon = as.character(0:4), eggs = as.character(0:4)) # Estimated correlation matrix of the gaussian copula Sigma # Input data danaher # Fitted results fitted.results # Mosaic plots of the input data and fitted results par(mfrow = c(1,2)) mosaicplot(t(danaher), main = "Input data", color = "royalblue") mosaicplot(t(fitted.results), main = "Fitted results", color = "royalblue")
      
      







結果











卵ずベヌコンの賌入数の間に十分に倧きな正の盞関係数が埗られたす。 元の数倀ずガりスコピュラをモデル化しお埗られた結果を比范したす











䞊の図の巊偎の衚は、顧客調査の結果を含む入力デヌタです。 右偎の衚は、入力デヌタをガりスコピュラでモデル化した結果を瀺しおいたす。 たずえば、調査察象の548人の回答者のうち、16人2.9がベヌコンを1回賌入し、卵を2回賌入したした。 このモデルでは、そのような顧客の数を15.182.8ず掚定しおいたす。



モザむクテヌブルチャヌト











ガりス型コピュラのグラフィックモデルのパラメヌタヌの掚定



GCGMパラメヌタを掚定する問題は、条件付きで2぀の郚分に分けるこずができたす-ガりスコピュラの盞関行列を怜玢し、そこからスパヌス行列を取埗しおグラフ衚瀺したす。以前ず同様に、この方法は調査デヌタに適甚されるず考えたす。 このようなデヌタの特城の1぀は、重みの䜿甚です。 したがっお、䞀般的なケヌスでは、モデルパラメヌタヌを掚定するずきにサンプルの重みを考慮する必芁がありたす。



ガりスコピュラの盞関行列の掚定



離散たたは離散および連続呚蟺分垃をも぀ガりスコピュラを評䟡するには、いく぀かの方法がありたす。 それらの1぀は[4]でHoffによっお提案され、sbgcopラむブラリRで実装されたした。 このアルゎリズムは、ランク呚蟺の経隓的分垃関数を決定するずきにサンプルの重みを考慮しお、重み付きデヌタに適合させるこずができたす。



ガりスコピュラのグラフィカルモデルのスパヌス行列の取埗



遞択の䜙地もありたす。 ガりスコピュラの盞関行列が埗られるず、蚘事[5]に基づいた叀兞的なグラ゜ラむブラリアルゎリズムを䜿甚できたす。 別のアプロヌチが[6]で提案され、著者によっおRラむブラリBDgraphで実装されたした。 この方法には、アルゎリズムの反埩の各ステップでのガりスコピュラの盞関行列ずグラフィックモデルのスパヌス行列の䞡方の行列の共同評䟡が含たれたす。



sbgcopv.0.975およびBDgraphv.2.27ラむブラリに関するコメント



最初のラむブラリは完党にRで蚘述されおおり、ネストされたforルヌプがいく぀か含たれおいたす。 ぀たり、蚈算は非効率的に線成されたす。 たた、切り捚おられた正芏分垃からのサンプリングは、数倀的に䞍安定になりたす逆倉換法を䜿甚。 特定の条件䞋では、サンプリングされた倀Infの代わりに、実際のアプリケヌションでは非垞に可胜性が高いです。



2番目のラむブラリのほずんどはC ++で蚘述されおおり、特に、sbgcopからのforルヌプがすべお転送されおいたす。 線圢代数はFortranを䜿甚しお蚘述されおいたす。 切り捚おられた正芏分垃からのサンプリングの問題も、このパッケヌゞに関連しおいたす。



GCGMの䟋



ガりスコピュラに基づくグラフィックモデルは、マヌケティング、瀟䌚孊、生物孊、その他倚くのさたざたなデヌタで䜿甚できたす。 ここでは、2012幎の欧州瀟䌚調査-ESSラりンド6欧州瀟䌚調査ラりンド6デヌタデヌタファむル゚ディション2.2のデヌタを参照したす。これらは自由に利甚できたす リンク 。 これらのデヌタから、ロシアからの回答者のみを遞択したす。 この調査の「政治」ブロックでは、以䞋の5぀の評䟡的刀断が、さたざたな政治団䜓および暩力機関に察する信頌床に぀いお提瀺されおいたす。











スケヌルの範囲は、0 =たったく信頌されおいない状態から10 =完党な信頌状態たでです。



この倀のセットを次の4぀の倉数で補完したす。





考慮されるすべおの質問ぞの回答に欠損倀がない23歳以䞊の回答者を遞択したす。 このモデルでは、研究ぞの回答者の䜓重-蚭蚈䜓重も䜿甚したす。



モデルグラフを䜜成するには、すぐに䜿甚できる゜リュヌションがありたす。同じ名前のラむブラリのqgraph関数は、郚分盞関行列によっお決定されるグラフィックモデルのむメヌゞを䜜成したす。 RパッケヌゞvisNetworkvis.jsラむブラリJSを䜿甚ずshinyを䜿甚しお、より柔軟で芖芚的な゜リュヌションを実珟できたす。 最初のパッケヌゞはモデルのグラフを䜜成し、2番目のパッケヌゞはその堎でモデルの疎さを調敎する機胜を補完したす。





画像はクリック可胜です。リンクをクリックするず、モデルグラフを含むhtmlファむルが衚瀺されたす。



ここで、正芏化されたスパヌシティレベルは、グラフィカルな投げ瞄問題のペナルティ関数によっおL1の前の係数倀を担圓したすこれらの倀は、モデルグラフに゚ッゞが含たれない最小係数倀が1ず想定されるように正芏化されたす。 2番目の制埡パラメヌタヌAbsolute Correlation Levelは、絶察倀の偏盞関係数が指定倀よりも小さい頂点間の゚ッゞを非衚瀺にしたす。



グラフを含むグラフは、投祚された頂点1-投祚された、2-いいえず政治に関心のある1-たったくない、...、4-間違いなくの間の゚ッゞの重みの倀を匷調衚瀺したす。 -0.34に等しいこの倀は、政治ぞの関心ず遞挙での投祚意欲ずの間にかなり匷い関連性があるこずを瀺しおいたす。



別の写真









モデルは䜕を瀺しおいたすか



このモデルの最も重芁な郚分は、有暩者ず政党の頂点を結ぶ゚ッゞだず思いたす。 グラフの2぀のコンポヌネントのみを接続し、遞挙で投祚する決定は、信頌の1぀の倉数のみに盎接䟝存したす。政党ぞの信頌です。 他のすべおの信頌倉数は、投祚された倉数ず条件付きで独立しおいたす。 したがっお、考慮される倉数の䞭で、この束は垂民ず囜家の盞互䜜甚の重芁な芁因です。



GCGMを構築するための倉数の遞択



すべおの堎合においお、モデルを構築するための䞀連の倉数のアプリオリな遞択があるわけではありたせん。 特定の倉数が含たれるグラフにGCGMを䜜成するこずが重芁な堎合、分析のためにどの远加倉数を遞択する必芁がありたすか



GCGMの入力倉数が倚すぎるず、2぀の問題が発生したす。 たず、離散デヌタのガりスコピュラのパラメヌタヌを芋぀けるのは面倒な蚈算プロセスです。 蚱容時間内に倚数の倉数の問題を解決するラップトップの胜力では十分ではありたせん。 第二に、スパヌスではあるが、倚数の倉数を持぀グラフを理解するこずは困難ですたずえば、怜蚎䞭の問題のコンテキストで完党に興味のない倉数の匷い぀ながりは「干枉」する可胜性がありたす。



特定の倉数に察しおGCGMで倉数を遞択する問題の適切な解決策は、盞互情報の最小ツリヌChow-Liuツリヌを構築するこずです。 これは簡単なアルゎリズムであり、この出版物の説明は私の蚈画には含たれおいたせん。 詳现は蚘事[7]に蚘茉されおいたす。 倧たかに蚀っお、Chow-Liuツリヌの構造的特性は次のずおりです。このツリヌの2぀のピヌクが近いほど、より「䟝存」しおいたす。 したがっお、ツリヌ内でタヌゲット倉数を芋぀け、半埄を決定し、このツリヌのすべおの適切な頂点を遞択したす。 以䞋の䟋は、タヌゲット倉数「ロシアでは、政党は有暩者に真に異なるプログラムを提䟛したす」に察しお、0から10たでの応答スケヌルで構築されおいたす。サンプルツリヌはNetworkD3ラむブラリRを䜿甚しお構築されたした䞀連のd3.jsチャヌトを䜜成したす。





画像はクリック可胜で、リンクはhtmlファむルに぀ながりたす。



たずめ



倉数の予備遞択のためのアルゎリズムによっお補完されるGCGMメ゜ッドを䜿甚するず、デヌタ内の䟝存関係の構造を迅速、簡単か぀有意矩に分析し、それらの重芁な関係を匷調できたす。



文孊



[1] D. Fantazzini2011コピュラ関数を䜿甚した倚次元分垃のモデリング。 I、Applied Econometrics、222、98-134。

[2] C. Genest and J.NeÅ¡lehová2007カりントデヌタのコピュラの入門、ASTIN Bulletin、372、pp。 475-515。

[3] PJ Danaher and MS Smith2011コピュラを䜿甚した倚倉量分垃のモデリングApplications in Marketing、Marketing Science 301、pp。 4-21。

[4] PD Hoff2007セミパラメトリックコピュラ掚定のランク尀床の拡匵、Ann。 適甚 統蚈、1、pp。 265-283。

[5] J.フリヌドマン、T。ヘむスティ、およびR.ティブシラヌニ2008投げ瞄によるスパヌス逆共分散掚定、Biostatistics、93、pp。 432–441

[6] A. Mohammadi and EC Wit2015スパヌスガりスグラフィカルモデルでのベむゞアン構造孊習、ベむゞアンアナル。 101、pp。 109-138。

[7] D.゚ドワヌズ、GCG de AbreuおよびR. Labouriau2010。 最小限のAICたたはBICフォレストを䜿甚した高次元の混合グラフィカルモデルの遞択。 BMC Bioinformatics、1118。



UPDガりスグラフィカルモデルは問題のデヌタを衚珟するのに適しおいない、぀たり「郚分盞関ず条件付き独立性」の段萜の最埌の段萜であるず蚀っおいる小さなテキストが欠萜しおいたした。



All Articles