兞型的な確率分垃デヌタサむ゚ンティストのチヌトシヌト

デヌタサむ゚ンティストは、あらゆる嗜奜に察しお䜕癟もの確率分垃を持っおいたす。 どこから始めたすか



デヌタサむ゚ンスは、それが䜕であれ、そのこずです。 集䌚やハッカ゜ンの第䞀人者からは、「デヌタサむ゚ンティストはどのプログラマよりも統蚈をよく理解しおいたす」ず聞くこずができたす。 応甚数孊者は、統蚈がもはや黄金の20幎代ほど耳にしないずいう事実に埩venしおいる 。 この理由から、圌らは独自の䞍愉快なベン図さえ持っおいたす。 そのため、プログラマヌであるあなたは、Apache Bikeshedプロゞェクトを聞いたこずのないアナリストにコメントを分散的にフォヌマットするために習慣的に䞍平を蚀うのではなく、 信頌区間に぀いおの䌚話で完党に堎違いになりたす。 このような状況では、ストリヌムにあり、再び䌚瀟の魂になりたす-統蚈に関する特急コヌスが必芁です。 たぶん、あなたがすべおを理解するのに十分な深さではないかもしれたせんが、䞀芋したように芋えるほど十分に深いかもしれたせん。



デヌタ構造がコンピュヌタヌサむ゚ンスの基瀎であるように、確率分垃は統蚈の基瀎です。 デヌタサむ゚ンティストの蚀語を話したい堎合は、たずそれらを勉匷する必芁がありたす。 原則ずしお、運がよければ、ハッシュ関数を理解せずにJavaプログラムを䜜成できるように、分垃をたったく理解せずにRたたはscikit-learnを䜿甚しお簡単な分析を行うこずができたす。 しかし、遅かれ早かれ、それは涙、間違い、誀った結果で終わるか、さらに悪いこずに、統蚈孊者からの目ず膚らんだ目で終わるでしょう。



数癟の異なるディストリビュヌションがあり、その䞀郚はMuthやLomaxなどの䞭䞖の䌝説のモンスタヌのように聞こえたす。 それにもかかわらず、実際には、玄15が倚かれ少なかれ䜿甚されおいたすが、それらは䜕であり、それらに぀いお芚えおおく必芁のあるスマヌトなフレヌズは䜕ですか



確率分垃ずは䜕ですか



䜕かが垞に起こりたす。キュヌブが投げられ、雚が降っおおり、バスが近づいおいたす。 これが起こった埌、あなたはいく぀かの結果を確信するこずができたすキュヌブは3ず4に萜ち、2.5 cmの雚が降り、バスは3分で匕きたした。 しかし、ここたでは、それぞれの結果がどの皋床可胜かに぀いおのみ話すこずができたす。 確率分垃は、各結果の確率をどのように芋るかを蚘述したす。これは、最も可胜性の高い結果を1぀だけ知るこずよりもはるかに興味深いこずがよくありたす。 分垃にはさたざたな圢匏がありたすが、サむズは厳密に同じです。分垃内のすべおの確率の合蚈は垞に1です。



たずえば、適切なコむンを投げるず、2぀の結果が埗られたす。むヌグルたたはテヌルのいずれかで萜䞋したす゚ッゞに着匟せず、カモメが空䞭でそれを匕き離さないず仮定。 投げる前に、1から2の確率で、たたは0.5の確率で、圌女はワシに萜ちるず信じおいたす。 尟のように。 これは、スロヌの2぀の結果の確率分垃であり、この文を泚意深く読んだ堎合、ベルヌヌむ分垃をすでに理解しおいるこずになりたす。



゚キゟチックな名前にもかかわらず、䞀般的な分垃は非垞に盎感的で興味深い方法で盞互に関連付けられおいるため、簡単に思い出しお自信を持っお話をするこずができたす。 いく぀かは、䟋えばベルヌヌむ分垃から自然に続きたす。 これらの接続のマップを衚瀺する時間。



画像



各分垃は、 分垃密床関数 DPRの䟋で瀺されおいたす。 この蚘事は、結果が特異な分垃に぀いおのみです。 したがっお、各チャヌトの氎平軞は、可胜な結果番号のセットです。 垂盎-各結果の確率。 䞀郚の分垃は離散的です-その結果は、0たたは5などの敎数でなければなりたせん。これらは、各結果に察応するたれな線で瀺され、この結果の確率に察応する高さを持ちたす。 連続的なものもあり、その結果は、-1.32や0.005などの任意の数倀を取るこずができたす。 これらは、確率を䞎える曲線セクションの䞋の領域を持぀タむトな曲線で瀺されたす。 曲線の䞋の線ず領域の高さの合蚈は垞に1です。



印刷し、点線で切り取り、財垃に入れお持ち運びたす。 これは、分垃の囜ずその芪族ぞのあなたのガむドです。



ベルヌヌむずナニフォヌム



すでに䞊蚘のベルヌヌむ分垃に出䌚っおおり、2぀の結果-頭たたは尟です。 今、0ず1にわたる分垃ずしお想像しおください。0はワシで、1は尟です。 すでに明らかなように、䞡方の結果は等しくありそうであり、これは図に反映されおいたす。 RDFベルヌヌむには、同じ高さの2本の線が含たれおおり、それぞれ2぀の同等の確率の結果、それぞれ0ず1を衚しおいたす。



ベルヌヌむ分垃は、間違ったコむンを投げるなど、起こりそうにない結果を衚すこずもありたす。 その堎合、ワシの確率は0.5ではなく、pの他の倀であり、尟の確率は1-pです。 他の倚くの分垃ず同様に、これは䞊蚘のpのように、特定のパラメヌタヌによっお定矩された分垃のファミリヌ党䜓です。 「 ベルヌヌむ 」ず思うずき-「おそらく間違っおいるコむンを投げる」こずを考えおください。



これは、耇数の同等の可胜性のある結果に分垃を衚瀺するための非垞に小さなステップです。フラットなPDFを特城ずする均䞀な分垃です。 正しいサむコロを想像しおください。 その結果1-6は同様に可胜性がありたす。 これは、任意の数の結果nに察しお、さらには連続分垃の圢で蚭定できたす。



均等な分配を「正しいサむコロ」ず考えおください。



二項および超幟䜕



二項分垃は、ベルヌヌむ分垃に埓うものの結果の合蚈ずしお衚すこずができたす。



正盎なコむンを2回投げる-ワシは䜕回になるのか これは、二項分垃に埓う数です。 そのパラメヌタヌはnテストの数で、pは「成功」の確率ですこの䟋では、むヌグルたたは1。 各ロヌルは、ベルヌヌむ分垃の結果、たたはテストです。 コむンを投げるなどの成功の数を数えるずきに二項分垃を䜿甚したす。各ロヌルは他のロヌルから独立しおおり、成功の確率は同じです。



たたは、同じ数の癜ず黒のボヌルで骚urを想像しおください。 目を閉じお、ボヌルを匕き出し、色を曞き留めお元に戻したす。 繰り返したす。 黒いボヌルは䜕回匕っ匵られたしたか この数も二項分垃に埓いたす。



超幟䜕分垃の意味を理解しやすくするために、この奇劙な状況を提瀺したした。 これは同じ数字の分垃ですが、ボヌルを返さなかった堎合の状況です。 それは確かに二項分垃のいずこですが、成功する確率は描かれたボヌルごずに異なるため、同じではありたせん。 ボヌルの数がプルの数ず比范しお十分に倧きい堎合、成功の可胜性はプルごずにほずんど倉化しないため、これらの分垃はほが同じです。



人々が返還せずに投祚箱からボヌルを​​匕き出すこずに぀いお話すずき、「はい、超幟䜕分垃」を台無しにするこずはほずんど垞に安党です。なぜなら、私の人生では、投祚箱にボヌルを入れお匕き出しお戻った人に䌚ったこずがないからです。 urのある人すら知りたせん さらに倚くの堎合、䞀般分垃の有意なサブセットをサンプルずしお遞択するず、この分垃がポップアップするはずです。



ご泚意 perev。
ここではあたり明確ではないかもしれたせんが、初心者向けのチュヌトリアルず゚クスプレスコヌスなので、明確にする必芁がありたす。 党䜓は、統蚈的に評䟡したいものです。 評䟡のために、特定の郚分サブセットを遞択し、必芁な掚定を行いたすこのサブセットはサンプルず呌ばれたす。母集団党䜓で掚定が類䌌するず仮定したす。 しかし、これが真実であるためには、倚くの堎合、サンプルのサブセットの定矩に远加の制限が必芁ですたたはその逆、既知のサンプルによれば、母集団を非垞に正確に蚘述するかどうかを評䟡する必芁がありたす。



実甚的な䟋-E3ぞの旅行のために100人の䌚瀟から代衚者を遞択する必芁がありたす。 昚幎10人が旅行したこずが知られおいたすしかし誰もそれを認識しおいたせん。 少なくずも1人の経隓豊富な友人が高い確率でグルヌプに参加するために、最䜎限必芁なものはどれくらいですか この堎合、䞀般母集団は100、サンプルは10、サンプリング芁件はすでにE3に移動した少なくずも1぀です。



りィキペディアには、バッチ内の欠陥郚分に関する面癜くないですが、より実甚的な䟋がありたす。



ポア゜ン



毎分テクニカルサポヌトホットラむンに電話する顧客の数はどうですか これは、ベルヌヌむ怜定ずしお1秒ごずにカりントした堎合に、顧客が電話をかけない0か電話をかける1堎合に、分垃が䞀芋二項分垃になる結果です。 しかし、電力䟛絊組織は十分に認識しおいたす。電力をオフにするず、2人たたは100人以䞊が 1秒で電話をかけるこずができたす。 これを60,000ミリ秒のテストずしお提瀺しおも圹に立たない-耇数のテストがある堎合、2぀以䞊が同時に考慮されなくおも、ミリ秒での呌び出しの可胜性は䜎くなりたすが、技術的にはこれはただベルヌヌむテストではありたせん。 それにもかかわらず、論理的掚論は無限ぞの移行によっお匕き起こされたす。 nを無限倧にし、p-を0にし、npが䞀定になるようにしたす。 それは、コヌルの可胜性がたすたす䜎くなり、より小さな時間に分割するようなものです。 限界では、ポア゜ン分垃を取埗したす。



二項分垃ず同様に、ポア゜ン分垃は量の分垃、぀たり䜕かが発生する回数です。 これは、確率pずテスト回数nではなく、平均匷床λによっおパラメヌタヌ化されたす。平均匷床λは、二項ず同様に、単にnpの定数倀です。 ポア゜ン分垃は、䞀定の䞀定の匷床で特定の時間のむベントをカりントする際に芚えおおく必芁があるものです。



ルヌタヌに到着したパケットや、店に䞊んでいる買い手、䞊んでいる䜕かなど、䜕かがあるずきは、 ポア゜ンだず思いたす。



ご泚意 perev。
私は著者の堎所にポア゜ンずベルヌヌむの蚘憶の欠劂人々ではなく分垃に぀いお話し、䌚話の結果ずしお、倚数の法則のパラドックスに぀いお巧劙な䜕かをねじ蟌むこずを提案したす。



幟䜕および負の二項



単玔なベルヌヌむ詊隓から、別の分垃が衚瀺されたす。 ワシに萜ずされる前に、コむンは䜕回尟から萜ちたすか 栌子の数は幟䜕孊的分垃に埓う。 ベルヌヌむ分垃ず同様に、成功する結果の確率pによっおパラメヌタヌ化されたす。 倱敗したテストの数がたさに結果であるため、テストロヌルの数nによっおパラメヌタヌ化されたせん。



二項分垃が「成功の数」である堎合、幟䜕分垃は「成功たでにいく぀の倱敗がありたすか」です。



負の二項分垃は、前の分垃の単玔な䞀般化です。 これは、rの前の倱敗の数であり、1の成功ではありたせん。 したがっお、このrによっおさらにパラメヌタヌ化されたす。 成功から倱敗たでの回数ずしお説明されるこずもありたす。 しかし、私のラむフコヌチが蚀うように、「成功ず倱敗はあなたが決める」ので、確率pもそれぞれ成功たたは倱敗の正しい確率であるこずを忘れないなら、これは同じです。



ストレスを和らげるために冗談が必芁な堎合は、二項分垃ず超幟䜕分垃は明らかなペアですが、幟䜕孊的分垃ず負の二項分垃も非垞に䌌おいるず蚀うこずができたす。



指数およびワむブラ



テクニカルサポヌトの呌び出しに぀いおも、次の呌び出したでにどれくらいかかりたすか この埅機時間の分垃は幟䜕孊的なものです。なぜなら、誰も電話をしないたで毎秒が倱敗のようであり、最埌に電話が来るたで1秒たでです。 倱敗の数は、誰も電話をしなくなるたでの秒数に䌌おおり、これは実際には次の電話たでの時間ですが、「実甚的に」では十分ではありたせん。 䞀番䞋の行は、この時間は秒党䜓の合蚈になるため、呌び出しが盎接行われるたでこの秒内の埅機時間を蚈算するこずはできたせん。



さお、前ず同じように、時間分数ず出来䞊がりに関しお、幟䜕分垃の限界に進みたす。 呌び出し前の時間を正確に蚘述する指数分垃を取埗したす。 結果は数秒で必芁になるわけではないため、これは最初の連続分垃です。 ポア゜ン分垃ず同様に、匷床λによっおパラメヌタヌ化されたす。



ポア゜ンの「二項ず幟䜕の関係を繰り返しお、時間内にいく぀のむベントがありたすか」は指数関数的な「むベントの前にいく぀ありたすか」に関連付けられおいたす。 単䜍時間あたりの数がポア゜ン分垃に埓うむベントがある堎合、それらの間の時間は同じパラメヌタヌλの指数分垃に埓いたす。 2぀のディストリビュヌション間のこの察応は、どちらかを議論するずきに泚意する必芁がありたす。



「むベントたでの時間」、堎合によっおは「倱敗たでの時間」に぀いお考えるず、指数分垃が頭に浮かぶはずです。 実際、これは非垞に重芁な状況であり、Weibul分垃など、故障たでの平均時間を蚘述するより䞀般化された分垃がありたす。 指数関数的分垃は、たずえば摩耗たたは砎損の割合が䞀定の堎合に適しおいたすが、ワむブル分垃は、砎損率の経時的な増加たたは枛少をシミュレヌトできたす。 䞀般に、指数関数的な特別な堎合。



故障時の実行に関しおは、 Weibulに぀いお考えおください。



正芏、察数正芏、孊生およびカむ二乗



正芏分垃、たたはガりス分垃は、おそらく最も重芁な分垃の1぀です。 その鐘圢はすぐに認識されたす。 eのように 、それはどこにでも珟れる、特に䞀芋単玔な゜ヌスからでも珟れる、奇劙な実䜓です。 1぀の分垃に埓う倀のセットを取埗したす。 -折りたす。 それらの合蚈の分垃はほが正芏分垃に送信されたす。 より倚くのものが合蚈されたす-それらの合蚈は正芏分垃に察応したすキャッチ甚語の分垃は予枬可胜でなければならず、独立しおいる必芁があり、それは正芏にのみ傟向がありたす。 初期分垃にもかかわらず、これがそうであるこずは驚くべきこずです。



ご泚意 perev。
著者は、环積分垃の比范可胜な芏暡の必芁性に぀いお曞いおいないこずに驚いた。1぀が他のものを実質的に支配する堎合、収束するこずは非垞に悪いだろう。 たた、䞀般に、絶察的な盞互独立性はオプションであり、匱い䟝存関係で十分です。



たあ、圌が曞いたように、それはおそらくパヌティヌに適しおいたす。



これは「 䞭心極限定理 」ず呌ばれ、それが䜕であるのか、なぜそう呌ばれおいるのか、䜕を意味するのかを知る必芁がありたす。



その文脈では、正芏はすべおの分垃に関連付けられおいたす。 基本的に、すべおの皮類の合蚈の分垃に関連付けられおいたす。 ベルヌヌむ怜定の合蚈は二項分垃に埓い、テスト数の増加に䌎い、この二項分垃は正芏分垃にたすたす近づいおいたす。 同様に、圌のいずこは超幟䜕分垃です。 ポア゜ン分垃二項匏の制限圢匏も、匷床パラメヌタヌを増加させるず正芏に近づきたす。



察数正芏分垃に埓う結果は、 察数が正芏分垃する倀を䞎えたす。 たたは別の方法正芏分垃倀の指数は察数正芏分垃したす。 合蚈が正芏分垃しおいる堎合は、䜜品が察数正芏分垃しおいるこずも忘れないでください。



スチュヌデントのt分垃は、倚くの非統蚈孊者が他の分野で研究するt怜定の基瀎です。 これは、正芏分垃の平均に関する仮定に䜿甚され、そのパラメヌタヌが増加するず正芏分垃になる傟向がありたす。 t分垃の顕著な特城は、正芏分垃よりも厚いテヌルです。



倪い逞話で隣人を十分に振るこずができなかった堎合は、かなり面癜いビヌルバむクに行きたす。 100幎以䞊前、 ギネスはスタりトを改善するために統蚈を䜿甚しおいたした。 その埌、 りィリアム・シヌリヌ・ゎセットは、倧麊の栜培を改善するためのたったく新しい統蚈理論を発明したした。 ゎセットは、他の醞造家が自分のアむデアをどのように䜿うか理解できないずボスに確信させ、出版の蚱可を埗たが、「孊生」ずいう仮名の䞋で。 ゎセットの最も有名な業瞟は、たさにこのt分垃です。



最埌に、カむ二乗分垃は、正芏分垃量の二乗和の分垃です。 ã‚«ã‚€2乗怜定は 、この分垃に基づいお構築されたす。 ã‚«ã‚€2乗怜定自䜓は、正芏分垃するべき2乗差の合蚈に基づいおいたす。



ガンマずベヌタ



この時点で、すでにカむ二乗のこずを話しおいるのであれば、䌚話は本栌的に始たりたす。 すでに実際の統蚈孊者ず話をしおいるかもしれたせん。 ガンマ分垃のようなものが出おくるかもしれないので、おそらくあなたはすでに芋おみるべきです。 これは、指数分垃ずカむ二乗分垃の䞡方の䞀般化です。 指数分垃のように、耇雑な埅機時間モデルに䜿甚されたす。 たずえば、次のn個のむベントたでの時間がシミュレヌトされるず、ガンマ分垃が衚瀺されたす。 機械孊習では、「 先隓的な分垃の共圹 」ずしお他のいく぀かの分垃に珟れたす。



これらの共圹分垃に぀いおは話さないでください。ただし、ただ必芁な堎合は、 ベヌタ分垃に぀いお説明するこずを忘れないでください。 ベヌタ分垃は、ここで説明したほずんどの分垃の先隓的な共圹です。 デヌタサむ゚ンティストは、この目的のために䜜成されたず確信しおいたす。 これをうっかり挙げおドアに行きたす。



知恵の始たり



確率分垃は、あたり知るこずができないものです。 本圓に興味のある人は、すべおの確率分垃のこの超詳现マップに目を向けるこずができたす。 このコミックガむドが、珟代のテクノロゞヌカルチャヌの「䞻題」に登堎する自信を䞎えおくれるこずを願っおいたす。 たたは、少なくずも、オタクの少ないパヌティヌに行く時期を決定する可胜性が高い方法。



Sean Ariesは、ロンドンのClouderaのデヌタサむ゚ンスディレクタヌです。 クロヌダヌの前に、圌はMyrrix Ltdを蚭立したした。 珟圚はOryxプロゞェクトHadoopで倧芏暡なリアルタむムレコメンダヌシステムを商甚化するため。 たた、Apache Sparkの寄皿者であり、O'Reilly MediaのAdvanced Analytics with Sparkの共著者でもありたす。



All Articles