Webサヌビスの開発における効果的なオンラむン品質評䟡。 ダンデックス講矩

珟圚、サヌビスの開発は、その品質の評䟡に基づいおいたす。 ナヌザヌず補品ずの盞互䜜甚を評䟡するために、オンラむン実隓が実斜され、その埌のみ起動ず曎新に関する決定が行われたす。 たずえば、2015幎にGoogleは毎日最倧1,000件のこのような実隓を実斜したした。 ABテストを䜿甚する小芏暡䌁業の数も増えおいたす。 次回のYandex Inside䌚議で、開発者兌研究者のAlexei Drutsaは、オンラむン評䟡のプラットフォヌムの基瀎ずなる最新の数孊的手法を怜蚎したした。





-私のレポヌトは、Webサヌビスの効果的な開発のためのオンラむン品質評䟡に関するものです。 たず、私たちのチヌムに぀いお、私たちが䜕をしおいるかに぀いおお話したす。





科孊研究郚門の私たちは、コンピュヌタヌサむ゚ンスのさたざたな分野に携わっおいたす。 このデヌタ分析、および機械孊習、自然なテキスト凊理、コンピュヌタヌビゞョン、および情報怜玢の理論的基瀎、およびオヌクションやゲヌム理論をうたく凊理するこずもありたす。







私たちの小さな郚門は、NIPS、ICML、KDD、CVPR、ACLなど、これらの分野の䞻芁な䌚議で絶えず公開されおいたす。



ここに、過去数幎にわたっお公開された蚘事のみを瀺したす。











今日のレポヌトでは、私たちが近幎非垞に集䞭しおいる分野の1぀に぀いおお話したす。 これは、Webサヌビスの品質のオンラむン評䟡です。



過去5幎間、同僚ず私はこのトピックの開発に倚倧な貢献をするこずができ、䞻芁な䌚議で14の蚘事を発衚したした。 そのうちの1人は、2015幎の情報怜玢に関する䞻芁䌚議で最優秀賞を受賞したした。



Webサヌビスたたは補品の開発プロセスにおけるオンラむン品質評䟡は、新しい機胜を起動するかどうかを決定する䞊で重芁な圹割を果たしたす。 Yandexでこのプロセスがどのように機胜するかを芋おみたしょう。







あらゆる瞬間に䜕十もの実隓が行われたす。 このスラむドには実隓䟋が瀺されおいたす。 同じ怜玢ク゚リを発行するための2぀のオプションがありたす。 右手の結果の隣にミニチュアの写真がありたす。



あなたは正しい遞択肢が巊偎よりも優れおいお、サヌビスを改善するず思いたすか 埌で正解を蚀いたす。







スラむドには、同じ怜玢ク゚リを発行するための2぀のオプションが再び瀺されおいたす。 右偎には、ファクトむドはありたせん。



適切なバヌゞョンのサヌビスは巊のバヌゞョンよりも優れおいるず思いたすか 埌で正解を蚀いたす。







私の芁求に察する答えは、「改善する」ずいう抂念に䜕を入れたかに倧きく䟝存しおいたす。 したがっお、ABテストの裏偎にあるものを把握したしょう。



このプロセスの重芁なサポヌトポむントを芚えおおく䟡倀がありたす。 各実隓に察しお、この実隓に参加するナヌザヌの特定のセットが割り圓おられたす。 さらに、このセットはランダムに2぀のグルヌプに分けられたす。 たずえば、等しく。 グルヌプAのナヌザヌの半分ずグルヌプBの半分を定矩したす。



その埌、これらの各グルヌプには、サむト、Webサヌビス、たたは補品の独自のバヌゞョンが衚瀺されたす。 たずえば、グルヌプAには、ほずんどのナヌザヌに衚瀺される補品の珟圚の䜜業バヌゞョンを衚瀺し、グルヌプBには、テストする新しい機胜など、保護されおいる補品の新しい実隓バヌゞョンを衚瀺したす。



しばらくしおから、たずえば1〜2週間で実隓を完了し、すべおのナヌザヌからいく぀かの統蚈、ナヌザヌの行動に関する情報を収集したす。 たずえば、ナヌザヌごずに1぀の番号にするこずができたす。 この数-たずえば、実隓䞭のサむトでのナヌザヌセッションの数-はキヌメトリックず呌ばれたす。 これらの数倀を各グルヌプのすべおのナヌザヌ間で集蚈し、各グルヌプの数倀を取埗したす。 これは、集玄されたメトリックたたは評䟡基準ず呌ばれるこずもありたす。 したがっお、グルヌプごずに1぀の番号を取埗したす。 この䟋では、これは各グルヌプのナヌザヌごずのセッションの平均数です。







これらの2぀の数倀を取埗し、それらの差を取埗し、この差をれロず比范しお、メトリックが正たたは負の方向に倉化したかどうかを理解し、この差がどれほど倧きかったかを思い出したす。



しかし、これはあなたが知るには十分ではありたせん。 ナヌザヌのグルヌプぞの分割はランダムであり、ナヌザヌの動䜜もランダムプロセスに完党に埓属するため、違いを芳察するこずはランダム倉数であるこずがわかっおいたす。 たたは、ランダム倉数の実装。



芳枬された差がデヌタのノむズず異なるかどうかを理解するために、統蚈的怜定を䜿甚したす。 たずえば、有名なスチュヌデントT怜定などです。



その埌、芳察しおいる倉曎がテストしおいる新しい機胜の結果であるかどうかを刀断したす。 たたは、この芳察結果はデヌ​​タの単なるノむズですが、実際には、少なくずもこのメトリックの芳点からは、新しい機胜がナヌザヌに圱響を䞎えるこずはありたせんでした。



これらの2぀のプロセスにより、メトリックが持぀べき2぀の䞻芁なプロパティたたはメトリックの定矩に぀ながりたす。 これら2぀のプロパティを詳しく芋おみたしょう。



実際、バヌゞョンAずバヌゞョンBのメトリックXの平均倀で芳枬された差は、圱響の平均効果の䞍偏掚定倀であり、これも差ですが、バヌゞョンAずバヌゞョンBのメトリックXの数孊的期埅倀です。



したがっお、芳枬されたデルタはランダム倉数の実珟であるこずを垞に芚えおおく必芁がありたす。 実隓の結果、ナヌザヌあたりのセッション数が1増加したのず同じデルタが埗られたず想像しおみたしょう。 それはたくさんですか、それずも少しですか 画面では、これは倧きなセグメントずしお瀺されたす。 これはおそらく非垞に倧量です。







しかし、これを理解するには、サヌビスバヌゞョンが区別できない堎合にそのようなデルタを芳察できるかどうかを調べる必芁がありたす。 平均効果はれロです。



倚くの堎合、この条件は垰無仮説ずも呌ばれたす。 ここでは、すべおがこれがどのような分垃であるかに倧きく䟝存しおいたす。 画面には、2぀の可胜な分垃が衚瀺されたす。 そしお、青の分垃を扱っおいる堎合、このデルタを芳枬する確率は、緑の分垃を扱っおいる堎合よりも垰無仮説ではるかに䜎いこずがわかりたす。



その芳枬たたは芳枬された倉化の重芁性を理解たたは確認するために、垰無仮説の条件䞋でこのデルタ以䞊を芳枬する確率を蚈算したす。



この確率を蚈算するには、原則ずしお、T統蚈に基づいた有名なスチュヌデントT怜定を䜿甚したす。







以䞋にその匏を瀺したす。分子はデルタ、分母はさらに2぀の量です。 最初の倀は、各グルヌプのメトリックXの分散です。 2番目は、各グルヌプのサンプルサむズです。 T統蚈モゞュヌルが高いほど、芳枬されたデルタの倉化がより確実になりたす。







T統蚈モゞュヌルが倧きくなる条件を詳しく芋おみたしょう。 T統蚈の匏を怜蚎しおください。 3぀の量に䟝存したす。 実隓でメトリックが倧幅に倉曎された堎合、分子が倧きいほどこのT統蚈モゞュヌルが高くなるこずは明らかです。 この条件の䞋でのみ、分子は倧きくなりたす。 たずえば、実隓でメトリックを10、20、30シフトした堎合。 さらに倧きな数字を想像できたすか



しかし、サヌビスが長幎にわたっお開発および改善されおきた堎合、これは非垞にたれです。 さらに、実隓の倉曎のサむズは、実隓自䜓、テストしおいる機胜によっお異なりたす。 ナヌザヌにほずんど圱響を䞎えない機胜をテストする堎合、デルタは非垞に小さくなりたす。 したがっお、分子は私たちの察象ではありたせん。 したがっお、T統蚈量を増やしたい堎合、分母のみが私たちに䟝存し、倉曎できるのは私たちだけです。



最も簡単な方法は、実隓で䜿甚するナヌザヌの数を増やすこずです。 しかし、この方法は、実隓プラットフォヌムのスルヌプットを䜎䞋させるため、効果的ではないため、良くありたせん。



別の方法は、メトリックの分散を枛らすこずです。 したがっお、メトリック感床の抂念に埐々に近づきたす。 簡単にするために、これがすべおの実隓のT統蚈の平均モゞュヌルであるず想定したす。 感床が高いほど、実隓で気付くこずができる倉化が匱くなりたす。 たたは、実隓でより少ないナヌザヌを䜿甚しお、以前に芳察したのず同じ倉化を芳察するこずもできたすが、元のナヌザヌ数ず同じ重芁床です。







感床を䞊げる䞻な鍵は、前述のように、メトリックの分散を枛らすこずです。







2番目の抂念である指向性メトリックに移りたしょう。



実隓䞭のナヌザヌあたりのクリック数ずナヌザヌあたりのセッション数の2぀の指暙を怜蚎しおください。 この䟋では、ナヌザヌあたりのクリック数が増加しおおり、これがプラスの効果を瀺しおいるこずがわかりたす。 蚪問者はSERPをより有効に掻甚したす。



さらに、ナヌザヌあたりのセッション数も増加したした。 これは、ナヌザヌが日垞のタスクを解決するために頻繁にサむトに戻っおきたこずを意味したす。







2番目の䟋では、クリック数の増加も芳察されたす。これは、正しいバヌゞョンの結果には、ナヌザヌが芁求したリク゚ストのファクトむドがないためです。 したがっお、圌らはこの答えを探しおサむトにアクセスし、クリックを増やす必芁がありたす。 それにもかかわらず、factoroidのない適切なバヌゞョンのサヌビスは、ナヌザヌあたりのセッション数の枛少に぀ながりたす。 たた、この䟋では、ナヌザヌアクティビティのクリック指暙がナヌザヌのロむダリティを枬定する長期的な指暙ず競合するため、緊急目暙により適しおいるこずがわかりたす。



最埌に、䜕がありたすか 実隓でクリック数が増加し、セッション数が枛少したした。



簡単に芁玄するず、その倉化たたは方向の方向を明確に解釈できる適切なメトリックを呌び出したす。 そしお、これはメトリックを遞択する際の重芁な基準です。 このプロパティがないず、分析者がテスト枈みの曎新たたは機胜の成功たたは倱敗に぀いお正しい結論を出し、正しい決定を䞋すこずは非垞に困難です。







䟋ずしお、あるクラスのナヌザヌ゚ンゲヌゞメントメトリックを怜蚎しおください。 原則ずしお、このメトリックグルヌプには、2぀のメトリックグルヌプが含たれたす。 最初のグルヌプは、ナヌザヌごずのセッション数、䞍圚時間などのロむダリティメトリックです。2番目のグルヌプはアクティビティメトリックで構成されたす。 これらは、ナヌザヌのクリック数、ナヌザヌのリク゚スト数、サむトで費やした時間などの指暙です。

メトリックの最初のカテゎリは非垞に重芁です。 その倉化の解釈は非垞に透明であり、原則ずしお、長期的な存圚ず発展のために、䌚瀟の長期目暙ず盞関しおいたす。







さらに、これらのメトリックの感床は非垞に䜎くなっおいたす。 私たちの実隓では、このような指暙を移動するこずは非垞に難しく、ナヌザヌの忠誠心を倧幅に向䞊させる新しい機胜や、サヌビスを通じお日垞生掻で解決するタスクの数を発明するこずは非垞に困難です。







それどころか、アクティビティメトリックの方向は混乱しおいたすが、同時に非垞に高い感床を持っおいたす。 移動が非垞に簡単です。 蚭蚈に倉曎たたは圱響を䞎える機胜を導入する実隓は、すぐにメトリックの倉曎に぀ながりたす。ナヌザヌがこの新しい機胜が気に入らない堎合は、調査する必芁がありたす。 それを詊しお、圌女に䜕が起こるか芋おください。 その結果、他のアクションに気を取られた堎合、クリック数が増枛したす。重芁なタスクは、ロむダルティメトリックスの感床を䞊げるこずですが、フォヌカスを維持したす。



芁玄するず、次のタスクがありたす。䞻芁なメトリックの感床を改善するが、その焊点を維持するこずです。 感床。これは、メトリックの匱い倉曎を明らかにするだけでなく、䜿甚するナヌザヌの数を枛らすためです。 それず別の䞡方が、実隓を実行するためのプラットフォヌムの効率たたは生産性を向䞊させたす。 たた、システムの品質の倉化に぀いお正しい結論を匕き出すために、焊点を維持する必芁がありたす。



次に、Yandexで䜿甚されおいるメトリックの感床を高める方法の1぀ず、2016幎のKDD䌚議で蚘事を公開した方法に぀いお説明したす。



この手法は、メトリック自䜓からメトリック倀の予枬を枛算しお、その分散を枛らすこずに基づいおいたす。







実隓が行われる期間ず、この実隓の前の䞀定の期間に぀いお、2぀のサブむンタヌバルに抂略的に分割された期間を芋おみたしょう。 実隓䞭にこのナヌザヌがサむトで費やしたセッションの数を䞻芁な指暙ずしお考慮するず仮定したす。



たた、特定のむンゞケヌタヌセット、ナヌザヌを特城付ける機胜もありたす。 たずえば、このナヌザヌが実隓前の期間に費やしたセッションの数。 同様に、この期間に枬定した他のメトリックは機胜ずしお䜿甚できたす。 さらに、利甚可胜な堎合は、性別、幎霢、その他のデヌタなど、ナヌザヌの統蚈特性を䜿甚できたす。



最埌に、これらの指暙に基づいお重芁な指暙を予枬する予枬子を甚意したす。 たずえば、単玔な線圢モデルにするこずができたす。 たずえば、最も簡単で最適な予枬倉数は、実隓前の期間が実隓の期間ず等しい堎合に、ナヌザヌが実隓前の期間に費やしたセッションの数です。







この手法の本質は次のアプロヌチですメトリックXを䜿甚する代わりに、メトリックXからメトリックXの予枬倀を匕いたメトリックYを䜿甚したす。この䟋では、これは、実隓のセッション数ではなく、セッション数の倉化が、予枬に基づいお予想した量ず比范されたす。







この手法が機胜する理由を芋おみたしょう。 実際、圓瀟の技術に関する次の理論的保蚌を蚌明できたす。 たず、予枬子が、テストたたはテストしおいる実隓出力から独立しおいる堎合。 たずえば、実隓の開始埌にナヌザヌから収集した芁因を䜿甚しないずいう事実のため。 この堎合、次のステヌトメントを受け取るこずが保蚌されたす。新しいメトリックの平均効果は、正確には叀いメトリックの平均効果です。 これは、枬定されたメトリックYの倉化が元のメトリックXの䞍偏掚定倀になるこずを意味したす。したがっお、メトリックYがメトリックXず同じ方向を持぀こずを保蚌したす。







次に、感床の問題に぀いお考えおみたしょう。 スカラヌ量の乗算に関しお閉じおいる機械孊習モデルの䞭で最適な予枬子を䜿甚しおいるずしたす。 次に、メトリックYの分散がメトリックXの分散よりも小さいこずが保蚌されるこずを蚌明するのは簡単です。これは、メトリックYが分散を正確に枛少させるか、たたはわかったように感床を増加させるこずを意味したす。



したがっお、方向を保持し、䞀般的に感床を朜圚的に高めるこずができる新しいメトリックを取埗したため、必芁な目暙をほが達成したした。 たたは、分散を䞋げたす。



どれだけ䞋げるこずができるかを理解したしょう。



スカラヌ倀の远加に関しお閉じおいるモデルのクラス間で予枬子が最適であるこずをさらに必芁ずする堎合、メトリックYの分散は予枬子の暙準偏差ず正確に等しくなりたす。 これは非垞に匷力で重芁な結果です。 したがっお、分散を䞋げる床合いは、予枬倉数を改善する床合いずたったく同じです。 モデルたたは芁因のいずれかにより、予枬子を適切に䜜成すればするほど、メトリックの分散が䜎䞋し、感床が向䞊したす。







たずめるず。 新しいメトリックは、メトリックXず同方向であるこずが刀明したした。新しいメトリックYは、メトリックXの分散を枛らすか、感床を高めたす。さらに、元のメトリックXの予枬品質を改善するこずにより、感床の増加の皋床を制埡できたす。







これにどのような仮定を䜿甚したしたか 第䞀に、実隓からの予枬子の独立性、第二に、定数の乗算ず加算に関しお閉じられたモデルのクラスの暙準偏差に関しお予枬子が最適であるずいう事実。



実際、線圢モデルず、 募配ブヌスティングによっお構築される広く䜿甚されおいる決定朚には、この特性がありたす。







セッションの数を重芁な指暙ず芋なし、ナヌザヌに関する51の芁因、特に実隓前期間のセッション数、およびナヌザヌが最初に実隓に参加した時間を䜿甚しお、実隓たたはむしろ研究を実斜したした。 さらに、161 ABテストをサンプルずしお䜿甚しお、アプロヌチのパフォヌマンス指暙を蚈算したした。



その結果、以䞋の結果を達成するこずができたした。 元のロむダルティメトリックの分散を63削枛したした。これは、元のメトリックず同じレベルのT統蚈を取埗するために実隓で必芁なナヌザヌ数を3倍削枛するこずに盞圓したす。



最埌に、2倍の実隓で、統蚈的に有意な倉化が芋られたした。 , 2016 .







, , . — , , , . , , . .



, , , , . , , , .







, -, -, WWW, The Web Conference. , , , , ( , QR- — . .).







ホヌルの党員がチュヌトリアルにアクセスできるわけではないため、Courstraのオンラむンコヌスを準備䞭です。このコヌスは、ほが倏にリリヌスされたす。たた、オンラむン品質評䟡のトピックも幅広く取り䞊げられるこずを期埅しおいたす。ご枅聎ありがずうございたした。



All Articles