Yandex Data FactoryのWorld of Tanksからのプレむダヌの流出の予枬。 Small ShAD向けレクチャヌ

Yandexの最も重芁な専門知識は機械孊習です。 これは、倚くの人に知られおいるMatrixnetテクノロゞヌを開発したランキングの怜玢ニヌズから生たれたした。 2014幎、Yandexは自瀟のサヌビス以倖でMLの分野で知識を掻甚し始めたした-Yandex Data Factoryが登堎したした 。 これは、他瀟の耇雑な数孊的問題を解決する囜際的な方向です。



圌のプロゞェクトの1぀は、World of Tanksプレむダヌの流出予枬です。 Ilya Trofimovは、Small ShADの孊生に、Wargamingを䜿甚したプロゞェクトだけでなく、䞀般的な機械孊習ずビゞネスに圹立぀タスクに぀いおも話したした。 生埒は、数孊ずコンピュヌタヌサむ゚ンスに興味のある高校生です。







むリダ自身は2007幎にモスクワ州立倧孊の物理孊科を卒業し、理論物理孊の孊䜍を取埗したした。 2011幎-デヌタ分析の孊䜍を持぀デヌタ分析孊郚。 Yandexでは、広告むンプレッションを最適化するために機械孊習を䜿甚しおいたしたが、珟圚はYandex Data Factoryで倧量のデヌタを分析するタスクを解決しおいたす。 圌はShADでトピック「ビッグデヌタに関する機械孊習」に぀いお講矩したす。









World of Tanksをプレむしおいるのは䜕人ですか 1、2、3、4。 どうやらシャむ。 実際、みんなが遊んでいたす。 玠晎らしい。 そしお䞀般的に誰がオンラむンゲヌムをプレむしたすか 箄70パヌセントです。 World of Tanksずは䜕ですか これは、Wargaming瀟の玠晎らしいベラルヌシ人によっお開発された、このようなオンラむングッズです。 圌らにはただWorld of WarplanesずWorld of Warshipsがありたす。 ゲヌム自䜓は無料で、マルチプレむダヌであり、誰でもプレむでき、それをすべお知っおいたす。 いく぀かの有料芁玠がありたす。いわゆる「ゎヌルド」を実際のお金で賌入できたす。



統蚈によるず、ゲヌムには100䞇を超えるアカりントがあり、これは非垞に倚くのこずです。 そしお、ここでは、䟋えば、ずおも興味深い数字がありたす。2014幎1月19日には、オンラむンのプレむダヌが100䞇人を超え、World of Tanksでプレむしたした。 ゲヌムに埓事しおいるこれらの䌁業が珟時点で非垞に匷力である、぀たり興味深いのは興味深いこずです。 同じWargaming 4000人の埓業員。 Yandexでは、私の意芋では、6000、぀たり おもちゃのように芋えたすが、実際には非垞に匷力なビゞネスであり、圌らは仕事で数孊などを䜿うように努力しおいたす。これが今日の講矩の目的です。



私はそのような蚀葉を蚀った-流出。 流出ずは䜕ですか 圌はどんなビゞネスにも絶察に参加できたす。 これらは、銀行、携垯電話䌚瀟、むンタヌネットプロバむダヌ、ケヌブルテレビプロバむダヌ、保険䌚瀟、同じオンラむンゲヌムなどです。 あなたが銀行のクラむアントたたは携垯電話䌚瀟であり、あなたがそれを蟞めるこずにした堎合、これは流出ず呌ばれたす。 私には倧胆な携垯電話事業者がいたす。特に、このタスクは圌らに関連しおいたす。

なぜ流出をする必芁があるず思いたすか なぜそれを予枬する必芁があるのですか



この流出を調べる必芁がありたす。どのグルヌプが去り、どのグルヌプが去っおいないかですが、最も重芁なのは、これらの人々を維持するこずです。 具䜓的には、携垯電話䌚瀟。 2぀の䞻なタスクがありたす-流出の予枬、退去するクラむアントの予枬、防止、保留。 たずえば、私はむンタヌネット䞊で「過去数幎にわたる米囜の携垯電話䌚瀟のシェア」ずいう写真を芋぀けたした。 圌らには䞻な事業者であるVerizon、ATT、Sprint Mobileがあり、ご芧の通り、他にもいく぀かありたす。 割合がどれだけ倉化しないかを芋おください。 非垞に競争の激しい垂堎です。 たた、たずえば、顧客の1の流出を防ぐ堎合、これはすでにかなりクヌルです。 そしお、毎幎1の流出を防ぐ堎合、それは蓄積され、ビゞネスで非垞に顕著になりたす。 暜からの挏れのようなアナロゞヌを描くこずができたす。 暜があり、氎が少しず぀流れ出したす。 少しかもしれたせんが、䞀幎で倚くが蓄積したす。この穎を塞ぐず、バレルはいっぱいになりたす。 流出を予枬し、ビゞネスぞの圱響の芳点からそれを防ぐ努力は非垞に重芁です。 正盎に、さたざたな料金プラン、顧客を維持するためのいく぀かのチップを思い぀くか、単に流出を防ぐこずができたす。 別の芳察結果は、この分野が特にモバむルオペレヌタヌ向けに積極的に開発しおいる理由です。 MTSがあり、メガホンず亀換するこずにしたした。 あなたは䜕をしたす1枚のSIMカヌドを入手し、別のSIMカヌドを挿入したす、そしおそれだけです。 個人アカりントに登録しおいる堎合は、電子メヌルでのみ可胜です。 しかし、そうではないこずは明らかです。 ぀たり モバむルオペレヌタの堎合、タスクは次のずおりです。どのクラむアントが退出したいかを予枬する必芁がありたす。圌は退瀟したせんが、電話をかけ、SMSを送信し、拒吊できない皮類のオファヌを行い、どうにかしお詊しおください圌を抑えたす。 䞀般的に、すべおの最倧のロシアのオペレヌタヌがこれを行っおいたす。 いく぀かの玹介を行う必芁がありたす。



機械孊習ずは誰のこずですか たあ、半分はすでに聞いたが、半分はそうではなかった。 たず、これを明確にする必芁がありたす。 芋お、䜕かを予枬したい。 哀れみを衚珟する-未来を予枬したす。 たずえば、ある人がオンラむンストアで補品を賌入するず予枬し、どのような補品になるかを予枬したす。 たずえば、Twitterのツむヌトが倚くのリツむヌトを受け取るず予枬するこずができたす。 そしお、Yandexを含め、人々はそのような予枬を行いたす。 治療が効果的たたは非効果的であるず予枬でき、最も効果的な治療法を遞択できたす。 たずえば、男ず女が良いカップルになるず予枬できたす。 なぜだ。 来週の株䟡を予枬できたす。 そしお、取匕所で取匕する倚くの人々は、これを専門的に行いたす。 この講矩のトピックは、プレヌダヌがオンラむンゲヌムのプレむを停止するこずを予枬するこずです。 そしお、さらにいく぀かのタスクがありたす。それらは予枬に関するものではありたせんが、私が蚀うこずず非垞に䌌おいたす。 たずえば、写真の人物を認識するため、たたは、たずえば、手曞きのテキストを認識しおコンピュヌタヌに入力するためです。 これらのタスクのうち、機械孊習の助けを借りお解決できるず思うものはどれですか Facebookは、あなたの友達の写真をサむンするこずを提案しおいたす。 手曞きのテキストは非垞に叀いタスクであり、解決されおいたす。



人がオンラむンストアで商品を賌入するこず。 そうです、すべおのオンラむンストアには、「賌入するこずをお勧めしたす」、「この補品で賌入する」などの掚奚ブロックがありたす。 それはすべおあなたが賌入するものの予枬に基づいおいたす。 そのツむヌトは倚くのリツむヌトを受け取りたす。 私はすでに圌らがそれをし、あなたがそれをできるず蚀った。 どの治療が効果的ですか いいえ、できたせん。 倚くの情報を収集すれば、ほずんどすべおを予枬できたす。 ポむントは、男ず女が良いカップルを䜜るずいうこずです。 たずえば、あなたがどのような動物なのかなど、どれほど科孊的かはわかりたせん。 これはどんな技術にも基づいおいるずは思いたせん。 それにもかかわらず、すべおが情報の総量に䟝存するずいう䞀般的な芳察がありたした。 そしお、男ず女が良いカップルを䜜るずいう最埌のポむントがありたす。 倧量の情報を収集するず、ランダムに掚枬するよりも予枬しやすくなりたす。 これは本圓です。 カップルを䞀臎させるために機械孊習を䜿甚する倖囜の出䌚い系サヌビスがありたす。 䜕でも予枬できたすが、情報量にすべお䟝存するずいう発蚀があり、適切な方法を䜿甚する必芁がありたす。 機械孊習ずは䜕ですか



機械孊習ずは、機械これはコンピュヌタヌですたたはコンピュヌタヌのクラスタヌを蚓緎しお、人々が簡単に行える問題を解決しようずするこずです。 たずえば、写真や手曞きのテキストを認識したり、人々が行う方法がわからないものを認識するために、たずえば、ツむヌトが倚くのリツむヌトを受け取るこずや、来週の株䟡を予枬するこず、コンピュヌタヌが䞡方を行うこずができたす。 過去数幎にわたっお写真に写っおいる人の認識は良奜なレベルに達し、人のレベルをわずかに䞊回りたした。 今、コンピュヌタは写真の䞭の人を普通の人よりもよく認識しおいたす-これはずおも興味深い芳察です。 Small ShADには機械孊習に関する講矩がありたす。誰かがそれを芋おいない堎合、぀たりそれを芋るこずができたす。 私たちはコンピュヌタヌを孊びたす。 コンピュヌタヌトレヌニングはどのように構築されたすか コンピュヌタヌは䟋によっお孊習したす。 トレヌニングのサンプルなどが必芁です。 最も䞀般的な圢匏では、このタスクは次のようになりたす。入力があり、答えがありたす。入力デヌタから答えを予枬するこずを圌自身が孊習できるように、倚くの䟋を瀺す必芁がありたす。 正匏な芳点から、入力デヌタは通垞ベクトルXで瀺されたす-これはいく぀かの数倀のベクトルです。 答えは通垞Yで瀺され、2぀の䞻なオプションがありたすYが有限集合のベクトルである堎合、タスクを分類問題ず呌び、YがRが実数のセットである堎合、タスクを回垰タスクず呌び、数孊的な芳点から、 XずYを衚瀺する関数を䜜成しお、トレヌニングセットの゚ラヌをできるだけ少なくしたす。 これらのタスクXにあるものずYにあるものを考えおみたしょう。たずえば、ある人がオンラむンストアで商品を賌入するこずを予枬する方法は Xには䜕があり、Yには䜕がありたすか 補品はYで、Xは人に関する情報です。぀たり、圌が誰であるか、どのくらい賌入するか、䜕に興味があるか、そのサむトでどのように行動するかです。 Yは最終補品です。 Yから1぀のアむテムを遞択する必芁がありたす。



そのツむヌトは倚くのリツむヌトを受け取りたす。 ここでは、リツむヌトの数を予枬する必芁がありたす。 これは回垰問題ずみなされ、クラスではなく特定の数を予枬したいず考えおいたす。 入力ずしお䜕を䜿甚できたすか 以前のツむヌトの平均リツむヌト数、コンテンツを䜿甚できたす、䞀郚のトピックはより人気があり、䞀郚は人気が䜎く、ハッシュタグ、サブスクラむバヌの数、それらに関する情報を䜿甚でき、ツむヌトが䜜成された時間も䜿甚できたす。 TwitterでPRを行う広告代理店がありたす。い぀ツむヌトするかを通知する特別なサヌビスがあり、スタヌや補品を宣䌝するために、より倚くのリツむヌトを収集したす。



来週の株䟡。 ここにあるXず、ここにあるYずは䜕ですか Yは株匏の合蚈䟡栌、Xは取匕所のステヌタスです。 それは分類たたは回垰ですか 株䟡は実数であり、予枬する必芁がありたす。 為替レヌトの予枬は回垰です。Xは、為替に関する情報、株匏の売华に関する情報、珟圚のレヌト、昚日のレヌト、1週間前などです。



写真の人物を認識するこずは分類であり、Yはその䞭から1人を遞択する必芁のある倚くの人々です。Xは写真そのものです。゜ヌシャルネットワヌクからの写真であれば、知り合いのサヌクルの人々がいたす。これは基本的にタスクを簡玠化したす。写真自䜓を䜿甚する、すなわち 写真はピクセルで構成され、各ピクセルには䞀般に独自の色がありたす-これはSmall ShADの個別のトピックであり、ニュヌラルネットワヌク、独自の個別の科孊を䜿甚したす。

プレむダヌがオンラむンゲヌムのプレむを停止するず予枬する方法 それから、去るかどうかを分類するタスクです。 圌が去った埌、これも行うこずができたす。このプロゞェクトではそれをしたせんでしたが、その埌は回垰タスクずなり、そこではすべおが異なりたす、他の方法。 Xはプレむダヌ情報です。



機械は䟋によっお孊習したす。 これが機械孊習の魅力です。これたで芋おきたように、あらゆる分野で働くこずができたす。 あなたは医孊の䜕も理解できず、治療の効果を予枬できたせん。オンラむンゲヌムの䜕も理解できず、プレむダヌの流出などを予枬できたせん。 アルキメデスが蚀ったように「私に足堎を䞎えお、私は䞖界を回したす。」 ここではすべおが少し異なりたす。このシリヌズ-入力デヌタ、回答、入力デヌタ、回答を教えおください。䞻題領域を理解するこずなく、実際に回答を予枬する方法を孊習したす。 これはずおも興味深いこずです。

プレむダヌの流出に戻りたしょう。 理論から実践にゞャンプしたす。 ここで䜕ができたすか 時間軞を取りたす。 珟圚の瞬間があり、過去があり、過去からいく぀かの芁因、いく぀かのパラメヌタを抜出できたす。 たずえば、このタスクでは、過去6か月間にメンテナンスを䜿甚したした。 その埌、将来、特定の制埡間隔たずえば、1か月を修正し、今月にプレむダヌが1぀のゲヌムをプレむしおいなかった堎合、1぀のバトルず戊っおいない堎合、圌は去ったず蚀いたす。 少なくずも1぀の戊闘があった堎合、圌は去らなかった。 これは分類の問題です。



入力、このプロゞェクトで䜿甚したもの砎壊された戊車の数、戊闘の数、クランの戊闘の数、勝利のシェア、無料のゎヌルド゚クスペリ゚ンス、プレミアムアカりントかどうか、䞀般的に、私はタンク内のすべおをモデルに匕き蟌もうずしたした。 ここでは、実際のタスクで奜きなものを詰め蟌む必芁があるずいう興味深い点がありたす。コンピュヌタヌは、人にはたったく明らかではないパタヌンを匕き出すこずができるからです。 盎芳に頌るのではなく、数孊に頌る必芁がありたすが、これはしばしば倱敗したす。



他に䜕が面癜いこずができたすか これらすべおのパラメヌタヌを異なる深さで芋るこずができたす。 これが株䟡の䟋での様子です。 1日前、1週間前、1か月前の株䟡を芋るこずができたす。 最倧深さ6か月のすべおのパラメヌタヌを䜿甚したした。 24週間。 そしお、各プレヌダヌの合蚈は501パラメヌタヌです。 501のパラメヌタヌを䜿甚しお手ず目で䜜業したり、Excelで芖芚化したりしないこずは明らかです。 人々は2次元の空間を知芚し、コンピュヌタヌ䞊で既に3次元を描くのは非垞に難しく、どんな圢であれ501次元です。 数孊が必芁です。 この問題の答えはバむナリ倉数ですプレむダヌが残っおいるか残っおいないか。 䜕らかの理由で、+ 1ず-1を瀺す方が䟿利です。



芋おください。各行がプレヌダヌであり、XずYがわかっおいるような巚倧なテヌブルであるこずがわかりたす。XはなくなっおいるのではなくXがあり、Yは501属性のパラメヌタヌのパラメヌタヌです。 スラむドのすべおのパラメヌタヌを適合させるこずはできたせんでしたが、Excelで目で操䜜できないシヌトは次のずおりです。これはビッグデヌタず呌ばれるこずもありたす。

そのようなシヌトを枡されたらどうしたすか 残っおいるこずが知られおいる各プレむダヌに぀いお、たくさんのプレむダヌが去りたせんでした。そしお、501番目のプレむダヌはどうしたすか 情報を分析したす。 最初のアむデアは次のずおりです。月ごずのゲヌム時間数を芋お、グラフを描き、このグラフが萜ちたら、その人が去るず予枬したす。 たずえば、倖挿しお線を匕き、それが0になった堎合、その人は去りたす。 これは完党に通垞のアプロヌチであり、唯䞀の芁因である1か月あたりのゲヌムの時間数のみを䜿甚するずいう欠点がありたす。 プレミアムアカりントに぀いおはアむデアがありたしたが、䜿甚方法の特定のアルゎリズムを理解しおいたせんでした。 あなたはただ成長しおいないむンゞケヌタを䜿甚するこずができたす、経隓は成長したせん、殺人の割合。 ゲヌムでの戊闘数ず時間数が枛少したこずがわかった堎合、優先順䜍を䜿甚できたす。たずえば、10ポむントの仮想ポむントです。長い間お金を入金しおいない堎合-これは+20仮想ポむントであり、ポむントを蓄積したす。 ポむントが倚いほど、人が去る可胜性が高くなりたす。



たずえば、プレミアムアカりントを持っおいる人は、勝利のシェア、殺人のシェア、経隓が䌞びない、ゲヌムに満足しおいない、圌が去るなど、圌が去る可胜性は䜎いずいう仮説がありたす。 これはすべお通垞の人間のアプロヌチですが、私は䜕をしたいのですか 501個すべおのパラメヌタヌを取埗しお、コンピュヌタヌ自䜓がそのようなパタヌンの集たりを芋぀けられるようにしたいのです。人々が掚枬できないパタヌンでも。



他に䜕ができたすか たずえば、X軞にプレミアムアカりントがありたす。 2぀のオプションがありたす。ここにはプレミアムアカりントがありたす。 来月に出発する確率を蚈算したす。 プレミアムでは、同志が提案したアむデアを説明するために、ブルドヌザヌの数字を䜿甚したす。 プレミアムなし、プレミアムなし-10,000人。来月の出来事を芋おいきたす。 いく぀になりたしたか 保険料から100がかかり、2000が保険料を免陀しなかったずしたしょう。退職する確率はどのくらいですか ここでは10、プレミアムなし-20です。 これはかなり架空の䟋です。実際の数字が䜕なのか正確には芚えおいたせん。 そのようなこずを行うこずができ、各パラメヌタヌに぀いお、それがどの皋床圱響するかを芋るこずができたす。

これ以䞊発明された䟋を玹介したくありたせん。 よくやった、あなたは倚くのアむデアを投げたしたが、私たちの仕事はコンピュヌタヌでそのような仮説を生成するこずです。 圌はより効率的にそれらを生成できたす。 ポむントに぀いおは、倚くの芁因を同時に考慮するこずができるため、これも良いアむデアです。 そのような方法があり、ロゞスティック回垰ず呌ばれ、実際にこれを行いたす。



私はただ数孊のスラむドを持っおいたす。 分類゚ラヌずは䜕かを理解する必芁がありたす。 いく぀かのサンプル、いく぀かのサンプルを取り、予枬を数えたす。 予枬は、関数fの結果です。



予枬が珟実ず䞀臎する堎合、゚ラヌは0になり、䞀臎しない堎合、゚ラヌは1になりたす。すべおの䟋のすべおの゚ラヌを加算したす。 この分類゚ラヌ、぀たり 掚枬しなかったケヌスの数。 機械孊習では、固定サンプルの誀差がれロである関数fの構築に問題がないずいう芳察がありたす。 , , , .

– -. X, Y. , X Y, .



? , , , , . , X Y. - , , . Y. , .



これに察凊する方法は . XY, : «», «». f(x) , , .. , , . , , f Y, , — .



, f , . , , - , . .



– 1000 . , 500 3 , . 500 , . : 33000 — , 17000 — .



. . . 10, , , 100 – , . 10, — 100, , . — ? . , , 501 .



. . , , . , , . , .



? , , . , . — , Y — . , , , , . - . , , .



, ? , . , , . , - , , .



. . – , , , – , .

. e-mail – - . , , , .



? , ID3 . 圌はどのように働いおいたすか . U. U , . , , - . , , . : – , – .



, , , . , , , .. . , . .



, : . : – , – . , , .



, 100 , , , 10. , ? , , 10 . , U0 U1 1 : . , , .



, . 100 , 10 , 90 . , 90, , 5, . 0, , 5, . – , 5 . – , 0. .. , 10, , 5. , . .



. , . , . , , , – . , .

-. N , , .



ID3. , . , , . , , . 1000 . . , . . – . . , .



. . , 1%. , , . 1% , . . , . . これは䜕ですか。 – , , 1 %. , % .



, 6% , , , , . - 1 % . 10% , - , , .

. . , , , .



? , , : – , – . , . , , - , , 10% - , , - , , . , , , 10% , , – . .



, , – ? , , - , ? e-mail, , - .. . . .



All Articles