オンラむンゲヌムでのデヌタマむニング

アむオン すべおのオンラむンサヌビスずゲヌムでは、芖聎者の最倧のシェアは、補品を知っお最初の数分ず数時間で開始盎埌に残りたす。 成功のさたざたな仮説ず芖聎者の忠誠心の理由-独自性、シンプルさ、䜿いやすさ、無料、トレヌニングたたは指導、感情、および他の倚くの芁因を含む数癟冊の本や蚘事が非垞に重芁であるず考えられおいたす。



プレヌダヌが去る理由ず出発を予枬できるかどうか知りたかった。 この研究の䞻題はMMORPG Aionですが、我々の結果は幅広いゲヌムずオンラむンサヌビスに適甚可胜でした。



ほずんどの英囜の科孊者は、ナヌザヌの蚘憶が非垞に短いこずを発芋したした。 今日圌はゲヌムを去り、明日は圌がそれをむンストヌルしたこずをたったく芚えおいたせん。 プレヌダヌが去った堎合、 すぐに行動する必芁がありたす。 しかし、人が本圓に去ったのか、それずも圌が今倜友達ずビヌルを飲んでいおゲヌムに登堎しないのかをどのように刀断できたすか 理想的なケヌスは、ナヌザヌが私たちを離れる前に朜圚的な出口を予枬するこずです。 そしお、アむオンはケヌキのようなものではないずいう考えが頭に浮かんだ前でさえ。 おそらく、この問題も解決されたすが、より珟実的な目暙を蚭定したした- ゲヌムに最埌にログむンした日の出発を迅速に予枬するこずです。 1週間の䞍掻動を出発ず呌びたす。この7日間は埅ちたくありたせんが、プレヌダヌが戻らないこずをできるだけ早く知りたいず考えおいたす。 未来を知りたい



技術面



分析のために、私たちは倚くの情報を持っおいたした-アむオンは私が韓囜のゲヌムの䞭で芋た最高のロギングシステムを持っおいたす、私たちは文字通り圌の動き、くしゃみ、圌がサヌバヌに残したすべおの痕跡に぀いおプレむダヌに぀いお知っおいたす。 分析期間-ゲヌムの最初の9レベル、ゲヌムプレむの開始時間玄10時間-この期間䞭、新参者の玄半分が萜ちたした。



分析システムのリ゜ヌスの䞀郚がプロゞェクトに割り圓おられたした-2぀のサヌバヌブレヌドデュアルXeon E5630 32Gb RAM、゜ヌスデヌタず䞭間デヌタ甚の10 Tbコヌルドストレヌゞ、䜜業デヌタ甚のRAID10 SASアレむ内の3 Tbホットストレヌゞ。 MS SQL 2008R2の䞋の䞡方のサヌバヌ-1぀はデヌタベヌスの䞋、もう1぀はAnalysis Servicesの䞋。 ゜リュヌションの゜フトりェア郚分は、SQL Serverに含たれる暙準のMicrosoft Business Intelligenceパッケヌゞです。



フェヌズ1-私はすべおを知っおいたす



私は長幎ゲヌムデザむナヌであり、100回のプレむテストを行っおきたので、今では専門家の意芋がプレむダヌが去る理由の90を䞎えるず確信したした。 私はテレポヌテヌションの䜿い方を孊びたせんでした。足を動かすのにうんざりしおいたした。 ゲヌムの最初のモンスタヌで死亡-巊。 2番目のミッションを達成できなかった、立ち埀生し、䜕をすべきかわからない-巊。 アむオンは、その品質ず技術的有効性をすべお備えおいるため、初心者にずっお最もフレンドリヌなゲヌムではありたせん。 これは、韓囜プレヌダヌのハヌドコアおよびハむパヌ゜ヌシャル環境向けに蚭蚈されたすべおの韓囜ゲヌムの機胜であり、退屈なロシアのカゞュアルナヌザヌ向けではありたせん。



私は「通垞のナヌザヌ」の垜子をかぶっお、レヌスずいく぀かのクラスの䞡方でゲヌムの無料スタヌトを行い、䞍噚甚さ、非論理性、問題をすべお曞き出し、チェックする仮説の最初のリストを䜜成したした。



このリストは印象的で詳现が詳现であるこずが刀明し、初心者がプレヌする意欲を倱う前に動揺させる倚くの方法が芋぀かりたした。 最初のいく぀かの仮説をモデルに持ち蟌み 、ブヌル倉数is_leaverを予枬したす-プレむダヌは今、7レベルで脱退したす









リフトチャヌトの読み方底郚の傟斜盎線は、コむンを反転させる科孊的な方法によっおブヌル倉数を予枬する乱数ゞェネレヌタヌの結果です。 すぐに100に達するトップラむンは、未来の理想的な予枬子であるオラクルです。 それらの間には、䞍均䞀で震えるスレッドがありたす-これが私たちのモデルです。 グラフが理想的なラむンに近いほど、モデルの予枬粟床が高くなりたす。 グラフは第7レベルですが、写真は第1レベルから第9レベルたで類䌌しおいたす。



臎呜的 私たちの最初のモデルは、むヌグルずテヌルの方法よりも発信プレむダヌを少し良く予枬したす。 残りの仮説をモデルに送信し、デヌタを消去し、凊理したす









すでに優れおいたすが、それでも粟床は50をわずかに超えおいたす。 そしお、より詳现なリコヌル第2皮の゚ラヌを芋るず、写真は悲しいです。









これはロシア語の同じテヌブルです-モデルによっお予枬された100個のうち、49個は停プレむダヌはどこにも行こうずしなかったであり、モデルの粟床は1008 /1008 + 982= 51です。 同時に、モデルは実際の出発の䞀郚を完党にスキップしたす-真に出発した[391 /391 + 1008= 28]の玄28です。 泚意、これはリコヌルの暙準的な定矩ではありたせんが、そのような匏はより明確です。



フェヌズ1の結果 最初のアむデアはすべお倱敗し、予枬は機胜したせん。 シェフ、それはすべおなくなった



フェヌズ2-䜕も知らない



戊堎からの完党な敗北ず逃亡、そしお氞遠の質問「䜕をすべきか」 単玔ベむズアルゎリズムは、すべおのデヌタマむニング分類子の䞭で最も人間が読み取りやすく理解しやすいアルゎリズムです。 ベむゞアン分析は、遞択された仮説が去り、残ったプレむダヌをかなり匱く特城付けおいるこずを瀺したした。぀たり、私は最初の前提の遞択を間違えたした。 しかし、別のアルゎリズムである決定ツリヌの深さず感床を詊しおみたずころ、正しい仮説、それに沿ったツリヌの分岐があるこずが明らかになりたしたが、間違いなく十分な芁因がありたせん-ツリヌの成長は2〜3の分岐によっお䞭断されたす。



私が理解しおいない数孊の迷路に単玔化するこずなく- 決定朚アルゎリズムは、゜ヌスデヌタを可胜な限り䜎い゚ントロピヌを持぀、぀たり最も異なるデヌタセットに分割したす。 ツリヌの分岐が停止しおいる堎合、゜ヌスデヌタに新しい仮説ず新しいメトリックが必芁であるため、ツリヌは入力デヌタストリヌムをより深く分割し、将来の予枬を改善したす。



私はプロゞェクトチヌムずブレヌンストヌミングを行いたした。そこで私たちはアむデアを広めたした-私たちの新人は誰なのか、圌らはどのようにプレむし、どのように互いに異なるのか 私たちは、友人や劻がどのようにアむオンず知り合いになったのか、それから䜕が生たれたのかを思い出したした。 ブレむンストヌミングの結果は、個々の仮説の拡匵リストプレむダヌがテレポヌテヌションを䜿甚したか、むンベントリを拡匵したか、埩掻ポむントを結び付けたかなどず新しいアむデアでした。



平均アクティビティを調査するために、いく぀かのメトリックを蚈算したした。



この段階で、プロゞェクトのETL郚分デヌタのロヌド、倉換、クリアが同時にやり盎されたした。 SQLの第䞀人者Ilyaは、SSISでアナラむザヌコンストラクタヌを䜜成したした。このコンストラクタヌには、ゲヌムログからの新しいむベントが簡単に接続されたす。 ギガバむトのログ。したがっお、情報が䞍足するこずはなく、毎日新しい仮説が考案されたした。



ダりンロヌド、トレヌニング、怜蚌、分析。 各レベルおよび各モデルの䞀連のリフトチャヌトをロヌドするのではなく、凊理および分析されたデヌタをすぐに提䟛したす。









レベル9の粟床のピヌクは、調査時のゲヌムの内郚機胜に関連付けられおいたした。



䞀般に、画像は2〜4レベルの領域で改善されたしたが、台座の䞋6〜8で、そのような粟床では、デヌタはたったく圹に立ちたせん。



デシゞョンツリヌは元気に瀺しおいたす-アクティビティファクタヌは、出発を予枬するために最も重芁です。 実際、レベルでの時間、モンスタヌを殺し、タスクを完了するずいう3぀の倀が、出発点の最倧の割合を決定したす。 その他の芁因によっお远加される粟床は5以䞋です。 たた、ツリヌは裞のたたで、3番目のブランチでクラりンが壊れたす。぀たり、モデルはより関連性の高いメトリックを求めたす。 ただ䞍明な点がありたす-3぀のアルゎリズムの粟床はレベルによっお倧きく異なりたす。



フェヌズ2の結果 個々の芁因ではなく、平均的な掻動を枬定するずいうアむデアの成功。 しかし、予枬の粟床はただ䞍十分です。 レヌキパスは、結果を分析する正しい順序に぀ながりたした。最初に芁因ず盞関関係ベむズ、次に結果ぞの圱響決定ツリヌです。



フェヌズ3-掘る堎所を知っおいる



進捗に勇気付けられお、プロゞェクトの開発のための3぀のベクトル-党䜓的なアクティビティのより倚くのメトリック、個々の有効性のより具䜓的なメトリック、およびMicrosoft BIツヌルのより詳现な調査を抂説したした。



アクティビティを詊した埌、次のセットに決めたした。



これらの指暙により、芋逃されたケヌスがほが1.5倍削枛されたした。 デシゞョンツリヌは最倧9ノヌドに分岐し始め、メトリックの関連性が瀺されたした。 さらに、良い兆候は異なるレベルのツリヌの統合でした-私が曞いたように最埌のフェヌズでアルゎリズムの粟床がレベルからレベルにゞャンプした堎合、明確に衚瀺されたした-ツリヌは最初のノヌド、2番目のノヌド、3番目のノヌドでたったく同じむンゞケヌタヌでビヌトしたす、文字レベルに関係なく。 そしお、ナむヌブベむズはすでにツリヌずニュヌラルネットワヌクの背埌に5〜10いたす。



ゲヌムプレむの深さずゲヌムの有効性たずえば、自動攻撃の割合に関連する新しい個別のメトリックをいじる必芁がありたした。 キャラクタヌをクラス右に戊士、巊にヒヌラヌに分割し、各クラスで%%自動攻撃の分垃の25、50、75パヌセンタむルを蚈算し、党員を4぀のカテゎリヌに分けたした。 これでデヌタが正芏化され 、ゲヌムクラスを盞互に比范できたす。カテゎリ番号はデヌタマむニングモデルの入力になりたす。



オンラむンゲヌムでは、キャラクタヌはさたざたな呪文や胜力で敵を殺したす。 自動攻撃は、誕生から䞎えられる無料の最も基本的なそしお最も匱い打撃です。 プレヌダヌが効果的であれば、圌はキャラクタヌの胜力を䜿甚したす-そしお、すべおのヒットの䞭で%%の自動攻撃はそれほど高くありたせん。 ただし、ゲヌムの仕組みに倧きく䟝存したす。異なるクラスのこのパヌセンテヌゞは正確に䜕ですか。 アむオンでは、䞭倮倀からの広がりは、魔術垫の5から戊士の70であり、クラス内でもばら぀きは倧きい。



個々のメトリックは、ツリヌの7番目から9番目のノヌドの深さに固定されたす。 圌らは予枬の粟床を数パヌセント䞊げたしたが、状況を劇的には改善したせんでした。 次のステップは、Microsoft SQL Server 2008でのデヌタマむニングの曞籍を分析しお、Analysis Servicesでの䜜業の耇雑さを調べるこずでした。 本自䜓は、ツリヌの感床の調敎匷床に加えお1〜2パヌセントの粟床向䞊にのみ圹立ちたしたが、適切な離散化のアむデアを促したした。



䞊蚘の自動攻撃の䟋では、いく぀かの基準に埓っお手動でデヌタを離散化し、カテゎリに分類したした。 SQL Serverは、いく぀かの方法で自動的に離散化を行いたす。 実隓的に、分割アルゎリズムずセグメント数がモデルの予枬力に倧きく圱響するこずをすぐに実感したした。 セグメントの数を手動で倉曎するず、ツリヌの圢状ず粟床に倧きく圱響したす。 私は手動調敎に1週間を費やし、各レベル30レベル以䞊の9レベルの9぀のレベルの各構造に察しお慎重にセグメント数を詊したした。 䞀郚のメトリックでは、7セグメントたずえば、 珟圚のレベルの時間 、玄12セグメント ゲヌムの合蚈時間 、玄20セグメント 殺されたモンスタヌの数 が最適でした。



手動調敎により予枬倀が倧幅に増加したした-粟床はそれほど向䞊したせんでしたが、モデルはギャップを倧幅に枛らし始め、ツリヌの結果はニュヌラルネットワヌクに匹敵したした







フェヌズ3の結果 粟床ず粟床の蚱容可胜な指暙に到達し、ゲヌムずプレむダヌに぀いお倚くの興味深いこずを孊びたした。



フェヌズ4-勝利のみ



私は正盎に倩井に達したず思った-朚は9-12ノットの深さに枝分かれし、粟床は倧幅に改善されたした。 新しい仮説では粟床は向䞊せず、新しい芁因では情報が埗られたせん。 原則ずしお、78ずリコヌル16の党䜓的な粟床は、プレヌダヌずの䜜業を開始するのに十分です。 私はおそらく、そのような番号でゲヌムを続けるためにそのような無料のサブスクリプションを䞎えるこずはないでしょうが、゚ラヌなしで関連情報をプレむダヌに知らせるこずはすでに可胜です。



ヘルプが予期せずに来たした-デヌタマむニングプロゞェクトが3か月間行われおいるため、ログがやや叀くなっおいたす-ゲヌムはこの間に倉曎されたした。 いく぀かの新しいデヌタをロヌドし、同時にETL手順を最終決定したので、モデルの倉曎に気付きたした。 新しいデヌタでは、それらは異なる動䜜をしたした-䞀般に、同じ粟床ず粟床で、ツリヌパヌティションは異なっおいたした。 この段階では、3぀のアルゎリズムすべおが非垞に迅速に孊習したした。各レベル9に1分かかり、远加のデヌタセットを提䟛するのは簡単です。



それは蚀われおいたす-完了し、3ヶ月にわたっお蓄積されたすべおのデヌタをアンロヌドし、䞀般的に䞀気に孊習するためにモデルを送信したすプロセスは1分ではなく、各レベルで5぀もかかりたす-重芁ではありたせん。 手動調敎のもう1぀のラりンドであり、結果は次のずおりです。















トレヌニングデヌタの量を増やすこずで、凊理プロセスが長くなりたしたが、なんず玠晎らしい結果でしょう



残念ながら、最初のレベルでは少ししかできたせん-出発の玄半分、Avinash Koshikが「 私は来た、私は去った 」ず蚀ったように 。 文字通りいく぀かのプレむダヌのアクションに関するデヌタがありたす-そしお、圌はゲヌムクラむアントを閉じお戻りたせん。







䞊蚘のすべおの研究は、蓄積された履歎デヌタに関するトレヌニングであるこずを思い出させおください。 バトルチェックが欲しい ラむブデヌタをチェックしたす。今日の新鮮なナヌザヌを取り蟌み、モデルを実行しお、予枬の結果を保存したす。 1週間埌、モデルの予枬ず客芳的な珟実を比范したす。1週間前の新入瀟員のうち、実際に残ったのは誰で、誰がゲヌムに残っおいたしたか。











最も興味深い



プロゞェクトの最初の目暙- 初心者がゲヌムを離れるずいう予枬 -は確実に達成されたす。 そのような正確さで、プレむダヌの返品に関しお決定を䞋し、圌ず通信し、圌のやる気を起こさせ、パンを䞎えるこずがすでに可胜です。 そしお、この予枬は退堎のほが日です。今倜、ある人がゲヌムを去りたした-明日の午前5時にデヌタが凊理され、退堎の可胜性が高い信頌性ですでにわかっおいたす。



2番目の目暙は達成されたしたか、プレむダヌが去る理由がわかりたしたか  いや そしお、これは私にずっお最も奇劙な結果です-出発を予枬する優れた確率で、「なぜ」ずいう質問は未回答のたたです。 芚えおおいお、私はプロゞェクトを開始し、次の圢匏の個々の芁因に関する仮説を曞き留めたした。 そのような倚くの芁因がテストされおいたす-60以䞊。それらのどれも䜕らかの圢で重芁であり、プレむダヌの出発を決定したせん。 単䞀ではありたせん ゲヌムでは、プレむダヌの流出を匕き起こすような魔法の障壁は芋぀かりたせんでした。



最も重芁な芁因は プレヌダヌは、ゲヌムの知り合いの最初の日に最初の7レベルに合栌したしたか7レベルはゲヌムの玄3時間です。 これは撀退の重芁な予枬因子です。最初のセッションでプレヌダヌが持ち去られず、3時間も費やさなかった堎合、ゲヌムを終了する可胜性が非垞に高くなりたす。 次に匷力な芁因のグルヌプは、プレヌダヌの総アクティビティです。



芁玄 2぀のたったく異なる結果が埗られたした。䞀般的なアクティビティのメトリックに基づいおプレむダヌが去る予枬ず、個々のプレむスタむルの詳现な分析です。 私たちは各新人の出発を正確に予枬し、各新人に自分がどのようにプレむスタむルを向䞊させるこずができるか、より効率的にプレむする方法、ゲヌムのすべおのチップを䜿甚する方法、そしおもっず楜しむ方法を十数通り䌝えるこずができたす。



勝利



2か月間、れロから-私たちは誰もデヌタマむニングに近づきたせんでした-2冊の本の助けず、Innovaで䜜成した匷力で受動的な分析システムに基づいお、新しいこずを詊しおみたいずいう願望を持ち、 積極的にツヌルを䜜成したした未来を芋る 。 過去のデヌタに関する定期的なレポヌトや傟向分析ずは異なり、午前6時に、昚日Aionの新芏参入者をほが確実に知っおいたす今日ゲヌムでそれらを芋るかどうか。 そしお手遅れになる前に行動するこずができたす。



分析はオンラむンゲヌムに぀いお行われたしたが、ご芧のずおり、予枬の正確性ぞの䞻な貢献は䞀般化されたアクティビティメトリックによるものでした。もちろん、ナヌザヌが積極的に取り組んでいる補品たたはサヌビスのいずれでも、このアプロヌチは確実に機胜したすたったく新しいレベルに到達したい。



PS。 トピックがHabraの居䜏者にずっお興味深い堎合、去幎の高霢者の予枬、セグメンテヌションずクラスタリング、クラスタヌ間の移行、および過去1幎間に行った他のデヌタマむニングプロゞェクトに぀いお続けるこずができたす。



PS2。 2冊目の本、私は絶察にみんなをお勧めしたす- 集合的な心のプログラミング



All Articles