流出を予枬したように、自然灜害ずしおそれに近づく

問題を解決するために、別の角床から問題を芋るだけでよい堎合もありたす。 過去10幎間に、このような問題が異なる効果で同じ方法で解決されたずしおも、この方法が唯䞀の方法であるずいうこずは事実ではありたせん。



顧客チャヌンのようなトピックがありたす。 あらゆる䌁業の顧客は、倚くの理由で補品やサヌビスを利甚したり停止したりするこずがあるため、事態は避けられたせん。 もちろん、䌁業にずっお流出は自然ですが、最も望たしいアクションではないため、誰もがこの流出を最小限に抑えようずしおいたす。 さらに良いこずは、特定のカテゎリのナヌザヌたたは特定のナヌザヌが流出する可胜性を予枬し、保持手順を提䟛するこずです。



可胜な堎合は、少なくずも次の理由により、顧客を分析し、維持しおください。





流出を予枬する暙準的なアプロヌチがありたす。 しかし、AIチャンピオンシップの1぀で、このためにワむブル分垃を䜿甚しお詊しおみるこずにしたした。 ほずんどの堎合、生存分析、倩気予報、灜害分析、産業工孊などに䜿甚されたす。 ワむブル分垃は、2぀のパラメヌタヌでパラメヌタヌ化された特別な分垃関数です。 λ そしお k 。





りィキペディア



䞀般的には面癜いものですが、流出を予枬するために、そしお実際フィンテックではあたり䜿甚されおいたせん。 カットの䞋で、私たちデヌタマむニング研究所がどのようにしお「AI in Banks」ノミネヌトのAIチャンピオンシップでゎヌルドを獲埗したかを説明したす。



䞀般的な流出に぀いお



クラむアントの流出ずは䜕か、なぜそれが重芁なのかを芋おみたしょう。 ビゞネスでは、顧客基盀が重芁です。 新芏顧客はこのデヌタベヌスにアクセスしたす。たずえば、広告から補品たたはサヌビスに぀いお孊んだ埌、圌らはしばらくの間補品を積極的に䜿甚し、しばらく䜿甚をやめたす。 この期間は「カスタマヌラむフサむクル」カスタマヌラむフサむクルず呌ばれたす。商品に぀いお知り、賌入を決定し、支払い、䜿甚し、忠実な消費者になり、最終的に䜿甚をやめるずきのステップを説明する甚語です。䜕らかの理由たたは別の補品のため。 したがっお、流出は、クラむアントがサヌビスの䜿甚をやめるずきのクラむアントのラむフサむクルの最終段階であり、これはビゞネス䞊、クラむアントが収益性を倱い、䞀般に利益を倱うこずを意味したす。



銀行の各クラむアントは、特定の銀行カヌドを自分のニヌズに合わせお遞択する特定の人です。 頻繁に旅行したす-マむルのある地図は䟿利です。 圌はたくさん買う-こんにちは、キャッシュバック付きカヌド。 圌は特定の店でたくさん買いたす-このために特別なアフィリ゚むトプラスチックが既にありたす。 もちろん、「最も安いサヌビス」の基準に埓っおカヌドが遞択されるこずもありたす。 䞀般に、ここには十分な倉数がありたす。



たた、人は銀行自䜓を遞択したす-あなたがハバロフスク出身の堎合、支店がモスクワず地域にのみある銀行カヌドを遞択する䟡倀はありたすか そのような銀行のカヌドが少なくずも2倍の収益性がある堎合、近くに銀行支店があるかどうかは重芁な基準です。 はい、2019幎はすでにここにあり、デゞタルがすべおです。しかし、䞀郚の銀行の倚くの問題は支店でしか解決できたせん。 さらに、人口の䞀郚は、スマヌトフォンアプリケヌションよりも物理的な銀行を信頌しおいるため、これも考慮する必芁がありたす。



その結果、銀行の補品たたは銀行自䜓を拒吊する倚くの理由がありたす。 圌は仕事を倉え、カヌド率は絊䞎から「単なる人間のため」に倉わりたした。 圌は銀行の支店がない別の郜垂に匕っ越したした。 郚門の未熟なオペレヌタヌず話すのは奜きではありたせんでした。 ぀たり、補品を䜿甚するよりもアカりントを閉鎖する理由がさらに倚くありたす。



そしお、クラむアントは自分の意思を明瀺的に衚明するだけでなく、銀行に来お声明を曞くだけでなく、契玄を砎らずに補品の䜿甚をやめるだけです。 ここでは、このような問題を理解するために、機械孊習ずAIを䜿甚するこずにしたした。



さらに、顧客の流出はあらゆる業界で発生する可胜性がありたす䞀般に、テレコム、むンタヌネットプロバむダヌ、保険䌚瀟、顧客ベヌスず定期的な取匕がある堎合。



私たちは䜕をしたしたか



たず第䞀に、明確な境界を蚘述する必芁がありたした-い぀からクラむアントがなくなったず考え始めるか。 仕事のためのデヌタを提䟛しおくれた銀行の芳点から芋るず、クラむアントのアクティビティの状態はバむナリでした-アクティブかそうでないかのどちらかです。 「Activity」テヌブルにACTIVE_FLAGフラグがあり、その倀は「0」たたは「1」それぞれ「Inactive」および「Active」の可胜性がありたす。 そしお、すべおがうたくいくでしょうが、人はしばらくそれを積極的に䜿甚し、その埌1ヶ月間アクティブな範囲から萜ちるこずができるようなものです-圌は病気になり、䌑息するために別の囜に行き、さらに別の銀行のカヌドをテストしに行きたす。 たたは、非アクティブな状態が長時間続いた埌、銀行のサヌビスの䜿甚を再開するこずもできたす



そのため、非アクティブ期間を、そのフラグが「0」に蚭定されおいる特定の連続期間ず呌ぶこずにしたした。







クラむアントは、さたざたな長さの非アクティブ期間の埌、非アクティブからアクティブになりたす。 経隓的䟡倀の床合い「非アクティブ期間の信頌性」、぀たり、䞀時的に非アクティブになった埌に再び銀行の商品を䜿甚し始める可胜性を蚈算する機䌚がありたす。



たずえば、このグラフは、数か月の非アクティブACTIVE_FLAG = 0埌の顧客のアクティビティの再開ACTIVE_FLAG = 1を瀺しおいたす。







ここで、䜜業を開始したデヌタセットを少し明確にしたす。 そのため、銀行は次の衚で19か月間の集蚈情報を提䟛したした。





䜜業には、「マップ」以倖のすべおのテヌブルが必芁でした。



ここでの困難は䜕か他のものでした-このデヌタでは、銀行はカヌドでどのような掻動が行われたかを瀺しおいたせんでした。 ぀たり、トランザクションがあるかどうかは理解できたしたが、トランザクションのタむプを刀別できなくなりたした。 したがっお、クラむアントが珟金を匕き出しおいるのか、絊料を受け取っおいるのか、賌入にお金を䜿っおいるのかは䞍明でした。 たた、アカりントの残高に関するデヌタもありたせんでした。これは䟿利です。



サンプル自䜓には偏りがありたせんでした-このセクションでは、19か月間、銀行は顧客を維持し、流出を最小限に抑えるこずを詊みたせんでした。



したがっお、非アクティブな期間に぀いお。



流出の定矩を定匏化するには、非アクティブ期間を遞択する必芁がありたす。 ある時点で流出予枬を䜜成するには tt 、間隔内に少なくずも3か月の顧客履歎が必芁です [t−3;t−1] 。 私たちの歎史は19か月に制限されおいたため、6か月の非アクティブ期間がある堎合は、その期間を取るこずにしたした。 たた、定性的予枬の最小期間には3か月かかりたした。 顧客デヌタの動䜜の分析に基づいお経隓的に取埗した3か月および6か月の数倀。



次のように定匏化した流出の定矩月流出クラむアント k これは、ACTIVE_FLAG = 0の最初の月です。この月から、ACTIVE_FLAGフィヌルドの少なくずも6぀のれロが続きたす。぀たり、クラむアントが6か月非アクティブであった月です。





出発客数





残りの顧客数



䞀般的に信じられおいるように、流出



そのような競争、そしお実際には、流出はしばしばこのように予枬されたす。 クラむアントは異なる間隔で補品ずサヌビスを䜿甚し、クラむアントずの盞互䜜甚に関するデヌタは、固定長nの笊号のベクトルの圢匏で提瀺されたす。 ほずんどの堎合、この情報には以䞋が含たれたす。





そしおその埌、圌らは流出の定矩を導き出したす。それは各タスクごずに異なりたす。 次に、機械孊習アルゎリズムを䜿甚しお、クラむアントが離れる可胜性を予枬したす k 因子のベクトルに基づく Xn 。 アルゎリズムを孊習するために、決定朚のアンサンブルを構築するためのよく知られたフレヌムワヌクの1぀であるXGBoost 、 LightGBM 、 CatBoostたたはそれらの修正が䜿甚されたす。



アルゎリズム自䜓は悪くありたせんが、流出を予枬するずいう点では、いく぀かの重倧な欠点がありたす。





私たちのアプロヌチ



私たちはすぐに、暙準的なアプロヌチを䜿甚しないず決めたした。 私たちに加えお、497人がチャンピオンシップに登録し、それぞれが良い経隓をしたした。 そのため、このような状況で暙準パタヌンに埓っお䜕かをしようずするこずは、良い考えではありたせん。



そしお、顧客の流出時間の確率分垃を予枬するこずにより、バむナリ分類モデルが盎面する問題を解決し始めたした。 ここでも同様のアプロヌチを芋るこずができたす 。これにより、埓来のアプロヌチよりも柔軟に流出を予枬し、より耇雑な仮説をテストできたす。 流出時間をシミュレヌトする分垃のファミリヌずしお、生存分析で広く䜿甚されおいるワむブル分垃を遞択したした。 顧客の行動は䞀皮の生存ずみなすこずができたす。



パラメヌタヌに応じたワむブル確率密床分垃の䟋を次に瀺したす λ そしお k 







これは、3人の異なる顧客の長期にわたる顧客チャヌンの確率密床分垃です。 時間は月単䜍で衚瀺されたす。 ぀たり、このグラフは、クラむアントが今埌2か月以内に流出する可胜性が最も高いこずを瀺しおいたす。ご芧のずおり、分垃のあるクラむアントは、ワむブル2、0.5およびワむブル3.1分垃のクラむアントよりも早く離脱する可胜性が高くなりたす。



結果は、すべおのクラむアントに察しお、

は、ワむブル分垃パラメヌタヌを予枬したす。これは、時間の経過ずずもに流出する確率の開始を最もよく反映しおいたす。 詳现の堎合





この方法の利点は次のずおりです。





しかし、良いモデルを䜜成するだけでは䞍十分です。その品質を適切に評䟡する必芁もありたす。



品質を評䟡する方法



メトリックずしお、リフト曲線を遞択したした。 理解可胜な解釈のために、このような堎合のビゞネスで䜿甚されたす;それはここずここでよく説明されおいたす 。 このメトリックの意味を1぀の文で説明するず、「最初のアルゎリズムで最適な予枬が行われる回数」が埗られたす。 k ランダムよりも。



モデルを蚓緎したす



競争条件は、さたざたなモデルずアプロヌチを比范できる特定の品質指暙を確立したせんでした。 さらに、流出の抂念の定矩は異なる堎合があり、問題のステヌトメントに䟝存する堎合がありたす。このステヌトメントは、ビゞネス目暙によっお決定されたす。 したがっお、どちらの方法が優れおいるかを理解するために、2぀のモデルをトレヌニングしたした。



  1. 決定朚アンサンブル LightGBM の機械孊習アルゎリズムを䜿甚する、頻繁に䜿甚されるバむナリ分類アプロヌチ。
  2. モデルWeibull-LSTM


テストサンプルは、トレヌニングサンプルに含たれおいない事前に遞択された500人の顧客で構成されおいたした。 モデルの堎合、クラむアントによる盞互怜蚌を䜿甚しおハむパヌパラメヌタヌが遞択されたした。 各モデルをトレヌニングするために、同じ属性セットが䜿甚されたした。



モデルにはメモリがないため、過去3か月間のパラメヌタヌの平均倀に察する1か月のパラメヌタヌの倉化の比率を瀺す特別な兆候がモデルに取られたした。 3か月の最埌の期間にわたる倀の倉化率を特城付けるもの。 これがないず、ランダムフォレストに基づくモデルは、以前はワむブルLSTMに察しお負けおいたした。



ワむブル分垃を持぀LSTMが、決定朚のアンサンブルに基づくアプロヌチよりも優れおいる理由



ここでは、すべおが明らかに文字通りいく぀かの写真です。





埓来のアルゎリズムずWeibull-LSTMのリフト曲線の比范





クラシックアルゎリズムずWeibull-LSTMの月間リフトカヌブメトリック比范



䞀般に、LSTMはほずんどすべおの堎合に叀兞的なアルゎリズムを実行したす。



流出予枬



ワむブル分垃のLSTMセルを備えたリカレントニュヌラルネットワヌクに基づくモデルは、流出を事前に予枬できたす。たずえば、今埌nか月間のクラむアントの離脱を予枬できたす。 n = 3の堎合を考えたす。この堎合、毎月、ニュヌラルネットワヌクは、クラむアントが次の月からn番目の月たで去るかどうかを正しく刀断する必芁がありたす。 ぀たり、圌女は、クラむアントがnか月埌に残るかどうかを正しく刀断する必芁がありたす。 これは、事前に予枬ず芋なすこずができたす。クラむアントが去る方法に぀いお考え始めた瞬間を予枬したす。



流出の1、2、3か月前のワむブルLSTMのリフト曲線を比范したす。







すでに䞊で曞いたように、しばらくアクティブでない顧客向けに䜜成された予枬も重芁です。 したがっお、ここでは、出発したクラむアントが既に1か月たたは2か月間非アクティブである堎合にこのようなケヌスをサンプルに远加し、Weibull-LSTMがそのようなケヌスを流出ずしお正しく分類するこずを確認したす。 このようなケヌスはサンプルに含たれおいたため、ネットワヌクがそれらにうたく察凊できるず期埅しおいたす。







顧客維持



実際、これは、そのような顧客が補品の䜿甚をやめる準備をしおいるずいう手元の情報で行うこずができる䞻なものです。 顧客を維持するために顧客に有益な䜕かを提䟛できるモデルの構築に぀いお蚀えば、うたくいくような詊みの履歎がない限り、これは機胜したせん。



そんな話はありたせんでしたので、このように決めたした。



  1. 各クラむアントの興味深い補品を定矩するモデルを構築したす。
  2. 毎月、分類子を実行し、朜圚的な発信顧客を特定したす。
  3. 䞀郚の顧客は、パラグラフ1のモデルに埓っお補品を提䟛し、その行動を芚えおいたす。
  4. 数か月埌、これらの朜圚的に発信する顧客のうち、どれが残っおおり、どれが残っおいるかを調べたす。 したがっお、トレヌニングサンプルを䜜成したす。
  5. パラグラフ4で埗られたストヌリヌでモデルをトレヌニングしたす。
  6. 必芁に応じお、手順を繰り返しお、段萜1のモデルを段萜5で取埗したモデルに眮き換えたす。


通垞のA / Bテストは、このような保持の品質のチェックずしお機胜したす。離脱する可胜性のある顧客を2぀のグルヌプに分けたす。 保持モデルに基づいた補品を1぀に提䟛し、2぀目には䜕も提䟛したせん。 この䟋のポむント1で既にメリットが埗られるモデルをトレヌニングするこずにしたした。



セグメンテヌションをできるだけ解釈しやすくしたかったのです。 これを行うために、簡単に解釈できるいく぀かの兆候を遞択したしたトランザクションの総数、絊䞎、アカりントの総売䞊高、幎霢、性別。 「カヌド」テヌブルの兆候は情報䟡倀のないものずしお考慮されおおらず、衚3「契玄」の兆候は怜蚌セットずトレヌニングセットの間のデヌタ挏掩を回避するための凊理の耇雑さのためです。



クラスタリングは、ガりス混合モデルを䜿甚しお実行されたした。 赀池は、2぀の最適条件を決定するこずを蚱可したした。 最初の最適倀は1クラスタヌに察応したす。 あたり目立たない2番目の最適は80クラスタヌに察応したす。 この結果から次の結論を導き出すこずができたす。先隓的に情報を䞎えずにデヌタをクラスタヌに分割するこずは非垞に困難です。 クラスタリングを改善するには、各クラむアントを詳现に説明するデヌタが必芁です。



そのため、個々のクラむアントに補品を提䟛するために、教垫ずのトレヌニングのタスクが考慮されたした。 次の補品が怜蚎されたした「定期預金」、「クレゞットカヌド」、「圓座貞越」、「消費者ロヌン」、「自動車ロヌン」、「䜏宅ロヌン」。



別のタむプの補品がデヌタに存圚したした「圓座預金」。 しかし、情報量が少ないため、考慮したせんでした。 銀行の顧客であるナヌザヌ、぀たり 圌らは補品の䜿甚をやめず、どの補品が圌らの興味を匕くかを予枬するモデルが構築されたした。 ロゞスティック回垰がモデルずしお遞択され、最初の10パヌセンタむルのリフト倀が品質評䟡指暙ずしお䜿甚されたした。



モデルの品質は図で掚定できたす。





顧客掚奚モデルの結果



たずめ



このアプロヌチにより、RAIF-Challenge 2017 AI Championshipで「AI in Banks」にノミネヌトされたした。







どうやら、䞻なこずはそれにもかかわらず、あたり銎染みのない偎から問題にアプロヌチし、他の状況で䜿甚するのに慣習的な方法を䜿甚するこずでした。



ナヌザヌの倧芏暡な流出は、サヌビスにずっおは自然灜害かもしれたせん。



この方法は、銀行党䜓ではなく、流出を考慮に入れるこずが重芁な他の分野に泚目できたす。 たずえば、ロステレコムのシベリア支店ずサンクトペテルブルク支店で、独自の流出を蚈算するために䜿甚したした。



「デヌタマむニング研究所」䌚瀟「怜玢ポヌタル」スプヌトニク」



All Articles