データサイエンス:ビジネスイベントを予測してサービスを改善する

銀行、保険会社、その他の多くのビジネスセクターでは、推奨事項、イベントの予測、またはリスク評価のアルゴリズムがトレンド決定です。 たとえば、これらのプログラムは、データ分析に基づいて、クライアントがいつ銀行ローンを返済するか、小売業の需要はどうなるか、保険イベントの可能性や通信の顧客流出などを予測するのに役立ちます。 企業にとって、これは費用を最適化し、作業の速度を上げ、一般的にサービスを改善する貴重な機会です。



ただし、分類や回帰などの従来のアプローチは、このようなプログラムの構築には適していません。 この問題を医療エピソードの予測に専念する事例の一例として考えましょう。データの性質のニュアンスとモデル化の可能なアプローチを分析し、モデルを構築し、その品質を分析します。



医学的エピソードの予測の課題



履歴データの分析に基づいてエピソードを予測します。 この場合のデータセットは2つの部分で構成されています。 1つ目は、以前に患者に提供されたサービスに関するデータです。 データセットのこの部分には、年齢や性別などの患者に関する社会人口統計データ、およびICD10-CMエンコーディング[1]および実行されたHCPCS手順[2]で異なる時間に患者に行われた診断が含まれます。 これらのデータは時系列で形成されるため、関心のある時点での患者の状態を把握することができます。 トレーニングモデルおよび実稼働環境での作業には、パーソナライズされたデータで十分です。



データセットの2番目の部分は、患者に発生するエピソードのリストです。 各エピソードについて、そのタイプと発生日、期間、含まれるサービスおよびその他の情報を示します。 これらのデータから、予測のターゲット変数が生成されます。



時間の側面は、解決される問題にとって重要です。私たちは、近い将来に発生する可能性のあるエピソードのみに関心があります。 一方、自由に使用できるデータセットは限られた期間だけ収集され、それを超えるとデータはありません。 したがって、観察期間外にエピソードが発生するかどうか、エピソードはどのエピソードであるか、発生する正確な瞬間はわかりません。 この状況は、右打ち切りと呼ばれます。



同様に、左打ち切りが発生します。一部の患者では、エピソードが観察できるよりも早く発症し始める場合があります。 私たちにとっては、背景のないエピソードのように見えます。



データの検閲には別の種類があります-監視の中断(監視期間が完了せず、イベントが発生していない場合)。 たとえば、患者の移動、データ収集システムの障害などが原因です。



図 図1は、データのさまざまなタイプの検閲を概略的に示しています。 それらはすべて統計を歪め、モデルの構築を困難にします。





注:1-無修正の観測。 2、3-それぞれ左と右の検閲; 4-左右の検閲。

5-観察の中断。



データセットのもう1つの重要な機能は、実際のデータストリームの性質に関連しています。 一部のデータが遅れて到着する場合があります。その場合、予測時には利用できません。 この機能を考慮するには、各シーケンスの末尾からいくつかの要素をスローして、データセットを補足する必要があります。



分類と回帰



当然、最初の考えは、問題をよく知られている分類と回帰に減らすことです。 ただし、これらのアプローチには深刻な問題があります。



回帰が私たちに合わない理由は、右検閲と左検閲の現象から明らかです。データセット内のエピソードの発生時間の分布はシフトできます。 この場合、このバイアスの存在の大きさと事実は、データセット自体を使用して決定することはできません。 構築されたモデルは、検証へのあらゆるアプローチで勝手に良い結果を示すことができますが、これはおそらく、生産データの予測に対する適合性とは何の関係もありません。



より有望なのは、一見したところ、問題を分類に減らす試みです。特定の期間を設定し、この期間に発生するエピソードを決定します。 ここでの主な難点は、関心のある時間間隔が私たちに拘束されることです。 患者の履歴が最後に更新された瞬間にのみ確実にリンクできます。 同時に、エピソードを予測する要求は一般に時間に関連せず、この間隔内(および有効な有効期間が短縮されます)でも、完全に外部でも、いつでも来ることができます-そして、予測は一般的に意味を失います(図を参照) 2)。 これは当然、関心のある期間の増加を引き起こし、最終的に予測の価値を最終的に低下させます。







注:1-患者の履歴を更新します。 2-最新の更新とそれに関連する期間。 3、4-この期間中に受信したエピソード予測リクエスト。 それらの有効な予測間隔は短いことがわかります。 5-間隔外で受信したリクエスト。 彼にとって、予測は不可能です。



生存分析



別の方法として、生存分析(生存分析、またはイベントまでの時間分析)[3]と呼ばれるロシア語の文献で、アプローチを検討することができます。 これは、打ち切りデータを操作するために特別に設計されたモデルのファミリーです。 これは、リスク関数(ハザード関数、イベント発生の強度)の近似に基づいており、イベントの発生の確率分布を経時的に推定します。 このアプローチにより、さまざまなタイプの検閲の存在を正しく考慮することができます。



解決される問題について、このアプローチはさらに、1つのモデルで問題の両方の側面を組み合わせることを可能にします。エピソードのタイプを決定し、その発生時刻を予測します。 これを行うには、分類のone-vs-allアプローチと同様に、エピソードのタイプごとに個別のモデルを構築するだけで十分です。 次に、非ターゲットエピソードの発生は、イベントの発生なしに観測されたサンプルからオブジェクトが除外されると解釈できます。これは、データの検閲の別のタイプであり、モデルによって正しく考慮されます。 この解釈は、ビジネスロジックの観点からも正しいです。患者が白内障手術を受けている場合、これは将来、彼の他のエピソードの発生を除外しません。



生存分析モデルのファミリーの中で、分析と回帰の2つの種類を区別できます。 分析モデルは純粋に記述的なものであり、母集団全体に対して構築され、個々のメンバーの特徴を考慮しないため、母集団の一部の典型的なメンバーのイベントの発生のみを予測できます。 分析とは異なり、回帰モデルは母集団の個々のメンバーの特性を考慮して構築され、特性を考慮して個々のメンバーの予測も行うことができます。 この問題では、使用されたのはこの多様性であり、むしろ、Coxの比例ハザードモデル(以降-CoxPH)です。



生存退行と白内障手術



最も単純なアプローチは、通常の回帰に似ています。出力としてイベントの開始時刻の数学的期待値を使用します。 CoxPHは入力で数値ベクトルとしてデータを受け取り、実際にデータセットは一連の診断コードと手順(カテゴリデータ)であるため、予備的なデータ変換が必要です。







さらに、取得した特徴ベクトルを使用して、モデルとその検証をトレーニングします。 結果のモデルは、次の一致指数(c-indexまたはc-statistic)値を示します[5]。





これは、そのようなモデルで通常の0.6〜0.7のレベルに匹敵します[6]。



ただし、エピソードの発生が予測される予測時間と実際のエピソードの間の平均絶対誤差を見ると、誤差は5日間であることがわかります。 このような大きな間違いの理由は、c-indexでの最適化では値の正しい順序のみが保証されるためです。あるイベントが別のイベントよりも早く発生する場合、イベントまでの予測時間の予測値はそれぞれ1ずつ小さくなります。 さらに、予測値自体に関する記述はありません。



モデルの出力値の別の可能なバリエーションは、さまざまな時点でのリスク関数の値の表です。 このオプションの構造はより複雑で、前のオプションよりも解釈が難しくなりますが、同時により多くの情報を提供します。



出力形式を変更するには、モデルの品質を評価する別の方法が必要です:ポジティブな例(エピソードが発生した場合)のリスクレベルがネガティブな例(エピソードが発生しない場合)よりも高いことを確認する必要があります。 これを行うには、遅延サンプルのリスク関数の予測分布ごとに、値の表から1つの値(最大値)に移動します。 ポジティブな例とネガティブな例の中央値を数えると、それらは確実に異なることがわかります:それぞれ0.13対0.04。



次に、これらの値を使用してROC曲線を作成し、その下の面積(ROC AUC、0.92)を計算します。これは、解決する問題に受け入れられます。



おわりに



したがって、生存分析は、問題のすべてのニュアンスと利用可能なデータを考慮に入れて、医学的エピソードを予測する問題を解決するための最良のアプローチであることがわかりました。 ただし、そのアプリケーションは、モデル出力データの異なる形式とその品質を評価するための異なるアプローチを意味します。



白内障手術のエピソードの予測にCoxPHモデルを適用すると、許容可能なモデル品質指標を達成できました。 同様のアプローチは他のタイプのエピソードにも適用できますが、モデルの特定の品質指標はモデリングプロセスでのみ直接評価できます。



文学



[1] ICD-10臨床修正en.wikipedia.org/wiki/ICD-10_Clinical_Modification

[2] Healthcare Common Procedure Coding System en.wikipedia.org/wiki/Healthcare_Common_Procedure_Coding_System

[3]生存分析en.wikipedia.org/wiki/Survival_analysis

[4] GloVe:単語表現のためのグローバルベクトルnlp.stanford.edu/projects/glove

[5] C-Statistic:定義、例、重み付け、および意義www.statisticshowto.datasciencecentral.com/c-statistic

[6] VC Raykar et al。 生存分析のランキングについて:コンコーダンスインデックスの範囲papers.nips.cc/paper/3375-on-ranking-in-survival-analysis-bounds-on-the-concordance-index.pdf



All Articles