カーシェアリング業界でのスコアリングの仕組み。 パート1.実際のデータに関する一般的なツールの概要

カーシェアリングは、その若さにもかかわらず、ロシアの自動車ビジネスで最も活発に発展している分野の1つです。 最初の会社が設立されてから5年が経過し、現在では、短期リースを専門とする25以上のオペレーターが市場で働いています。 カーシェアリングの発展に伴い、ユーザーデータが蓄積され、現在、銀行と同様にカーシェアリングには特定の顧客スコアリングシステムがあります。 また、年齢、性別、運転経験にも依存しますが、これはローンの履歴ではなく、旅行の履歴です。 そのようなスコアリングの目標の1つは、ソルベンシー、運転免許証の検証、罰金に加えて、特定の運転者の事故の可能性を予測することです。







この記事では、年齢と運転スタイルのみに依存するカーシェアリングユーザーのスコアリングアルゴリズムの操作のロジックを分析します。 これらのパラメーターに加えて、より正確な結果を取得するために、社会的地位、子どもとの旅行、ソーシャルネットワークでの活動、車内のカメラからの情報などを使用できます。 ただし、今日は2つの基本的なもの-年齢と運転スタイルに焦点を当てます。



この記事では、50,000人のユーザーと260,000回の旅行のアクティビティを例に採点のロジックを示します。 すべてのデータは匿名化されました。 さらに、モスクワとモスクワ地方で発生した220件の事故に関するデータを使用しました。





カーシェアリングにおいて、車は利益を生み出す手段であり、さらに、クレジットマネーで購入します。 このアプローチでは、ダウンタイムを回避し、可能な限り効率的に使用することが重要です。 そして、自動車が事故に遭った場合、保険会社との事務処理、承認、スペアパーツの注文、および実際の修理には、数日から数か月というかなりの時間がかかります。 スコアリングにより、潜在的な事故を予測的に特定し、それに基づいて、安全でない運転のリスクについて顧客にフィードバックを提供できます。



カーシェアリング事業者にとって、財産を保存し、それでお金を稼ぐことが重要です。 このように、カーシェアリングプラットフォームは、単に車とそれで何が起こっているかについてのすべての可能な情報を収集する義務があります。 各旅行について、カーシェアリングカーはテレマティクスデータを収集します-間隔が1秒以下のトリップポイントと、これらのポイントの車のインジケーター(速度、回転、加速度、ドアおよび窓の状態など)。



年齢





カーシェアリングオペレーターと契約を結ぶ際、ドライバーは年齢と運転経験を示さなければなりません。 これらのデータに基づいて、次のヒストグラムを作成できます。





図1.ユーザーの年齢



図1は、カーシェアリングユーザーの年齢の棒グラフを示しています。 横軸はユーザーの年齢、縦軸はユーザーの数、破線は中央値30年を示しています。 それは正規分布のように見え、25、30、35歳のユーザー数の急激な増加です。



次に、事故の犯人によって特定されたユーザーの年齢の分布を検討します。



図2.事故のあるユーザーの年齢



図2は、交通事故のユーザーの年齢の分布のヒストグラムを示しています。水平-ユーザーの年齢、垂直-ユーザーの数です。 繰り返しますが、破線は中央値26年を示しています。 したがって、26歳未満のユーザーは、交通事故の原因となっている他のユーザーよりも多いことが明らかです。



ヒストグラムによると、事故の半分は、4分の1のユーザー(26歳以上のユーザー)のグループが原因で発生しました。 同様に、全体の半分を占める30歳以上のユーザーグループは、事故の4分の1しか発生しませんでした。



したがって、26歳以下のユーザーの事故の可能性は30歳以上のユーザーの4倍であることがわかります。これは、カーシェアリングオペレーターの側から若いユーザーグループにさらに注意を喚起します。 多くのオペレーターの年齢要件が18歳ではなく21歳で始まることは偶然ではありません。 カーシェアリングでは、経験豊富なドライバーをユーザー間で見たいと考えており、2年の経験があることを示して、未経験の若いドライバーを一掃します。



運転スタイル





運転スタイルはより複雑です。 現在、業界には、運転スタイルを決定するための確立されたモデルがあります。これは、急な加速とブレーキを計算するためのモデルです。 もっと詳しく考えてみましょう。





図3.車速の変化のグラフ。





時間間隔∆t≤3secの車両速度の場合。 ∆s≥15 km / h増加すると、この時間間隔で車は急激に加速します。 同様に、時間間隔が∆t≤3秒の場合。 車の速度は∆s≥15 km / h低下し、この時間間隔で車は急激にブレーキをかけます。 ∆tと∆sはモデルパラメーターであり、上方向と下方向の両方に変更できます。 たとえば、グラフ3は車両の速度の時間依存性を示しており、8秒から11秒の間隔で車の速度が20km / hから40km / hに急激に増加し、15秒から18秒の間隔で速度が60km / hから時速30km

Aはルートに沿った急加速の数、Bは急ブレーキの数です。 図4は、使用されたルートのサンプルでの合計A + Bの分布を示しています。





図4.急加速と急ブレーキの分布



旅行は15分、場合によっては5時間続く可能性があるため、スコアリングパラメータを選択するときは、旅行の時間または距離を考慮する必要があります。 Dは、キロメートル単位のルートの長さです。 ルートの1 kmあたりの急激な加速とブレーキの数を計算します。 ((A + B))/ D. 図5のヒストグラムに示されている非対称分布が得られます。左側の値は右側の値よりもはるかに速く減衰します。 残念ながら、ほとんどの統計的手法は、非常に歪んだ分布では機能しません。 このような場合、対数変換が通常役立ちます。これにより、多くの場合、非対称を対称に変換します。これにより、スケールをゼロ付近でストレッチできるためです。





図5.ルートの1 kmあたりの加速度とブレーキの分布



この関数を対数化すると、Log⁡(((A + B))/ D)が得られます。 その結果、分布は通常のものと非常によく似ています-図6。





図6. 1 kmの走行あたりの加速数と制動数の対数



この機能に基づいて、運転スタイルのスコアリングモデルが通常作成されます。 各ユーザーのすべてのルートで各機能を実行してみましょう。 ヒストグラム上図7。





図7.事故のある場合とない場合のユーザーの比較



青はすべてのユーザーの結果を示し、青の破線は中央値、赤は事故のあるユーザーの結果、赤の破線は中央値です。 事故のあるユーザーの結果は右にシフトしていることがわかります。 事故のあるユーザーは、移動の過程で急ブレーキをかけられ、加速されます。 ただし、変位は非常に小さく、実際、関数のこの値と事故に陥ったという事実との間に相関関係はありません。 ユーザーの平均的なパフォーマンスを考慮しますが、ユーザーが平均して安全に運転することは可能ですが、ときどき無謀です。 各ユーザーのLog⁡(((A + B))/ D)関数の最大値を使用して、事故のない旅行を検討してください。 結果のヒストグラムは図8です。破線は中央値を示しています。





図8.最悪のユーザー旅行



事故のあるユーザーの旅行のヒストグラムを追加します。また、事故が発生したユーザーの旅行も考慮しません。 結果のヒストグラムを図9に示します。青い破線は事故なしで旅行したユーザーの中央値であり、オレンジ色の破線は事故で旅行したユーザーの中央値です。 右に大きくシフトしています。 つまり この方法で事故を起こしたユーザーは、一般的なグループから際立っています。





図9.最悪のユーザージャーニーの比較



この方法に基づいて、スコアリングモデルを構築します。 モデルの結果を図10に示します。青はすべてのユーザーの結果、オレンジは事故のあるユーザーの結果を示します。 速度は0〜10で、0が最悪の結果、10が最高の結果です。 点線は、2つのユーザーグループのスコアの中央値を示しています。 同時に、事故のあるユーザーの平均速度は約4であり、すべてのユーザーは5です。事故のあるユーザーの80%は平均以下の速度を持っています。





図10.スコアリングの結果



通常、同様のモデルがテレマティックデータに基づいて運転スコアを計算する際に使用されます。 その結果に基づいて、プレミアムカーまたは一般的なサービスへのアクセスが制限される場合があります。 ただし、これはすべての場合に最適な唯一のものではありません。



この記事で説明されているモデルは、事故の予測には最適ではありません。 この記事では、カーシェアリングの現在のモデルについてのみレビューしました。 次の部分では、特に運転スタイル(速度変更スタイル、操縦など)に作用する運動エネルギーのモデルについて説明します。



投稿者:Kirill Kulchenkov、 kulchenkov32 、ビジネスコンサルタント、Bright Box



All Articles