現代のデータ科学の問題

画像



こんにちは、Habr! 最近、データによると雇用主と潜在的な科学者の期待は非常に異なっていることがますます頻繁に観察されています。 新しい開発に投資している同社は、主に投資収益率を期待しており、別のモデルは期待していません。 あらゆる種類のコースを修了したスペシャリストは、クリーンで明確なデータが入力されることを期待しています。出力では、品質メトリックを添付してモデルを提供したいと思います。 そして、それがプロセスにどのように組み込まれ、結果のモデルがどのように使用されるかを「マネージャーに理解させます」。 結果は、ビジネスと科学者の間の深byと誤解です。



実際、モデル自体はだれにも必要ありませんが、実際には非常に多くの日常的なタスクを処理する必要があります。



一般的な例を使用して(実際の生活との偶然の一致はすべてランダムです)、雇用主にお金をもたらすために克服しなければならない実際の困難を示したいと思います。 おそらく、その後、人々はより意識的にデータ分析に行き、同時にアルゴリズムに関する別の記事を勉強するのではなく、仕事に必要なスキルを身に付けるでしょう。



最も一般的な例から始めましょう。 大学を卒業し、機械学習に精通しており、xgboostが何であるか、意思決定ツリー、および単純な普通の人には理解できない他のアルゴリズムを知っていることを想像してください。 b2cの会社で働くようになります(たとえば、平均的な顧客チェックが定期的かつ長期間にわたって行われる大きな「c」で)、その主な目的は、本質的には、同じテレコムオペレーターなどのLTVを最大化することです。 そのようなビジネスの特性についての会議で話を聞いたことがある(「新しいクライアントを引き付けるよりも古いクライアントを維持する方が簡単」、「流出を管理することが重要」、「忠誠心とARPUの増加の間でバランスを取る必要がある」)流出モデルの改善/構築を提案されても驚かない。 結局のところ、これは本当に重要です-そのような企業では、ロイヤルティ(通常はNPSまたはLTを使用して測定されます)がそもそもです。 誰もがこれが重要であることを理解しています(ただし、独自の方法で)。



次に何が起こりますか? もちろん、頭の中のバイナリ分類に引き付けられ、xgboostを精神的に明らかにし、出力が明確な別の列(ターゲット変数と呼ばれる)とアルゴリズムの成功を判断する品質メトリックを持つ非常に大事なテーブルになるまで待ちます(ただし、あなた自身はおそらくroc-auc、精度、リコールなどのリストからメトリックを思い付くでしょう)。 しかし、これは起こりません。 流出が何であるかさえ明確ではないからです。 あなたは大学を卒業したばかりで、オペレーターで働いたことはありません。あなたにとって流出は「顧客が会社のサービスの使用をやめるとき」であるからです。 はい、機械学習アルゴリズムは普遍的であり、問​​題を解決できますが、企業が流出を管理する方法を十分に理解している(またはあまり良くない)者のみが正しく定式化できます(これがほとんどの作業です)。 たとえば、このノートの著者は、少なくとも数十(およびそのバリエーション)のアウトフロー定義を知っていますが、どの定義が最も正しい(そして誰にもわからない)かはわかりません。



さて、流出を決定したとしましょう。 そして、携帯電話会社のクライアントとは何ですか? 普通の人は、クライアントはクライアントであり、追加するものは何もないことを理解しています。なんて愚かな質問でしょうか? client_idを取得し、そこからサインをアンロードする必要があります。 しかし、事実、同社はN年目にMDMと呼ばれる大規模なプロジェクトを実行しており、クライアントをどのように考慮するかはまだ決定されていません。 また、電話番号から始まり、サービスアプリケーションまたは個人アカウント(複数の番号を提供できる)の番号で終わる、多くのものを数えることができます。 しかし、この場合もあなたが幸運であり、あなたが加入者として取ることができるものを教えてくれた控えめな従業員が会社で見つかり、待望の機能を安全にアンロードできると仮定します。



そして、ここであなたは、通信事業者が流出に影響するどんな種類のデータを持っているかを考えます-それらの詳細を見つけることなく偉大な科学者の記事を読んでください。 次に、「ある種のオラクル」のウィンドウからデータを着実にアンロードしているシニア仲間に尋ねます。具体的には、名前がわかっているが、その意味とカウント方法は「どこかにドキュメントがあるようです」 「ベンダーがそれを私たち全員に紹介したのはその時です-彼から残ったままです」。 機能の完全な理解が得られなかった場合(そうでなければ、あなたは雇われていただろう)、あなたは創造的な仕事に従事し始めます。 そして、ここであなたはあなたの最もクールなものが非現実的に複雑になり、困難は最も単純なものでさえ始まることがわかります。 たとえば、ARPU(=平均チェック)のようなよく知られている指標が流出に影響することは明らかであり、今度は再び先輩に行き、どこでそれをとることができるかを調べます-しかし、支払いがあることを知りました顧客)、しかし料金があります(請求を請求しました)。 理論的には、もちろん、これら2つの量は非常に似ているはずですが、理論上のみです。 支払いがより​​指標的なパラメーターであることは明らかですが、めったに発生しません。 ただし、料金は各トランザクションの後にほぼ「オンザフライ」で発生します。 そして、ほとんどの場合、それらは機能と見なされる必要があり、APRUスコアを考慮するのは彼女にとってです。



遅かれ早かれ機能を理解することは明らかです(むしろ、真実は同僚によって語られます)が、それらを機能させるには、同じオペレーターのCRMで5〜7年間働き、その本当の意味とそれらを数える方法を理解する必要があります。



そのため、機能を把握しました。 アンロード(ほとんどの場合、自分の手ではありません)。 それから、あなたは息を吸うことができますか(できませんか?)、今ではそれが同じ大切なテーブルだからです。 ここでは、いつものように、チャートを作成し(多くの場合-しません)、依存関係を調べ、モデルを訓練し、巨大なロックオーク、リコール、名声などのいくつかの数値を取得し、管理者に通知します。 「品質は100,500%でした」、「機械加工技術は機能します」、今度はジュピターノートブックを開発者に転送します。開発者はそれをすべて「生産中」に書き換えましょう。



しかし、すべてがそれほど単純ではありません。なぜなら、私たちが求めたことをしなかったからです。 結局のところ、ジュピターノートブックではなく、流出管理の効率を高めるように求められました。 読者はこれに反対します。まあ、だから-流出に行く可能性が最も高い人を予測し、最も不誠実な人を連れて行く-私たちは彼らに何かを提供し、それで彼らはそれを守った。 そのため、スキームは単純ですが、彼らが言うように、ニュアンスがあります。 そして、それは正確に企業が必要とするさらなる推論と行動であり、訓練されたモデルではなく、(後に判明するように)問題を解決しない可能性が最も高い。



実際、今作業は始まったばかりです。 たとえば、上記のスキームでは、「最も不誠実な人を引き留めて控えます」-ロジックは、仕事で働いている普通の人(=お金を失うことはありません)にとって優れています。 しかし、これまでに多数の潜在的な顧客を選択できるビジネスを行ったことがある人なら、1つの簡単なルールを教えてくれるでしょう。 そして、ここでは、すべてに固執する必要はまったくないが、最も価値のあるものだけを理解します(通常、彼らはCLTVについて多くの言葉を言います)。 これは、モデルを開発したターゲットセグメントが完全に制限されていることを意味します。おそらく、モデルをまったく構築する価値はなく、単にその中に含まれる人数を評価するだけでした。 簡単に言えば、最初に保持する必要のない人の数を理解しましょう。次に、個人のクライアントマネージャーに助けてもらうと有益であることがわかります。IVRはサポートとして誰かに申し訳なく感じます。モデルを不適切に構築します-そして、それらをすべて月に一度呼び出す方が簡単です。



さて、今、私は顧客を維持する方法を理解しています。 正直に言うと、このような多くの質問への回答や、多くの教科書の問題を解決するためのアプローチについて、より多くのテキストを書きたいと思います。 しかし、あなたがそれを説明すれば、それはほぼ全体の本になりますので、私はこれらの質問をここに残し、希望する人は個人的なメッセージを書くことができます





そのような質問に答えることは貴重です、他のすべてのためにxgboost =)があります



また、この技術を学校で教えています。



残念ながら、私たちの経験では、Kaggle競技会への参加や成功でも、産業上の問題の解決には役立たないことが示されています(プログラミングプログラミングのスポーツファンも同様の結論に達しました-ACMなどの競技会への参加は、産業用ソフトウェア開発とはほとんど関係ありません)。 さらに、この経験は試行錯誤によってのみ得られるものであり、本に記載されることは決してありません-私たちの講義でさえ、私たちが実践したすべての微妙さを伝えているわけではありません。



コースの開始日をお知らせします。





また、新しいコースがあります。 遠隔教育に関する多くの問い合わせを受けています。 これらの問い合わせに応えて、オンライン入門コースを作成しました。 このコースは、機械学習とデータ分析の入門書であり、一方でこれらの分野に精通することを可能にし、他方でコアコースの学生を準備します。



こちらの準備コースにサインアップしてください



PS記事の完全版はこちらから入手できます。



All Articles