
準備する
価値のある何かが出るまで、機械学習のトピックに3回出会った。
ロシアの学校
HSEで初めて機械学習に出会ったのは、ドードーで仕事を得たとき、ビッグデータシステムの方向に2番目の塔を取得したときです。 この巨大な誇大広告のトピックを接線で調べた後、私が3年間私の人生を過ごした理由をまったく理解していませんでした。 さらには、会社でこれがどのように役立つかについても考えていませんでした。 その時、私はこの運命に挑戦する準備ができていませんでした。
チェコ航海
プラハでこのトピックに出会った2回目は、Microsoftの閉鎖型機械学習ハッカソンでした。 他の会社の人たちと一緒に、私たちは休日やピーク時にドードーの需要を予測するタスクに取り組みました。 私は、需要を予測する既製のモデルで戻ってきました。 このハッカソンの後、私は会社で得た知識を応用できると考えられました。 そこにあった。
さて、Jupyterにモデルはありますか? 使い方は? これをビジネスに説明しようとする試みはすべて厳しい現実に直面していました。したがって、休日やピーク時に多くの注文があることは明らかです。 大人のピッツェリアは昨年のデータに基づいて売上を予測できますが、新しいピザはそれなしでは問題がありました。 機械学習の開発は延期しました。 しかし、データを使用してさらに多くのことができるという考えは頭にしっかりと固定されており、そこから抜け出したくありませんでした。 今、私は挑戦の準備ができていましたが、会社はそうではありませんでした。
アメリカンドリーム
3回目の会議は運命的になりました。 私たちのチームは、難しいが興味深い仕事を手に入れました。アメリカ向けにカスタマイズされたピザモジュールを開発することです。 これは、任意の材料セットでピザを注文し、独自のレシピを作成できる場合です。 データベースアーキテクチャの変更からサイト上のクライアントコードに至るまで、プロジェクトですべての作業を行う必要がありました。 私たちはこの課題に取り組み、真の勝利だと思う製品を開発しました。 主な評価は、米国のCEOであるAlenaのスラックになりました。

モジュールを実行しましたが、スケーリングに問題がありました。 機能が州内の1つまたは2つのピッツェリアではなく、大規模なネットワークに表示される場合はどうなりますか? そのような製品を管理し、在庫を計画する方法は? 私は、この事例がDodoでの機械学習の開発の必要性を証明できると判断しました。 今回、私も会社も新しい方向性を打ち出す準備ができていると感じました。
車と一対一
背景では、私はアメリカのカスタマイズされたピザの販売を分析し始めました。 クラスタリングアルゴリズムを使用すると、ユーザーが作成したすべてのレシピが、6つの基本的な成分セットといくつかのランダムな成分に基づいていることを示すことができました。 このアルゴリズムに基づいた簡単なレポートでさえ、半手動の売上予測と在庫計画を可能にします。 官僚主義の欠如と外出先で再建する能力のために、彼らは私たちにこの方向に従事し始めるための青信号を与えました。
テクニカルディレクターと私は、必要なことを示すために、現在のチームを離れて新しい方向性の開発に取り組む必要があることを何度も理解し、話し合いました。 速いペースで新しい領域に突入する必要がありました。 うまくいかない場合、2つの方法があることを理解しました。 1つ目は、別のDodoチームの開発に戻ることです。 2つ目は、HHで履歴書を更新し、新しい仕事を探すことです。 私はどちらか一方が欲しくありませんでした。 追加の販売モジュールに夢中になるまで、約3か月間この状態でした。
最初のプロジェクト
別のネタバレ:MLを実行するために複雑な何かにぶつかる必要がないことが判明しました。 明らかにそうではありませんか? しかし、旅の初めに理解することは非常に困難です。
追加の製品を注文に追加することを提案するモジュールは、誰も直接制御しません。 これは、私が彼とやりたいことは何でもできることを意味します。 Cherry on the cake-よりパーソナライズされたオファーで売り上げを増やす機会。 以前は、このモジュールは単純に機能していました。ピザが注文に追加された場合、飲み物のカテゴリが追加の販売で表示され、ピザと飲み物があれば、デザートなどが表示されました。
膨大な数の人々の無関心は、私が完全に誰でもサポートを提供できる会社で働いていることを再び示しています。 私は、マーケティングの同僚とデータや追加のオファーに時間を費やしました。 各グループがクラスター内のトップ製品に基づいて静的なオファーを行うために、味の好みと忠誠心に従ってすべてのユーザーをクラスター化することができました。
数字と証明
追加の製品のログ記録を台無しにして、200万人のユーザーのサンプルで新しいオファーを開始しました。
ユーザーのサンプルは、売上のほんの一部です。 許可されていない新規顧客に向けて移行する必要がありました。 Collaborative Filteringおよびユーザー向けのさまざまな提供アルゴリズムに関する十分な記事と文献を集めました。 バスケット内の製品に基づく推奨のアイデアが勝ちました。 アイテムベースの推奨事項と収束のコサイン測定値は、単純ではありますが、すでに機能している新しいモデルの基礎を形成しました。
12月に、アイテムベースの推奨モジュールを開始しました。 統計によると、顧客は実際に飲み物だけでなく、まったく異なる製品に興味があるかもしれません。 おそらくドードーは、データと機械学習の開発により、将来の過負荷の市場で競争できるようになると信じていたのでしょう。
いくつかの統計。

サイトのベストセラー製品10

ベスト10のモバイルアプリ製品

毎週の売上成長
テクニカルトレーラー
以下は、モデルが類似性の余弦測定に基づいている理由に関する技術的な詳細です。 これは記事のプレビューで、数か月後にリリースされます。 数学が気に入らない場合は、最後のセクションに進んでください。
以下の初期表は、各ユーザーの購入品の注文数を示しています。 あるユーザーの購入と別のユーザーの購入の類似性を判断できます。そのためには、ユーザーベクトル間の距離を計算する必要があります。

顧客売上表
距離は、選択したメトリックに依存します。 ユークリッド空間の計算には、ベクトルの重みと大きさが含まれます。

ここで、aとbはテーブルからの2つの異なるクライアントベクトルです。 この距離が抽象的な例でどのように見えるかを見てみましょう。
a、b、cの3人の顧客の履歴を見てみましょう。 購入のマトリックスを作成しましょう。

顧客間のユークリッド距離を計算すると、次の値が得られます。
d(a、b)= 16.22;
d(b、c)= 13.38;
d(a、c)= 13.64。
これらの値は、クライアントbとcが互いに最も近いことを示しています。 しかし、ソースデータを見ると、その逆です。 顧客aとbは、より多くのペパロニと他の製品を注文することを好みますが、顧客cは最高のピザを好みます。 ベクトルの大きさは、顧客間の距離の計算にマイナスの影響を与えると結論付けることができます。 類似性のコサイン尺度は、ベクトル間の角度を考慮に入れ、ベクトルの大きさの有意性を破棄します。

この式を使用して距離を計算すると、次のようになります。
d(a、b)= 0.9183;
d(b、c)= 0.5848;
d(a、c)= 0.7947;
クライアントaとクライアントbは互いに近いことがわかります。 注文数の違いを考慮せずに、1組の商品を好みます。 この論理は専門家の意見と一致しており、顧客aとbの嗜好は互いに最も近いことを示唆しています。
これは予告編で、詳細は2か月です。
を検索
現在、私たちはデータストレージの整理、機械学習モデルの開発、生産への投入の専門家がいるチームを編成する段階にあります。 しかし、最も重要なことは、なぜこのすべてが必要なのかをよりよく理解できることです。 インテリジェントロジスティクスシステムの整理や在庫計画から、Computer Visionテクノロジーを使用したピッツェリアの自動化に関する素晴らしいアイデアまで、私たちは本当にクールなことを自由に行えます。
結果が地平線上に見えなくても、あなた自身とあなたの強さを信じてください。 ミュンヘン大学の学生に対する彼のレポートからのマックス・ウェーバーの引用:「あなたは悲しみと期待で何かをすることはできません、そしてあなたは異なって行動する必要があります-あなたはあなたの仕事に目を向け、「今日の需要」を満たす必要があります」とても専門的に。 そして、誰もが彼自身の悪魔を見つけて、この悪魔に従い、彼の人生の糸を編むなら、この要件は簡単で明確になるでしょう。 あなたを見つけてください。