機械学習-1.相関と回帰。 例:サイト訪問者の変換

約束どおり、「機械学習」に関する一連の記事を始めています。 これは、確率変数の相関や線形回帰などの統計からそのような概念に当てられます。 実データとモデルデータの両方を考慮します(モンテカルロシミュレーション)。



パート1.実際のデータ



より興味深いものにするために、ストーリーは例に基づいて構築されており、データとして(この記事および以下の記事で)ここから直接Habrから統計を取得しようとします。 つまり、1週間前にHabréに関する最初の記事を書きました (Mathcad Expressについて、すべてを数えます)。 そして今、10日間のビューに関する統計がソースデータとして提供されています。 グラフでは、これは一連のビュー、青い線です。 データの2行目(Regs、係数100)は、読み取り(Mathcad Prime配布キットの登録とダウンロード)後に特定のアクションを実行したリーダーの数を示しています。









たまたま、私は、記事を表示するための統計(Habrから)に加えて、Mathcadのダウンロードの統計にアクセスできました(記事の本文内で提供したリンクを介して)。 したがって、 コンバージョンなどのインターネットマーケティングの概念に対処するためのすべてが揃っています。 コンバージョンは通常、購入や登録などを完了したサイト訪問者の数の比率と呼ばれます。 訪問者の総数に。 たとえば、公開の初日、私の記事は5,000回閲覧され、20回のダウンロードがありました。 コンバージョンは0.4%でした。



すべての写真はMathcad Expressのスクリーンショットです(計算自体はここで取得 、繰り返し、必要に応じて変更して使用できます)。 手で初期データ(3つのベクトル)を入力しました。







変換の計算(%)は次のとおりです。「インスタント」(毎日)および「平均」(10日間)。 変換値が時間の経過とともに少し「浮動」すること(最初の日の0.4%から最近の準定常的な1%まで)は、それ自体で議論する価値があります(ランダムプロセスと相関時間については次の記事に延期します) )







ターゲットアクション(ダウンロード)の数がビューの数に依存するという明らかな事実は、Regs(ビュー)チャートによって明確に示されます。 ビューの数とダウンロードの数はランダムですが、それでも(ほぼ)線形の関係によって関係していることがわかります。







少し「学校」の統計:2つのサンプルビューとRegsの平均値、分散、相関係数の計算(定義による)。







最後の式は、相関係数の計算です。これは、2つの確率変数がどの程度依存しているかの尺度(より正確には、線形依存の尺度)です。 相関係数のサンプル値は0.97です。 これは非常に大きな問題です(偶然にも、問題の声明から驚くことではありません)。



最後に、数学的回帰の問題を解決します。一般的な場合、特定の関数f(x)によるデータサンプリング(x、z)の近似で、特定の方法で誤差f(x)-zのセットを最小化します。 f(x)= A * x + Bの場合、最も単純で最も一般的に使用される回帰タイプは線形です。 係数AとBは通常、二乗誤差の合計を最小化する条件から計算されるため、別の線形回帰は最小二乗法と呼ばれます。







ところで、最小二乗法(二乗誤差の合計を最小化する)は、回帰を構築するための唯一の可能なオプションではありません。 たとえば、中央値と中央値の線形回帰が使用されることがあります。



最後に、問題で回帰が必要な理由について。 ダウンロードのビューへの依存性の線形性を考慮すると、係数Aは変換を特徴付けるだけです。 それから判断すると、コンバージョンは0.005 = 0.5%です。つまり、たとえばマーケティング目標がある場合-ダウンロード数100に到達するために、線形回帰モデルに基づいて、サイトに100 / 0.005を「アップロード」する必要があります= 2万ビュー。



パート2.モンテカルロモデリング



最後の部分では、実験中に取得したランダムデータを操作しましたが、結論として、疑似乱数センサーを使用して同じ計算を繰り返します。 モンテカルロ法では、特定の相関関係を持つ乱数を作成することがしばしば必要です。 最初に、3つの擬似ランダム配列を生成します。xとyは独立しており、zはxに依存しています(相関係数rの「一般的な」値を使用)。







左側のグラフは、xとyの無相関のランダム値の依存関係を示し、右側のグラフは、相関のあるzとxの依存関係を示しています。



前のセクションと同じ式を使用して、サンプルx、y、およびzの統計特性(相関係数のサンプル値を含む)を取得します。







最後に、最小二乗法の式に従って、線形回帰z = A * x + Bを作成します。







興味のある読者には、パラメータrを実験して、その変更が依存関係z(x)にどのように影響するかを見てもらいます。 サンプルサイズNを変更して、統計的特性を計算した結果に従います。















参照:

  1. ビデオコース「機械学習」 (Yandex SHAD)
  2. ガレス・ジェームズ、ダニエラ・ウィッテン、トレバー・ヘイスティ、ロバート・ティブシラニ。 Rの統計学習の概要(PDF)
  3. トレバー・ヘイスティー、ロバート・ティブシラニ、ジェローム・フリードマン。 統計学習の要素(PDF)



All Articles