🧝 💱 🕍 Web分析：分析します！パート2.データ収集 🚯 🐰 🛳️

統計を分析する前に、統計の収集方法、不正確な可能性があるもの、およびその理由を理解する必要があります。

インターネット上のサーバーは、ユーザーのブラウザーからリクエストを受信し、データを送信します。各ページビューについて、サーバーは（ページ本文ごとに）1つの要求を受信し、次にいくつかの追加の要求（写真、スクリプト、スタイルシート、およびページを表示するためのその他の追加データ）を受信します。ページ上のスクリプトは、別の統計サーバーを含むサーバーへのリクエストを生成することもできます。

Webサーバーは、セッションを使用して同じユーザーからの要求を接続します。新しいユーザーがサーバーにアクセスすると、新しいセッション識別子が作成され、ページがリロードされるたびにサーバーに通知されます。通常、セッション識別子は、特定のサイト用にブラウザが保存できる変数ファイルであるCookieからサーバーに送信されます。

サーバーはユーザーについて何を知ることができますか？

まず、IPアドレス。これは通常、1つの目的にのみ使用されます。ユーザーがオンラインになった地域を見つけることです。ほとんどのプロバイダーは、各ユーザーのアドレスが常に変化するように構成されています。さらに、多くは単一の外部アドレスでネットワークを終了します。したがって、同一のアドレスは、同じユーザーがそれらを使用していることを意味するものではありません。
ユーザーがアクセスしているページのアドレス。
ユーザーが現在のページまたは「リファラー」に切り替えたページのアドレス。このデータは非常に便利です。たとえば、ユーザーが検索エンジンから来た場合、検索エンジンに入力したリクエストは以前のアドレスに保存されます。
リクエストの正確な時間。
ユーザーのブラウザの「コールサイン」は彼の識別文字列です。それから、どのブラウザがユーザーに人気があるかを理解し、検索ロボットからのリクエストを区別できます。
Cookie-サーバーが以前にブラウザーに記憶を「要求」したデータ。 Cookieは永続的（一定期間保存）およびセッション（ブラウザを閉じた後に削除される）にすることができます。これらには、変数と値の任意のセットが含まれます。
ブラウザーが渡す変数。

統計システムには主に3つのタイプがあります。 1つは「パッシブ」で、サーバーログの分析に基づいています。これは、サーバーに対して行われたリクエストの記録です。ユーザーがサーバーにアクセスするたびに、この要求に関する一連のデータをイベントログに書き込みます。通常、このようなログはサーバーが独自のニーズに応じて維持するため、統計情報の収集による余分な負荷はなく、単一のリクエストが考慮されないままになりません。ただし、必要なすべてのデータを取得するには、標準のサーバー構成では不十分です。

統計収集システムの2番目のタイプは、ユーザーが表示するページに追加のコードを追加し、統計システムに要求を行います。インターネットが若く、ブラウザが非常に愚かだったとき、写真はこれに使用されました。ページに画像を表示するために、ブラウザは統計サーバにリクエストを行いました。このサーバーは、すでにジャーナルに記録を作成してから、数字付きの写真を表示していました。それ以降、88 x 31サイズの「カウンターを吊るす」というルネットの伝統が始まりました。この方法は、誰にとっても最初の方法よりもほとんど悪く、サイト所有者がサーバーログにアクセスできないためにのみ使用されました。

あらゆる場所のブラウザーがJavaScriptスクリプト（ミニプログラム）の実行を学んだとき、外部カウンターははるかにインテリジェントになりました。 JavaScriptは、標準のクエリに加えて、画面の解像度と色、オペレーティングシステムのパラメーターなど、多くの新しいデータを統計システムに送信することができました。再びリファラーにアクセスし、訪問したサイトに代わってCookieを設定することができました。これにより、ユーザーセッションの追跡が簡素化されました。この種の最も人気のあるだまされたカウンターはGoogle Analyticsです！

JSの外部カウンターにも欠点があります。

-その助けを借りて、サイトからのファイルのダウンロードを追跡することは不可能です、

-完全にロードされたページへの遷移のみを記録します（そうしないと、コードを実行する時間がありません）。

-最新のブラウザとスクリプトを実行する権限が必要です。

-モバイルブラウザでは動作しません（Opera Miniおよび最新のスマートフォンを除く）。

-ユーザーアカウントのデータなどの内部「キッチン」のパラメーターを記録するために、これらすべてのデータをカウンターコードに抽出する必要があります。私たちが出会い系サイトについて話していると想像してみてください。それぞれのユーザーは多くのパラメータを持つプロファイルを持っています。プロファイルのさまざまなパラメーターを持つユーザーの動作を分析するには、プロファイルを要求に関連付ける必要があります。

このような困難な場合、サイト開発者自身が統計を記録するシステムを開発し、必要な機能をすべて追加します。このようなシステムの利点は、その無限の柔軟性です。これは主な欠点につながります：そのようなシステムのために手動のデータ分析ツールを書く必要があります。したがって、既製のシステムでニーズを満たす開発者は、それらを使用しようとします。

	サーバーログ	外部統計	自己申告の統計
セッション追跡	-（実装するのはかなり難しい）	+	+
すべての訪問を記録する	+	-（JSが有効でページが完全にロードされているブラウザのみ）	+
アップロードされたファイルの追跡	+	-	+
検索およびその他のボットの追跡	+	-	+
訪問を内部サイトデータにリンクする	-	-	+
他のサイトのデータとの比較	-	+	-
トランザクションと販売ファネルを追跡する機能	-	+	+
サーバー要求にならないイベントを追跡する	-	+	+

インターネットからの統計データを扱う際に覚えておくべき最初の、そして最も重要なこと：正確で完全なデータを取得することは非常に難しいことが多いです。メトリックがリストされているので、不正確さを明確にします。アナリストの重要なスキルは、重要な制限を重要でない制限と区別する能力です。

たとえば、JavaScriptに基づく外部統計システムは、セキュリティ上の理由で非常に古いブラウザまたはスクリプトが無効になっているユーザーに対しては機能しません。ほとんどの場合、これは許容範囲です。そのようなユーザーの割合は小さい（1パーセント未満）。ただし、従業員からJSを無効にする会社の企業イントラネットでデータを収集する場合、または無効なスクリプトを持つユーザーの割合を測定する場合、この方法はもはや適切ではありません。

統計収集システムの一般的な制限：

コンピュータの前に座っている人を追跡することは不可能です。ブラウザーのみを区別できます。
地域を正確に決定することは不可能です-ユーザーのIPに基づいて推測するだけです（ただし、ユーザーはリモートプロキシ、VPNなどを介してネットワークにアクセスできます）。たとえば、Opera Miniを介したモバイルインターネットのすべてのユーザーは、「ノルウェー」地域の統計システムによって記録され、リクエストはこの国の適応サーバーを通過しました。
ユーザーが別のコンピューターから来て、サイトでパスワードを入力しなかった場合、ユーザーを認識することは不可能です。
ファイアウォールがリファラーフィールドをフィルタリングした場合、またはメール、ICQ内のリンクをクリックした場合、広告から再印刷した場合など、ユーザーがどこから来たのかを判断することは不可能です。
ユーザーが特定の段階でトランザクションを完了したかどうかを判断することは不可能です（たとえば、ストアに電話するなど）。この問題は、他のオンラインストアの品質の有能な計算に影響を与えるものよりも重大であり、オフラインで追加の対策が必要です:(

標準の一般的なシステムでは、ほとんどの場合2番目の方法が使用されます。何よりもGoogleアナリティクスについてお話します。次のパートでは、ユーザーが利用できる主な指標について検討します。

Web分析：分析します！ パート2.データ収集

More articles:

Web分析：分析します！パート2.データ収集