調査:400以上の主要な人気サイトがユーザーセッションを記録しています。





最も人気のあるサイトや訪問したサイトには、ユーザーがアクセスしたページと検索バーに入力したクエリを記録するサードパーティの分析スクリプトがあります。 しかし、進歩はまだ止まっておらず、一部の企業はWebサイトでスクリプトを使用し、キーストローク、マウスの動き、さらにスクロールの方向さえもページのすべてのコンテンツとともに記録し、このデータをサードパーティのサーバーに送信し始めました。



一般的な統計情報を提供する従来の分析サービスとは異なり、これらのスクリプトは、まるで自分の肩越しにユーザーの行動を観察しているかのように、個々の表示セッションを記録および再生します。 高負荷の一部のサイトでは、クリックの瞬間と入力された各単語を記録するソフトウェアを実行しています。 このようなスクリプトは、再セッションスクリプトと呼ばれます。



このようなデータを収集するという目的は、ユーザーがWebページをどのように操作するかという質問に対する答えを見つけることと、曲がった作業ページを見つけることです。 ただし、そのようなスクリプトによって収集されるデータの量は、ユーザーの同意から予想される量よりもはるかに多くなります。 たとえば、サイトにアクセスしてフォームへの入力を開始してから拒否した場合、入力した情報は引き続き記録されます。 ランダムに貼り付けられたクリップボードの内容も書き込まれます。



企業は、顧客がサイトをどのように使用しているかを理解するために、セッション再生スクリプトに頼っています。 スクリプトはすべてのページで実行されるわけではありませんが、ユーザーが機密情報を入力するページに配置されることがよくあります。 たとえば、2013年にFacebookユーザー 、ソーシャルネットワークがステータスの更新と同様のことを行っていることに気付きました。レコードを公開していなくても、入力したメッセージを記録します。



ペンシルバニア大学スティーブン・エングルハート大学、グネス・アカール、およびアービンド・ナラヤナンの科学者は、この規模と合法性を評価しようとしました。 FullStory、SessionCam、SmartLook、UserReplay、Hotjar、Yandexなど、再セッションスクリプトを使用してユーザーの行動を調査する機会を企業に提供する最も人気のあるサービスの調査を実施しました。 結果は、これらのスクリプトの少なくとも1つが、世界で最も人気のあるAlexaが評価した50,000のサイトのうち482で使用されたことを示しています。



主要なスクリプト作成会社には、ボノボス小売チェーン、米国最大の薬局チェーンであるウォルグリーン、金融投資会社であるフィデリティが含まれます。 研究者は、482件の場合、すべてのサイトが取得できるわけではないことに注意しています。 これらのサービスの中には、すべての訪問者の行動の記録を提供するものではなく、統計的に重要な部分のみを提供するものがあります。 おそらく研究者が自動スキャンを実行したとき、彼らは不運であり、彼らはサンプルに落ちませんでした。



再セッションスクリプトを販売する企業は、Webサイトが機密コンテンツをエントリから除外できるようにする匿名化ツールを提供し、一部のユーザーはユーザーデータの収集を明示的に禁止します。 ただし、世界で最も人気のあるWebサイトの多くで再セッションスクリプトを使用すると、プライバシーに重大な影響があります。



スクリプトはパスワードを収集すべきではありませんが、パスワードが誤ってレコードに含まれることがあります。 これは、モバイルサイトで特に頻繁に発生します。モバイルサイトでは、通常の入力フィールドを使用して、パスワードで文字が表示されることがあります。 研究者は、他の個人情報もしばしば非個人化または完全に非個人化されていないことを発見しました。 セキュリティ対策は、分析サービスプロバイダーによって異なります。 UserReplayとSessionCamの2社は、すべてのユーザー入力を同等の長さのテキストに置き換え、FullStory、Hotjar、Smartlookはデフォルトで特定のタイプのフィールドの入力データのみを置き換えます。



ただし、これはキーボード入力だけの問題ではありません。 サイトにアクセスすると、画面に表示されるのは個人情報である場合もあります。 研究者は、どの企業もデフォルトで表示されたコンテンツの自動非個人化を提供していないことを発見した。 ユーザーの画面上のすべてがリークします。



たとえば、研究者たちはFullStoryのスクリプトを実行した薬局チェーンWalgreensのサイトをテストしました。 Walgreens.comはユーザー入力を匿名化しますが、情報(症状とレシピ)は、実際のユーザー名とともに再セッションスクリプトを使用して収集されます。





ウォルグリーンズでゾロフト抗うつ薬処方のリクエスト。 リクエストの作成時に、処方薬の名前はFullStoryスクリプトに含まれます。 ユーザー名、医師の名前、および投与量がここで置き換えられます(赤で強調表示)。 ただし、完全なユーザー名は別のダイアログ(この図には示されていません)で既にリークされているため、レコードにアクセスできるすべてのユーザーがこのレシピをユーザーのIDに関連付けることができます。





Walgreens Webサイトの特別なセクションでは、ユーザーは自分の健康履歴を記録できます。これには他のレシピが含まれる場合があります。 このプロセス中、ユーザーの個人情報および医療情報のほとんどは、手動の非個人化を使用してFullStoryスクリプトから除外されます。 しかし同時に、選択された薬と健康状態は上記のように保存されます。





アカウントを登録するプロセスで、Walgreensは、ユーザーに標準の質問セットを尋ねることによって身元を確認するよう要求します。 ユーザーの個人情報を表示できるこれらの質問に対する回答を選択するためのオプションがページに表示され、FullStoryに転送されます。 さらに、FullStoryマウストラッキング機能は、ユーザーの選択が非人格であっても、ほとんどの場合ユーザーの選択を表示します。 レコードにこのデータを含めると、ページ上部のステートメントとは矛盾します。「Walgreensはこのデータを保存せず、アクセスしたり回答を表示したりできません。」



最後に、調査の著者は、分析企業がサイバー攻撃の最愛の標的であると心配しています。 サイト所有者は、ダッシュボードでユーザーアクションを表示できます。 ただし、Yandex、Hotjar、およびSmartlookダッシュボードには、HTTPSページでのアクションなど、HTTPを介したユーザーアクションが表示されます。 さらに悪いことに、YandexとHotjarは、HTTPSコンテンツを含むページを含む、分析されたサイトのページのコンテンツをHTTP経由で配信します。 これにより、中間者攻撃の余地が残ります。



マザーボードのジャーナリストへの電子メールコメントで、Yandexのスポークスマンは 、会社が可能な限りHTTPSを使用しようとしていることを指摘し、将来の更新ではHTTP配信を除外すると述べました。 「セッションレコードはiframeを使用してサイトをロードするため、HTTPは意図的に使用されます。 残念ながら、HTTPSサイトでのHTTPコンテンツのダウンロードはブラウザレベルで禁止されているため、HTTPプレーヤーはこの機能のためにHTTPサイトをサポートする必要があります」と声明は述べています。



そのような監視に対する保護はありますか? 研究者は、EasyListおよびEasyPrivacyブロックリストへのサブスクリプションはFullStory、Smarlook、またはUserReplayスクリプトをブロックしないが、Yandex、Hotjar、ClickTale、およびSessionCamスクリプトがデータを収集することを防ぐフィルタリングルールを含むことを発見しました。 UserReplayを使用すると、企業はブラウザーにHTTPヘッダーを追跡しない機能があるユーザーのデータ収集をオフにできます。



2017年1月22日、午後1時35分現在の更新



Yandexの担当者からの追加:「実際には、ユーザーからMetricaにデータを配信するためにHTTPSのみを使用しています。 ここでは、Metric自体のインターフェースで訪問を再現することについて話しています。 この再生シナリオでは、HTTPSサイトからHTTPコンテンツをダウンロードする際のブラウザーの制限により、HTTPの使用を強制されます。 これも私たちを大いに心配させており、まったく異なるアプローチを使用し、HTTPSのみを行う予定の新しいバージョンを作成するためのドライバーの1つでした。」



All Articles