380万サイトへのトラフィックを見つける方法

そのため、seo11.ruで約100万のサイトのトラフィックを知っています。 データは、Liveinternet、Mail、Rambler、Openstat、Hotlogの評価から取得されます。 しかし、膨大な数のサイトがこれらの評価に参加しておらず、Google AnalystまたはYandex.Metricaによる出席を測定することを好みます。 アナリストにはオープンなインフォーマーがないため、データの受信は機能しません。 そしてMetricaにはそれがあります!



計画



1. Runetのサイトのデータベースを収集します。

2.メトリックコードを探しています。

3.メトリックインフォーマーが開いているかどうかを確認します。

4.開いている場合は、イメージを解析し、認識してデータベースに書き込みます。



解決策



1.最初に、RunetのすべてのWebサイトのリストを取得する必要があります。 最初の考えは、ru、su、ロシアのゾーンのすべてのドメインをバイパスすることです。 ただし、多くのロシア語サイトは国際的なドメインでホストされています。 Top Alexa 、Yandex.Catalog、およびDmozのロシア語セクションを回避することは可能ですが 、これらすべてが完全なベースを与えるわけではありません。 本格的なクローラーを作成する必要がありますが、リソースをひたすら評価して、代替オプションを探し始めました。



結局のところ、Runetのサイトを回避することは私の最初の必要ではありませんでした。 Keys.soの同僚に連絡することにしました。 独自のクローラーがあり、2,000万近くのサイトが分析されています。 キーワードやその他のSEOデータを収集するためのサイトをバイパスします。



2.したがって、2,000万サイトのデータベースがあります。 それらのメトリックコードを見つけることは残っています。 JSカウンターコードにはいくつかのオプションがあります。 yandexMetrikaIdで検索する場合、多くのサイトは特定されません。 たとえば、yandex.ru自体にはメトリックがありますが、yandexMetrikaIdはそれを検出しません。 yaCounterまたはYa.Metrikで検索した場合、dnevnik.ruなど、他の多くのサイトは検出されません。



最も正しいのは、シーケンス「mc.yandex.ru/watch/」、たとえば「mc.yandex.ru/watch/17969140」に注目することです。 したがって、17969140はサイトIDです。 したがって、Keys.soは3 846 867ドメインでMetricaを参照します。



3.サイトIDがわかっている場合、次の場所でインフォーマーの写真をリクエストできます。



informer.yandex.ru/informer/37616330/3_0_FFFFFFFF_FFFFFFFF_0_pageviews



上から下:ビュー、訪問、訪問者。 Yandex.Metrica設定でインフォーマが無効になっている場合、画像は次のようになります。



informer.yandex.ru/informer/17969140/3_0_FFFFFFFF_FFFFFFFF_0_pageviews



そのような情報提供者は、要求して認識しても意味がありません。 content-lengthを取得し、不要なものを除外するだけで十分です。



4. 380万のサイトのうち、情報提供者は100万をわずかに超えるサイトで開いています。 NodeJSを使用して解析および認識します。 解析には、 リクエストモジュールを使用してasync.queueキューを作成します。 オクラバイト OCRライブラリを使用して写真を認識します。



最初の問題:データはインフォーマーからわずか24時間で取得できます。 解決策は、23:55にインフォーマーをダウンロードすることです。 もちろん、実際のデータにはわずかな矛盾がありますが、これは何もないよりはましです。



2番目の問題:インフォーマーは、カウンター設定で選択された時間帯に従って00:00にリセットされます。 設定で選択されているタイムゾーンを確認する方法 まさか。 したがって、インフォーマーを1時間ごとに事前解析し、いつリセットされるかを確認する必要があります。



以上です。 作業の結果は、 seo11.ruで入手できます



All Articles