最近のトピックの1つで与えられたVkontakteの統計分析は、Yandex.Marketの売り手アカウントに関する私の調査の結果を投稿することを勧めました。
統計を収集する過程で、2011年7月4日時点で登録された21052個のアカウントが分析されました。 そして、ここで行われた作業の結果です。
注意トラフィック。
目標は何でしたか:
1. phpQuery、XPathを使用してサイトを解析する経験を得ます。
2. Yandex.Marketに登録されているアカウントの数を計算します。
3.販売者のWebサイトのアドレスを取得します(存在する場合)。
4. whoisからGoogle PR、Yandex TIC、Yandex VIC、Alexa LP、IPアドレスの可用性を確認します-created:およびpay-till:ドメインパラメーター。
5.収集された情報を分析します。
障害:
YandexからのIPアクセスを制限する問題に直面しました。 プロキシを介して解決する試みは失敗しました。 そのため、情報はさまざまなIPから部分的に収集されました。 ローカルプロバイダーのIP、友人のサーバー、ウクライナPEOPLEnetのインターネットトラフィックCDMAオペレーターを使用しました。 合計7つのIPが禁止されました。
進捗状況:
market.yandex.ru/shop-info.xml?shop-id=xxxなどのリンクをたどるボットが作成され、結果のコンテンツを分析しました。 Id値が0から68545に変更されました(7月4日の時点で、これは極端なアカウントでした。解析中に計算されます)。
例。 id = 155の下にはozon.ruがあり、サイトは名前で示され、id = 156の下には何もありません(無効なID)。
その結果、21052(31%)の有効な値が取得されました。
有効なIDのセットのうち、14220(68%)には問題のWebサイトアドレスがあり、残りは単に店舗または会社の名前でした:
ドメイン名分析:
異なるIDで211の重複サイトが見つかりました:
17重複-test.yandex.ru (それらの一部);
15重複-sotmarket.ru (その一部);
6重複-techhome.ru、teramir.ru;
5つの重複-assistavto.ru、kubanpc.ru、ulmart.ru。
4つの複製-dostavka.ru 、h2odesign.ru、kupitswimtraner.ru、originalam.net;
3つの複製-dsbw.ru、flamingo.ru、holodilnik.ru、kupithexbug.ru、superplayer.ru、techport.ru;
2重複-15サイト;
1重複-87サイト;
問題は、なぜ複数回登録するのですか? おそらく一般からの誰かが言うだろうが、実際には、これはあるべき場所である。
ゾーンごとのドメインの配布:
*注:その他はfm、eu、lv、am、cx、uz、lt、cc、ws、inです。
PR、TIC、VIC、Alexa LP、whois
サイトseop.ru 、Google PR、Yandex TIC、Yandex VICを使用して、10個のアドレスを置き換えることで決定しました。 結果はXPathを介して解析されました。
Google PRの各レベルのサイトの数:
*注:n / a-定義されていません。
Google PR 8-laptopshop.ru;
Google PR 7-ozon.ru、tehnotrade.com.ua、biblioclub.ru、shop.tut.by、s7.ru
Yandex TICの上位20サイト:
TOPがホスティング会社によって率いられていることは注目に値します。
Yandex TCIレベルが0〜100のサイトの割合は13205(94%)で、次のように分布しています。
各レベルのYandex VICのサイト数:
*注:n / a-定義されていません。
驚いたことに、レベル1のサイトはありませんでした。 これはおそらくウェブサイトの計算エラーです。 オープンソースから取得したデータを引用するだけです。
VIC 6-hw.ru、hosting.rbc.ru、sport.lgg.ru、hc.ru、ozon.ru、peterhost.ru、host.ru、3206080.ru、all-hotels.ru、host.ru
Alexa LPの上位20サイト(少ないほど良い)。 値はサイトから直接取得されました。
IPアドレスの存在は、php gethostbyname関数を使用して決定されました。
whoisのcreated:およびpayd -till:フィールドの存在は、 phpwhoisプロジェクトのオープンソースコードを使用して決定されました。
おわりに
これが統計です。 この研究の起源は、Yandex.Marketに登録されている人のフリーランスと関心に基づいて受信および実行されるタスクでした。 私は毎日新しい登録売り手が現れ、IDインデックスが成長していることに注意したいです。
提供された情報が有用であるか、少なくともあなたにとって興味深いものであることを願っています。 これが私の最初のトピックであり、IT記事を書く最初の経験です。 建設的な批判を受け入れ、この問題に関するあなたの考えを聞いてうれしいです。
ご清聴ありがとうございました!
PS
ユーザーのリクエストに応じて、アセンブルされたデータベースを含むファイルへのリンクを提供します。