LiveJournal Top1000の統計

今日のRunetのブロゴスフィアは何ですか。 あなたは私に同意しないかもしれませんが、私の意見では、人々が「ブロゴスフィア」という言葉で理解しているものの80%がLiveJournalのRunetに置かれています。 はい、Yandexは多数のブログサイトをインデックスに登録しています。LiveInternetとdiary.ruがあり、mail.ruにもブログがあります。 そして、はるかに。 しかし、LiveInternetのブログで注目に値する何か面白いものを読んだときに思い出してみてください。 mail.ruブログに何かありますか?



LiveJournalでは、ボールが千人(最近では1万人)に支配されていることはよく知られています。

よく見てみましょう、彼らは誰ですか、Runetのトップブロガーですか?



急いで、 LiveJournal評価によると、「友だち」という基準で最初にプロファイルを作成したロボットを1,000人のブロガーに投げました。 いわゆるYandexの権限評価もありますが、今日は悲しいことについて話しましょう。



ロボットは個人データを収集し、それらを共通のヒープに慎重に積み重ねました。 ロボットコードはC#で記述されており、不必要な技術的詳細に煩わされることはありません。すべてが非常に単純で簡単です。

そして1000回。



以下は、ページのURLを入力として受け取り、ページのHTMLを文字列として出力する関数コードです。 これで、通常の文字列関数で解析するか、RegExpを使用できます。



private string GetPageByURL( string strURL)

{

try

{

// used to build entire input

StringBuilder sb = new StringBuilder ();



// used on each read operation

byte [] buf = new byte [8192];



// prepare the web page we will be asking for

HttpWebRequest request = (HttpWebRequest)

WebRequest.Create(strURL);



// execute the request

HttpWebResponse response = (HttpWebResponse)

request.GetResponse();



// we will read data via the response stream

Stream resStream = response.GetResponseStream();



string tempString = null ;

int count = 0;



do

{

// fill the buffer with data

count = resStream.Read(buf, 0, buf.Length);



// make sure we read some data

if (count != 0)

{

// translate from bytes to ASCII text

tempString = Encoding .GetEncoding( "UTF-8" ).GetString(buf, 0, count);



// continue building the string

sb.Append(tempString);

}

}

while (count > 0); // any more data to read?



return sb.ToString();

}

catch (Exception ex)

{

return "" ;

}

}




* This source code was highlighted with Source Code Highlighter .








ループでページを調べます:

www.livejournal.com/ratings/users/?page=1

...

www.livejournal.com/ratings/users/?page=50



上記の関数の助けを借りてそれらをポンプで送り、文字列のようにそれらを実行し、ArrayListでユーザーとその「友達」の名前を収集します。



1000人のリストを取得します。 次に、ループでそれを調べ、http:// [ユーザー名]。Livejournal.com / profileページに移動し、他の変数のエントリに解析します。



その後、すべてをデータベース、ファイルに書き込むか、単にページに配置し、そこからExcelでペンでコピー&ペーストします。



LiveJournalが私のロボットに不快感を与えないように-呼び出しの間に大幅な遅延を設定します。 そのため、プロセス全体に1日以上かかりました。ロボットの作成、テスト、作業、結果のフォーマットです。 私は、PHPではすべてのことを1時間半の画面と2時間でコードを管理できることに同意しますが、。



結果はそのようなタブレットです。





ユーザー の友達 友だち 市区町村 地域 仕訳 総コメント 作成日 最終更新 アカウントの種類
ドラッグイ 69145 749 モスクワ ノルウェー 13,188 1,698,002件のコメントの受信、66,105件のコメントの投稿 2002-03-02 1時間前 永久口座
てま 68601 24 サウスパルミラ ロシア連邦 3,638 2,049,489件のコメントの受信、6,880件のコメントの投稿 2001-09-04 4時間前 永久口座
ナバルニー 52840 10,000 モスクワ モスクワ ロシア連邦 2,306 957,191件のコメントを受信、14,365件のコメントを投稿 2006-04-19 3時間前 有料アカウント
セルゲイドリヤ 51964 1991 870 243,261件のコメントの受信、28,394件のコメントの投稿 2007-11-09 1日前 永久口座
pesen_net 48525 202 リガ ロシア連邦 187 53,083件のコメントの受信、10,084件のコメントの投稿 2007-04-22 6週間前 有料アカウント
ジャアルト 35617 384 モスクワ モスクワ ロシア連邦 1,619 246,360件のコメントを受信、11,344件のコメントを投稿 2006-07-26 22時間前 有料アカウント
ドルボエブ 33820 1942 モスクワ ロシア連邦 8,335 522,484件のコメントの受信、38,400件のコメントの投稿 2001-02-06 58分前 永久口座
ベロニカ 33151 4604 781 208,475件のコメントの受信、36,079件のコメントの投稿 2008-09-08 6時間前 有料アカウント
eprst2000 31454 11 モスクワ時間 モスクワ ロシア連邦 460 46.324件のコメントを受信、3,724件のコメントを投稿 2002-08-22 1週間前 有料アカウント
tebe_interesno 29831 612 モスクワ モスクワ ロシア連邦 547 31,679件のコメントの受信、8,823件のコメントの投稿 2007-06-25 10週間前 有料アカウント
mi3ch 29827 738 モスクワ モスクワ ロシア連邦 6,930 374,776件のコメントを受信、44,883件のコメントを投稿 2003-04-03 2時間前 永久口座
シュピレノク 29637 119 ブリャンスク州 ロシア連邦 303 57,348件のコメントの受信、4,461件のコメントの投稿 2009-01-11 6時間前 有料アカウント
ジグン 26081 29日 188 22,301件のコメントの受信、8,626件のコメントの投稿 2002-04-28 5週間前 有料アカウント
マントラボックス 25572 373 ロシア連邦 2,915 60,720件のコメントの受信、17,850件のコメントの投稿 2002-12-29 1週間前 有料アカウント
オレギンコフ 25291 11 モスクワ ロシア連邦 638 137,481件のコメントを受信、6,277件のコメントを投稿 2009-02-21 18時間前 有料アカウント
ラデュロバ 24682 595 モスクワ ロシア連邦 8,622 874,385件のコメントの受信、31,657件のコメントの投稿 2004-11-14 1時間前 有料アカウント
タンタン 24282 199 318 67,802件のコメントの受信、6,868件のコメントの投稿 2007-12-14 2週間前 プラスアカウント
スティラビン 23615 1703 モスクワ モスクワ ロシア連邦 1,299 311,283件のコメントの受信、18,247件のコメントの投稿 2006-08-23 3日前 有料アカウント
ムザドルノフ 22568 80 モスクワ ロシア連邦 161 62,221件のコメントを受信、136件のコメントを投稿 2009-09-15 3日前 プラスアカウント
ミミオー 21495 47 ベルリン ドイツ 2,957 163,632件のコメントの受信、13,520件のコメントの投稿 2002-02-27 1時間前 有料アカウント




...

テーブル全体(および高さも幅も)はhabratopikに収まりませんでしたが、1000エントリの完全なファイルはGoogle Docsにあります。 データは現在2011年7月21日、数か月、さらには6か月間であり、大幅に変更されることはほとんどありません。



誰でもこのデータを自由に自由に使用することができますが、いくつかのチャートとグラフを作成することに抵抗はありませんでした。



通常の列の上下のソートでも、興味深い詳細を観察できます。



たとえば、友人の数でレコードを並べ替えると、ほとんどの友人が [情報] navalny 、10,000人(ただし、LJの通常の人間の制限は5,000人の友人ですが)、および特定のユーザー [情報] inexiには20624個あります。



または、たとえば、ブログエントリの数で並べ替えます。 もちろん、それらのほとんどを構成しました。 [情報] cypa 、まあ、他に誰? 2003年以来、彼は43.390件の記録を残しています。



そして、逆のソートをすると、すぐに好奇心の強いボットが見つかります- [情報] blog_d_medvedev 。 2009年の作成以来、この疑似ユーザーは単一のブログエントリを作成していませんが、5816人が友人として追加しています。 明らかにある種のロボット、明らかに間違った手にあるおもちゃ。 muhlezhなしでは実現できませんでした-frendomarathons、評価のまとめ、投票結果の投票リギングはすべてのものです。



並べ替えを続けると、TOP1000に入った最も古いブログが2000年3月31日に作成され、3か月前の最も若いブログが今年の4月に作成されたことがわかります。



また、TOP 139 Basic Account(Basic)、560 Paid Account(Paid)、15 Permanent Account(Permanent)、284 Plus Account(Improved)、1 Early Early Adopter(そして、これは一体誰ですか? [情報] Billycorgan-彼がアメリカに住んでいて英語で書いている場合、彼はロシアのトップで何をしますか?)



結局のところ-最初の1000にはそれほど多くの有料アカウントはありません。半分以上がちょうどです。









または、たとえば、国別の内訳:





要するに、アナリスト、統計学者、あらゆるものを宣伝するさまざまな専門家、およびその他の好奇心lo盛なローファーのための多くの仕事を考えることができます。



最初はこのサービスをオンラインにし、絶えず更新することを考えていましたが、その後、LJサーバー(より正確にはさらに多くの)への1日1,000回のリクエストに対して、頭に私のロボットを叩かないと決めました。 したがって、1回限りの統計情報に制限されます。



統計ファイルの配布は歓迎されていますが、制限的な著作権は提供されていません。



UPD:ユーザーがGoogleドキュメントの列を並べ替えることはできるが、結果を変更できないようにする方法を教えていただければ幸いです。 データ自体を歪めます。

いずれの場合でも、ファイルは[ファイル]メニューの[Excelとしてダウンロード]からコンピューターに保存でき、Microsoft Officeの自宅で好きな場所に並べ替えることができます。



All Articles