LiveJournalでは、ボールが千人(最近では1万人)に支配されていることはよく知られています。
よく見てみましょう、彼らは誰ですか、Runetのトップブロガーですか?
急いで、 LiveJournalの評価によると、「友だち」という基準で最初にプロファイルを作成したロボットを1,000人のブロガーに投げました。 いわゆるYandexの権限評価もありますが、今日は悲しいことについて話しましょう。
ロボットは個人データを収集し、それらを共通のヒープに慎重に積み重ねました。 ロボットコードはC#で記述されており、不必要な技術的詳細に煩わされることはありません。すべてが非常に単純で簡単です。
そして1000回。
以下は、ページのURLを入力として受け取り、ページのHTMLを文字列として出力する関数コードです。 これで、通常の文字列関数で解析するか、RegExpを使用できます。
private string GetPageByURL( string strURL)
{
try
{
// used to build entire input
StringBuilder sb = new StringBuilder ();
// used on each read operation
byte [] buf = new byte [8192];
// prepare the web page we will be asking for
HttpWebRequest request = (HttpWebRequest)
WebRequest.Create(strURL);
// execute the request
HttpWebResponse response = (HttpWebResponse)
request.GetResponse();
// we will read data via the response stream
Stream resStream = response.GetResponseStream();
string tempString = null ;
int count = 0;
do
{
// fill the buffer with data
count = resStream.Read(buf, 0, buf.Length);
// make sure we read some data
if (count != 0)
{
// translate from bytes to ASCII text
tempString = Encoding .GetEncoding( "UTF-8" ).GetString(buf, 0, count);
// continue building the string
sb.Append(tempString);
}
}
while (count > 0); // any more data to read?
return sb.ToString();
}
catch (Exception ex)
{
return "" ;
}
}
* This source code was highlighted with Source Code Highlighter .
ループでページを調べます:
www.livejournal.com/ratings/users/?page=1
...
www.livejournal.com/ratings/users/?page=50
上記の関数の助けを借りてそれらをポンプで送り、文字列のようにそれらを実行し、ArrayListでユーザーとその「友達」の名前を収集します。
1000人のリストを取得します。 次に、ループでそれを調べ、http:// [ユーザー名]。Livejournal.com / profileページに移動し、他の変数のエントリに解析します。
その後、すべてをデータベース、ファイルに書き込むか、単にページに配置し、そこからExcelでペンでコピー&ペーストします。
LiveJournalが私のロボットに不快感を与えないように-呼び出しの間に大幅な遅延を設定します。 そのため、プロセス全体に1日以上かかりました。ロボットの作成、テスト、作業、結果のフォーマットです。 私は、PHPではすべてのことを1時間半の画面と2時間でコードを管理できることに同意しますが、。
結果はそのようなタブレットです。
ユーザー | の友達 | 友だち | 市区町村 | 地域 | 国 | 仕訳 | 総コメント | 作成日 | 最終更新 | アカウントの種類 |
ドラッグイ | 69145 | 749 | モスクワ | ノルウェー | 13,188 | 1,698,002件のコメントの受信、66,105件のコメントの投稿 | 2002-03-02 | 1時間前 | 永久口座 | |
てま | 68601 | 24 | サウスパルミラ | ロシア連邦 | 3,638 | 2,049,489件のコメントの受信、6,880件のコメントの投稿 | 2001-09-04 | 4時間前 | 永久口座 | |
ナバルニー | 52840 | 10,000 | モスクワ | モスクワ | ロシア連邦 | 2,306 | 957,191件のコメントを受信、14,365件のコメントを投稿 | 2006-04-19 | 3時間前 | 有料アカウント |
セルゲイドリヤ | 51964 | 1991 | 870 | 243,261件のコメントの受信、28,394件のコメントの投稿 | 2007-11-09 | 1日前 | 永久口座 | |||
pesen_net | 48525 | 202 | リガ | ロシア連邦 | 187 | 53,083件のコメントの受信、10,084件のコメントの投稿 | 2007-04-22 | 6週間前 | 有料アカウント | |
ジャアルト | 35617 | 384 | モスクワ | モスクワ | ロシア連邦 | 1,619 | 246,360件のコメントを受信、11,344件のコメントを投稿 | 2006-07-26 | 22時間前 | 有料アカウント |
ドルボエブ | 33820 | 1942 | モスクワ | ロシア連邦 | 8,335 | 522,484件のコメントの受信、38,400件のコメントの投稿 | 2001-02-06 | 58分前 | 永久口座 | |
ベロニカ | 33151 | 4604 | 781 | 208,475件のコメントの受信、36,079件のコメントの投稿 | 2008-09-08 | 6時間前 | 有料アカウント | |||
eprst2000 | 31454 | 11 | モスクワ時間 | モスクワ | ロシア連邦 | 460 | 46.324件のコメントを受信、3,724件のコメントを投稿 | 2002-08-22 | 1週間前 | 有料アカウント |
tebe_interesno | 29831 | 612 | モスクワ | モスクワ | ロシア連邦 | 547 | 31,679件のコメントの受信、8,823件のコメントの投稿 | 2007-06-25 | 10週間前 | 有料アカウント |
mi3ch | 29827 | 738 | モスクワ | モスクワ | ロシア連邦 | 6,930 | 374,776件のコメントを受信、44,883件のコメントを投稿 | 2003-04-03 | 2時間前 | 永久口座 |
シュピレノク | 29637 | 119 | ブリャンスク州 | ロシア連邦 | 303 | 57,348件のコメントの受信、4,461件のコメントの投稿 | 2009-01-11 | 6時間前 | 有料アカウント | |
ジグン | 26081 | 29日 | 188 | 22,301件のコメントの受信、8,626件のコメントの投稿 | 2002-04-28 | 5週間前 | 有料アカウント | |||
マントラボックス | 25572 | 373 | ロシア連邦 | 2,915 | 60,720件のコメントの受信、17,850件のコメントの投稿 | 2002-12-29 | 1週間前 | 有料アカウント | ||
オレギンコフ | 25291 | 11 | モスクワ | ロシア連邦 | 638 | 137,481件のコメントを受信、6,277件のコメントを投稿 | 2009-02-21 | 18時間前 | 有料アカウント | |
ラデュロバ | 24682 | 595 | モスクワ | ロシア連邦 | 8,622 | 874,385件のコメントの受信、31,657件のコメントの投稿 | 2004-11-14 | 1時間前 | 有料アカウント | |
タンタン | 24282 | 199 | 318 | 67,802件のコメントの受信、6,868件のコメントの投稿 | 2007-12-14 | 2週間前 | プラスアカウント | |||
スティラビン | 23615 | 1703 | モスクワ | モスクワ | ロシア連邦 | 1,299 | 311,283件のコメントの受信、18,247件のコメントの投稿 | 2006-08-23 | 3日前 | 有料アカウント |
ムザドルノフ | 22568 | 80 | モスクワ | ロシア連邦 | 161 | 62,221件のコメントを受信、136件のコメントを投稿 | 2009-09-15 | 3日前 | プラスアカウント | |
ミミオー | 21495 | 47 | ベルリン | ドイツ | 2,957 | 163,632件のコメントの受信、13,520件のコメントの投稿 | 2002-02-27 | 1時間前 | 有料アカウント |
...
テーブル全体(および高さも幅も)はhabratopikに収まりませんでしたが、1000エントリの完全なファイルはGoogle Docsにあります。 データは現在2011年7月21日、数か月、さらには6か月間であり、大幅に変更されることはほとんどありません。
誰でもこのデータを自由に自由に使用することができますが、いくつかのチャートとグラフを作成することに抵抗はありませんでした。
通常の列の上下のソートでも、興味深い詳細を観察できます。
たとえば、友人の数でレコードを並べ替えると、ほとんどの友人が navalny 、10,000人(ただし、LJの通常の人間の制限は5,000人の友人ですが)、および特定のユーザー inexiには20624個あります。
または、たとえば、ブログエントリの数で並べ替えます。 もちろん、それらのほとんどを構成しました。 cypa 、まあ、他に誰? 2003年以来、彼は43.390件の記録を残しています。
そして、逆のソートをすると、すぐに好奇心の強いボットが見つかります- blog_d_medvedev 。 2009年の作成以来、この疑似ユーザーは単一のブログエントリを作成していませんが、5816人が友人として追加しています。 明らかにある種のロボット、明らかに間違った手にあるおもちゃ。 muhlezhなしでは実現できませんでした-frendomarathons、評価のまとめ、投票結果の投票リギングはすべてのものです。
並べ替えを続けると、TOP1000に入った最も古いブログが2000年3月31日に作成され、3か月前の最も若いブログが今年の4月に作成されたことがわかります。
また、TOP 139 Basic Account(Basic)、560 Paid Account(Paid)、15 Permanent Account(Permanent)、284 Plus Account(Improved)、1 Early Early Adopter(そして、これは一体誰ですか? Billycorgan-彼がアメリカに住んでいて英語で書いている場合、彼はロシアのトップで何をしますか?)
結局のところ-最初の1000にはそれほど多くの有料アカウントはありません。半分以上がちょうどです。
または、たとえば、国別の内訳:
要するに、アナリスト、統計学者、あらゆるものを宣伝するさまざまな専門家、およびその他の好奇心lo盛なローファーのための多くの仕事を考えることができます。
最初はこのサービスをオンラインにし、絶えず更新することを考えていましたが、その後、LJサーバー(より正確にはさらに多くの)への1日1,000回のリクエストに対して、頭に私のロボットを叩かないと決めました。 したがって、1回限りの統計情報に制限されます。
統計ファイルの配布は歓迎されていますが、制限的な著作権は提供されていません。
UPD:ユーザーがGoogleドキュメントの列を並べ替えることはできるが、結果を変更できないようにする方法を教えていただければ幸いです。 データ自体を歪めます。
いずれの場合でも、ファイルは[ファイル]メニューの[Excelとしてダウンロード]からコンピューターに保存でき、Microsoft Officeの自宅で好きな場所に並べ替えることができます。