背景
それはすべて私の読書habratopikaで始まり、私たちは独自のVKユーザー監視サービスを作成しています 。 ご存知のように、セッション中に行うことは何もないので、C#を学び、VKontakte APIに精通することにしました。
統計収集プロセス
すべてのIDが有効なわけではありません。一部のユーザーが削除され、美しい数字がブロックされました。 有効なIDのリストを取得するために、検索エンジン用に慎重に作成されたディレクトリを使用することが決定されました。
カタログの解析には、 Html Agility Packライブラリが使用されました。 このプロセスは非常に簡単であり、詳細に説明するポイントはわかりません。
2011年6月18日現在の有効なIDのリストには、139,132,951個のうち94,072,230個のIDが含まれています。つまり、 67.6%が有効です。
有効なID分布
(100万分の1からどれだけ有効か)したがって、有効なIDのリストがあり、そこからプロファイルを取得する必要があります。 これを行うには、https://api.vkontakte.ru/method/getProfiles(許可を必要とせず、1秒あたり3つの要求の制限を受けない数少ないメソッドの1つ)にuidsパラメーターを使用して要求を行います。 id(apiは1000を許可しますが、最近のユーザーのプロファイルを要求すると、要求されたアドレスが長すぎます)、およびすべての可能なフィールド(uid、first_name、last_name、nickname、sex、bdate、city、country、timezone、photo、
photo_medium、photo_big、photo_rec、contacts、home_phone、mobile_phone、education、
大学、university_name、faculty、faculty_name、卒業、レート、カウンター)。
1つのスレッドでリクエストを実行すると、100 kB / sのチャネルのみがロードされるため、実行を94個のストリームに分割しました。
当時、VKontakteサーバーが常に正しい答えを返すとは限らないことを考慮していなかったため、すべてのプロファイルが受信されたわけではありません。 しかし、エラーはプロファイルの0.3%を取得することで終わりました。これは統計に不可欠ではありません。
JSONで受信したプロファイルはすべて45 GBを占有します。
その後、これらすべてがJSON.NETを使用してテーブルにデシリアライズされ、結果は24 GBになりました 。
2年前にプロファイルを放棄した人やスパマーを含むすべてのアカウントの統計情報に関心がある人はほとんどいないため、すべてのアクティブユーザーのリストを取得することにしました。 これを行うには、20ストリームで周期的に(すべての10メガビット/秒のスコアを保証するために)750ユーザーの同じgetProfilesにリクエストを行いますが、今回はオンラインフィールドのみをリクエストします。 各反復で、前の反復でネットワーク上で見られなかったユーザーのリストを取得します。 この段階は、アクティブユーザーの大多数の獲得を保証するために、17日間(6月21日から7月7日まで、技術的な理由からそれ以上進めませんでした)延期されました。 チャネル幅が不十分であるため、各ユーザーは1時間半から3時間ごとにチェックされました。
日付別の新規アクティブユーザーの増加
日付別のアクティブユーザーの総数
ご覧のとおり、アクティブユーザーの成長は無視できるほど小さくなっています。
実際には、統計(アクティブなユーザー向け)
VKontakteのアクティブユーザーは29.93 %を占めています。
男性の名前の統計
名 | ホルダー | % |
---|---|---|
アレクサンダー(サーシャ、三亜、アレックス、三亜、アレックス、アレクサンダー、サーシャ、三亜、アレクサンダー) | 1106979 | 8.3% |
セルゲイ(セルゲイ、セルゲイ、セルゲイ、セルゲイ、セルゲイ、セルゲイ) | 755885 | 5.6% |
アンドレイ(アンドリー、アンドリューカ、アンドレイ) | 622105 | 4.7% |
アレクセイ(レッヒ、レッヒ、レッヒ) | 576573 | 4.3% |
ドミトリー(ディモン、ディマ、ディムカ、ディマン、ディマ) | 529432 | 4.0% |
ユージーン(ジェンヤ、ジェカ) | 417668 | 3.1% |
最大(最大) | 384803 | 2.9% |
ウラジミール(Vova、Volodya、Vovan) | 312799 | 2.3% |
イヴァン(ヴァニャ、イヴァン、イヴァン) | 288728 | 2.2% |
デニス | 275334 | 2.1% |
ローマ(ローマ、ローマ) | 245177 | 1.8% |
イゴール(イゴール) | 238341 | 1.8% |
マイケル(ミシャ、ミカ、ミシャ) | 234676 | 1.8% |
アントン | 233756 | 1.8% |
オレグ | 208195 | 1.6% |
パベル(パシャ) | 198175 | 1.5% |
Artyom(Tyoma) | 194117 | 1.5% |
ニコライ(コリャ、コリャン) | 180639 | 1.4% |
ユリ(ジュラ) | 158678 | 1.2% |
Vitaliy(Vitalik、Vitaly) | 152539 | 1.1% |
女性の名前の統計
名 | 所有者 | % |
---|---|---|
エカテリーナ(カティア、カテリーナ、カチューシュカ、カチューシャ、カチューカ、エカテリーナ、カテンカ) | 658746 | 4.8% |
エレナ(レナ、ヘレン、エレナ、レナ、レンカ) | 658212 | 4.8% |
オルガ(Olya、Olenka、Olga、Olka、Olga、Olga) | 653994 | 4.7% |
ジュリア(ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア、ジュリア) | 631431 | 4.6% |
ナタリア(ナターシャ、ナタリア、ナタリー、ナタリア、ナターシャ、ナタリア) | 628287 | 4,5% |
アンナ(アンヤ、アニウタ、アニュカ、アニエチカ、アンナ) | 605341 | 4.4% |
アナスタシア(ナスティーア、ナスティア、ナスティア、ナスティア、アナスタシア、ナスティア、ナスティア、ナスティア、ナスティア) | 597008 | 4.3% |
タチアナ(タンヤ、タンニュシュカ、タニュシャ、タンヤ、タンヤ) | 583525 | 4.2% |
イリーナ(イラ、アイリシュカ、イリンカ、イリーナ、イラ、イリシャ、イリーナ、イラ、イリーナ) | 540894 | 3.9% |
マリア(マーシャ、マリア、マーシャ、マーシャ、マーシャ) | 385851 | 2.8% |
スヴェトラーナ(スヴェタ、スヴェティック、スヴェトラーナ) | 365338 | 2.6% |
マリーナ(マリシュカ、マリーナ、マリンカ、マリシャ) | 329941 | 2.4% |
ビクトリア(ヴィカ、ヴィクリヤ、ビクトリア) | 269936 | 2.0% |
ダリア(ダシャ、ダーシャ、ダーシャ、ダーシャ、ダーシャ、ダーシャ) | 255681 | 1.8% |
アレナ(アレナ、アレンカ、アレンカ) | 223205 | 1.6% |
クセニア(クセニア、クセニア、クセニア、クセニア) | 201960 | 1.5% |
オクサナ | 179259 | 1.3% |
ユージーン(ジェンヤ、ジェネチカ) | 177853 | 1.3% |
アレクサンドラ(サーシャ、サーシャ) | 175563 | 1.3% |
ナデジダ(ナディア、ナディシュカ、ナデューシャ) | 168086 | 1.2% |
姓別の統計(男性と女性の組み合わせ)
姓 | ホルダー | % |
---|---|---|
イワノフ | 196474 | 0.70% |
クズネツォフ | 94237 | 0.34% |
スミルノフ | 92047 | 0.33% |
ペトロフ | 84133 | 0.30% |
ヴァシリエフ | 77683 | 0.28% |
ポポフ | 74980 | 0.27% |
ヴォルコフ | 53343 | 0.19% |
ミハイロフ | 51913 | 0.18% |
ノヴィコフ | 51508 | 0.18% |
ソコロフ | 50988 | 0.18% |
パブロフ | 50379 | 0.18% |
アンドレエフ | 49646 | 0.18% |
モロゾフ | 47689 | 0.17% |
アレクシーエフ | 46386 | 0.17% |
ロマノフ | 44027 | 0.16% |
マカロフ | 43505 | 0.15% |
ステパノフ | 43161 | 0.15% |
ニコラエフ | 43059 | 0.15% |
エゴロフ | 42537 | 0.15% |
ザハロフ | 40135 | 0.14% |
コズロフ | 40023 | 0.14% |
セルゲイエフ | 39925 | 0.14% |
ニキチン | 39483 | 0.14% |
ヤコブレフ | 38197 | 0.14% |
ザイツェフ | 37744 | 0.13% |
グリゴリエフ | 36063 | 0.13% |
レベデフ | 36052 | 0.13% |
オルロフ | 35822 | 0.13% |
アレクサンドロフ | 33149 | 0.12% |
クズミン | 32227 | 0.11% |
性別分布
ニックネーム/ミドルネーム
UPD:以下、「指定なし」とは「すべてのユーザーがアクセスできない」ことも意味します。
国の可用性
国別のユーザーの分布
各国のアクティブユーザー
国 | アクティブ | 合計 | % |
---|---|---|---|
ロシア | 6552115 | 32519338 | 20.15% |
ウクライナ | 1715898 | 8976390 | 19.12% |
ベラルーシ | 429023 | 1680113 | 25.54% |
カザフスタン | 152117 | 1088727 | 13.97% |
モルドバ | 50815 | 375172 | 13.54% |
アメリカ | 50501 | 416430 | 12.13% |
ドイツ | 45283 | 286761 | 15.79% |
都市の空室状況
都市ごとの統計
市区町村 | ユーザー | % |
---|---|---|
モスクワ | 893857 | 10.42% |
サンクトペテルブルク | 497324 | 5.80% |
キエフ | 238863 | 2.79% |
ミンスク | 148782 | 1.73% |
エカテリンブルグ | 129787 | 1.51% |
ノボシビルスク | 116443 | 1.36% |
ハリコフ | 105301 | 1.23% |
サマラ | 97530 | 1.14% |
ニジニ・ノヴゴロド | 94377 | 1.10% |
オムスク | 88284 | 1.03% |
アバターの可用性
携帯電話の可用性/有効性
( , "+()-
")
/
(UPD3: , )
% | ||
---|---|---|
120159 | 2,4855% | |
50500 | 1,0446% | |
«» | 28607 | 0,5917% |
25535 | 0,5282% | |
20842 | 0,4311% | |
19628 | 0,4060% | |
() | 18472 | 0,3821% |
17521 | 0,3624% | |
. | 16791 | 0,3473% |
. | 16226 | 0,3356% |
/
( , )
( 1941 2008)
, 1 , 1 .
— 69,23.
— , 01.01.1988, , , / , 69. (, )
- .
, . - : , , , ...
, . -
. , . , 10- ( ) 8,9 , 41 . — 10^24 , .
P.S.
Microsoft Excel.
.
UPD2: , , — 24.
UPD4: ( 02.10.11) .7z, — 4.6 .
«direct torrent link».
UPD5: (7 ) (8 ).