エントリー
今日は、グラフ分析、データマイニング、サブグループの発見、その他すべての楽しいことと合わせて、Habrを見ていきます。 すべてのコードとデータが添付されています-誰もがそれらを個別に見て、記事から簡単に計算を繰り返し、自分で面白いものを見つけることができます。

(これは単に注目を集めるための写真ではありませんが、-45,000人のHabrユーザーがフォローしている接続のグラフ。頂点のサイズはサブスクライバーの数に比例します。すべての写真はクリック可能です。詳細は以下を参照してください)
議論中の問題は、もちろん昨日は発生しませんでしたが、それらの側面のいくつかは、かなり新しく、したがって、公平で代表的なデータに基づいた議論に値するように思われます。 たとえば、 この記事のコメントで、私は興味深い声明を見ました。
ここでの問題は、今日のハブ全体で、今日投票できるのは50〜80人しかいないことです。 ユーザーの90%が5以下のカルマを持っています。その結果、コメントと記事は選択されたものによってのみ評価されます。 これは、審査員がそのように出てくる方法です。
そして彼は、仮説の形でそれを定式化し、チェックする価値があると判断しました。
Q1: Habrが、2人半の人々が記事に投票するju審員ベースのコミュニティに変わったというのは本当ですか?
この記事では、「鉄」のハブが戻ってきて興味深いものになりましたが、Habr内のさまざまなコミュニティはどのように表されていますか? 仮説として定式化する:
Q2:コミュニティはどのようにセグメント化されていますか、より簡単に言うと、ここにはいくつの関心グループがあり、既存のハブに対応していますか?
最後になりましたが、それほど興味深い観察ではありませんが、Habréのアクティビティは減少しました(Habr-pulseと私の主観的な観察による)。 したがって、コミュニティの活動を評価し、コミュニティの構造に関する情報がどのように役立つかを検討することにしました。
Q3:コミュニティはどの程度活発で、内部グループの構造はどのように役立ちますか?
詳細については、猫へようこそ。
記事の構造
データ収集方法
ご存知のように、新しいバージョンのDuke Nukem ForeverはHabra APIで記述されているため、すべての興味深いデータを自分で収集する必要があります(実際、すべての興味深いデータが提供されるわけではありません)。 どのようなデータを収集する必要がありますか?
- ユーザーベース:すべての投稿を確認します(2 * 10 ^ 5から2.76 * 10 ^ 5までのすべてのIDをソートします)
- 個人データ:カルマ、評価、投稿など
- ユーザー間の関係(コミュニティ分析用):各ユーザーのフォロワーと各記事のハブに注意してください。
Habrには接続数に制限があるため、たとえば、すべての記事をN個のグループに分けて|| 解析する各マシンの4つのスレッドで。 すべてのデータはgithub HabraDataで収集されます(データ分析で修士号またはその他の卒業証書を作成する場合、特に突然ロシア語を使用する場合は、多くの興味深いものを見つけることができます)。
一般的な収集スキーム:

過去2年以上にわたってコメントを残したり、記事を書いたりしたすべてのユーザーが集まりました。 その後、禁止された人はフィルタリングされ、マイナスになりました。 並行して、記事、つまりどのハブに属しているかに関するデータが収集されました。 各実験で使用されるデータは、ストーリーの中で説明されています。
フィルターされていないユーザーリスト〜25kはここから入手できます 。また、以下の形式の主要なユーザーメトリックを持つフィルターされたデータセットがあります。
user,karma,rating,publications,comments,favourites,followers .... var_bin,3.0,0.0,1,18,6,1 varagian,187.0,26.0,20,151,86,44 varanio,55.0,0.0,3,51,24,6 varerysan,16.0,0.0,9,26,0,3 ....
: , , , etc
-
́ ~61% 10% , ( 20% , 10%) 20%.

: 50% 5 , 7500 .
, , .
( - y, «».)
— , , ́ ( , .)

( , , )
? , .

, :
:
,
,
-, , () . -, , , . Q3 .
, . :
- ,
- , ,
: - ( , hub, .. ) .
, v1 v2, v1 v2. .
:
user:follower1,folllower2,....
( Gephi) , ( Gephi). () 45 110 "".
Louvain ommunity Detection. , , .

, ( Q1 ). , .

. .

, ~10% . , ( "" ) . , , , . (, , .)
, , - . , ,

, , — . , (Louvain ommunity Detection).
,
; , "" . — ( )

( — )
. 10 , controllers ( ), " "

, , , . 15 "" -, 10 .
* Active -- ~25 * \ read only ~ 14 * 44k * : 104k * : 11.5k * : 4.7 * ~0 * : 528
, - .
( 2014 2015 ) , . . ) , Q1, ) , Q2.


, , , . , , , , , .