ハブラクラン

約1ヶ月前、私はhabrcottasに関する記事をhabrで公開しました 。 この記事の副産物は、ユーザーのページのダンプであることが判明したため、さらに情報を抽出したかったのです。 ユーザー 分析記事コメントカルマ に関する記事は定期的 habrに表示さますが、習慣を分析するための記事は1つも見つかりませんでした。 したがって、habrainweightsのグラフを作成し、その特性のいくつかを調べました。







ページは2016年1月にダウンロードされたため、その後に発生したすべて(新しいユーザーの登録、古いユーザーの削除、カルマの変更)は考慮されていません。 ダウンロードしたユーザーのリストからすべての読み取り専用ユーザーと非アクティブ化されたユーザーを削除すると、79870になります。私が知る限り、この数は実際のユーザー数(プラスまたはマイナス1000)にほぼ対応しています。 さらに、穴のないグラフを取得するには、955人の読み取り専用ユーザーと382人の非アクティブ化されたユーザーを追加する必要がありました(これらのユーザーは、何らかの理由でハブから酔っ払ったか、ROに転送されたユーザーです)。 その結果、81,207の頂点にグラフが表示されます。



Habrユーザーのリストを取得するのは簡単ではないことに注意してください。 ほとんどは数年前に入手したもので、ハブ加入者のリストがまだ利用可能でした。 しかし、現在そのようなリストはないため、2015年と2016年のユーザー名は、記事、コメント、既知のユーザーのページ、購読者リスト、特定の都市、国のユーザーリストから抽出され、頻繁に遭遇するユーザー名のプレフィックス(Alex * 、管理者*、キャプテン*など)とHabr検索ページで数千のリクエストを行いました。 また、giktaymsaとmegamindにアクティブユーザーを追加したので、リストに載っていない場合は、暗号化されています。



したがって、81207の頂点と20195のアークを持つ有向グラフがあります。 ご覧のとおり、他のユーザーからの招待に登録されたユーザーは約2万人のみで、残りは招待前に登録された(4万人以上)か、UFOによって招待されました。



ハブラクランは 、この有向グラフの弱い接続のコンポーネントと呼ばれます。 1人の人が何度も招待を受けることができるため、これらのコンポーネントは一般的にはツリーではないことに注意してください。 したがって、ループがあります。たとえば、@ tangroが@ Millaを招待し、@ Millaが@ tangroを招待しました。 ループ:たとえば、@ aavezelは自分自身を招待しました。 複数のアークを含む頂点:ユーザー@ sharaは6回招待されました(@ Deeman、@ myagi、@ homm、@ Azya、@ veveve、@ shifttstas)。 これらはすべて例外の可能性が高いですが、一般的にグラフは森のように見えます。



私たちのコラムには61021 habraclanがあります。 サイズの分布は次のとおりです。

コンポーネントサイズ 部品数
1001以上 1
101-1000 6
11〜100 436
2-10 3110
1 57468
最大のコンポーネントを見てみましょう。

いや 大きさ ルートピーク
1 1027 @ Davekeinz(412の招待を送信-ハブで他の誰よりも多く、このコンポーネントでも@ Mithgol、78の招待を送信)
2 584 @ Mudhoney(242人の招待状を送信)@ valemak
3 316 @ XaocCPS(65アイテム送信)
4 272 @ Alaunquirie(招待者@ BarsMonster、73人のユーザーを招待)@ kip
5 189 @ Deeman @ homm @ DorBer @ myagi @ Azya @ maovrn @ fil9 @ yoihj
6 106 @ロソマチン
7 104 @ガーヤン
8 97 @ Kukutz(Yandex.Component)
9 90 @ Eosunknown
10 85 @ Cigulev @ tyr
11 80 @ Mdevils
12 80 @ヌズグル
13 77 @ Ni404 @ tronix286 @ Rembish
14 77 @ティガー
15 76 @ガイダー
16 70 @オーレン
17 69 @ソルトムマイスター
18 68 @カラン
19 68 @アリサデニソワ
20 67 @ホースフ
以下は、これらの20のグラフの写真です。 緑の円-カルマが正のユーザー、赤-負のユーザー、青-ゼロのユーザー、灰色-読み取り専用または非アクティブなユーザー。 円の面積は、カルマ係数に比例します(この数値が1より大きい場合)。 すべての写真は、大きなバージョンへのリンクです。



habraclansの「高さ」も見てみましょう。 無視できる数のグラフをサイクルで破棄すると、dag_longest_path_length(G)は次の結果を返します。

最長チェーンの長さ 部品数
9 1
7 2
6 11
5 39
4 125
3 479
2 2888
1 57468
最も長いチェーンは、次のとおりです。 Odnoklassniki_ruと@ DarkDefenderを最終的に招待した人。



この分析は、ほとんどのハブラクランが小さく、小さな「高さ」を持つという期待と一致しています。



ユーザーがカルマを持っていることを覚えておいてください。 複合加算は、 habrに少なくとも450323.4単位の正のカルマがあることを示します。 (ちなみに、10,579人のhabraユーザーは10以上のカルマを持っているので、理論的にはこの記事で10,578プラスを得られます。)



どのhabraclansがカルマの最大の埋蔵量を持っているかを見てみましょう。

いや 合計カルマ ルートピーク
1 6184.4 @ Mudhoney @バレマク
2 5333.7 @ Davekeinz
3 4720.8 @ XaocCPS
4 3587.1 @ Alaunquirie @ kip(@ BarsMonsterこちら)
5 2464.5 @ Deeman @ homm @ DorBer @ myagi @ Azya @ maovrn @ fil9 @ yoihj
6 2390.1 @ Horsev(@ PapaBubaDiopおよび@ Milfgardはこちら)
7 1984.9 @ Cigulev @ tyr(@ Zelenyikotはこちら)
8 1780.2 @ Ni404 @ tronix286 @ Rembish
9 1606.1 @ Eosunknown
10 1526.9 ルートはなく、すべて@ tangro-@ Millaループで始まります
11 1319.3 @キット
12 1304.1 @オセロット
13 1299.5、 @オーレン
14 1104.5 @カラン
15 1009.1 @ロソマチン
16 985.5 @ Easy_john
17 932.3 @アッスリ
18 871.7 @ Sourcerer
19 845.2 @ルカサフォノフ
20 838.6 @ Mdevils
以下は、これまでに会ったことのないグラフの写真です。





また、一部のユーザーの場合、国は[差出人]フィールドのページに表示されます。 ユーザーによる上位の国はハブ自体にありますが、招待者と招待者が異なる国にいる招待状を見るのは興味深いものでした。 このような招待は、habrasocietyの「地理的」接続性を特徴づけます。



最初は、いわゆるを構築したかった。 コード図 、しかしPythonでこれを行う簡単な方法を見つけられなかったので、対応するマトリックスの左上隅を指定します。 (誰かが図の作り方を教えてくれたら、ありがたいです。)写真のボックスが青いほど、国1から国2への招待数の対数が大きくなります。



注目すべきは、ロシア、ウクライナ、ベラルーシ、米国、ドイツの接続性です。



招待に関連していないが、ユーザーページから簡単に抽出できるもう1つの情報は、登録日と最後の表示日です。 次の表に、特定の年に登録されたユーザーの数と、2015年1月1日からハブに表示されたユーザーの数を示します(それ以外の場合、ユーザーはhabraactiveでなくなったと考えられます)。

2006 3091 909
2007年 19433 5511
2008年 22031 6348
2009 6032 3094
2010 6826 3345
2011 9341 6355
2012 5841 4160
2013 4029 2819
2014 2684 2100
2015 1473 1473
合計 80781 36114
チャート形式でも同じです。





2007年と2008年に登録されたユーザーの半数、および多くの昔の人がアクティブであることがわかります。



それだけです ソースデータとグラフを描画するためのスクリプトを含むテーブルは、 githubで利用できます。 リクエストに応じて、生データを含むアーカイブを利用できます。



All Articles