Habrahabrの記事の引用グラフ

かつて、それは私にとって興味深いものになりました:Habréの記事はどのように相互接続されているのでしょうか? したがって、本日は記事の関連性を調査し、もちろん、数値メトリックを数えるだけでなく、全体像も確認します。









(これは単に注目を集めるための写真ではなく、Habrahabr内の記事の引用グラフであり、頂点のサイズは、入ってくるエッジの数、つまり「Habra内の引用数」によって決定されます)







それはすべて、 Habraグラフとカルマに関する記事へのコメントで TiberiusLoriowarが実際に空中に浮かんでいるアイデアを表明したという事実から始まりました。Habr内の記事で引用グラフを見てみませんか?















聞いた? 私たちには責任があります。 ストーリーが手の波にならないように、分析する質問を指定します。









猫の往来の下。 すべての写真はクリック可能です。







用語の簡単な説明:







ハブは多数のアウトバウンドリンクを持つ頂点であり、 「権限」は多数のインバウンドリンクを持つ頂点です。 接続性とは、頂点あたりの平均エッジ数(着信または発信)を意味します。 自己引用は、同じ著者の両方の頂点を持つエッジです。







記事の引用グラフ(Habr内)



記事の最初からグラフを取り、各クラスターと大きなピークを注意深く調べます。 記事のいくつかの興味深い「コミュニティ」を強調表示してタグ付けすることができました。

















残念なことに、投稿番号1:habrahabr.ru/post/1は純粋に技術的な理由(パーサーの不完全性)で多くの着信を受け取りました。実際、誰もそれを参照しませんでした。







残りのクラスターは非常に興味深いものです。たとえば、精神の中にはITストーリーのグループ全体があります。Grace“ Granny COBOL” HopperまたはTensor Algebraに関するいくつかの記事です。 合計で、95,000のピークと約5万のエッジがあります。 接続性は非常に低いです:平均して、1つの頂点には約1つのエッジがあり、すべてのポイントの約60%はHabréの他の記事に接続されていません-下の最後の図のグラフの周りの大きな密集した雲を参照してください







自己引用なしでカウント



ご覧のとおり、状況は大きく変化しており、多くのクラスターが消えています。 一般に、これは、ある著者による一連の記事が各記事のシリーズ全体へのリンクにより高い接続性を持っているという古典的なシナリオを反映しています。

















ただし、多くのクラスターがまだ残っています。 それらを詳しく見てみましょう。







「人気のある」クラスター



生き残った3つの最大かつ最も興味深いクラスターは、情熱的なプログラマー、KingPin、およびPeter Thielの講演の翻訳です。 シリーズの文書化を含む素晴らしいチームワーク! これは非常に興味深い肯定的な結果であり、コミュニティがかなり大規模で複雑な作業を調整し、リンクの整合性を維持できることを示唆しています。1つの記事を見つけた場合、常にシリーズ全体を抽出して見つけることができます。











マップハブ(発信エッジグラフ)



頂点の重みが着信エッジによって決定される「信頼できるソース」をすでに見てきました。今では、多数の発信エッジを持つ頂点を見ることができます。 そして、決定するために-どんな種類のハブがネットワークに存在するか。

















各ハブの影響度を考慮し、エッジを強調します。











それでは、これらのハブはどのようなハブですか?











ご覧のように、私たちは主に、Habré自体に関する興味深い資料のコレクションを含む投稿について話しています。 たとえば、Pythonで最も興味深いものや素材の上部​​。 確かに論理的なこと-発信リンクを格納するディレクトリには、外部リンクの数が最も多くなります(Habrの記事のすべてのレビューのメタレビューはどこにありますか?)







このグラフは、Pythonに対するコミュニティの愛情についても説明しています(理由がないわけではありません)。







着信/発信の見積もり数のリーダー



着信および発信を考慮せずに、残りの投稿(25以上のリンク)を考慮します(つまり、グラフを非指向と見なします)。

















リスト内のすべての記事は、ディレクトリ(トピックXの興味深いリンク)とシリーズの一部に分割できます。 よく見ると、前者はまさに私たちのハブであり、後者は当局です。







つまり、単にHabréですべてを積極的に引用した記事はありません(少なくともここでは、シリーズの記事よりも頻繁に引用されていません)。







著者の引用評価



著者に起因する記事の引用数を収集することも興味深いです。 評価を計算およびコンパイルする際に、自己引用は考慮されませんでした(このトピックには別の評価があります)。







最初の場所はかなり予測可能であることが判明しました-そして、広いマージンによって。







引用評価トップ30

1アリザー、743

2マーク、261

3 ilya42,202

4 MagisterLudi、202

5 lapyk、167

6 XaocCPS、144

7 SLY_G、131

8 frii_fond、127

9 grokru、124

10ドミトリカバノフ、118

11キチク、115

12ソール、101

13 itinvest、99

14ジェストン、97

15 ValdikSS、95

16ミスゴル、83

17アンドロ、76

18 UiDesignGroup、72

19 IT_invest、71

20アマラオ、70

21パイソン、69

22 esetnod32.66

23アレクサンドリット、66

24 azproduction、64

25ノキアマン、64

26 wiygn、63

27 NCNecros、62

28 FSBook、61

29 Boomburum、61







自己引用評価



この評価がおもしろいのは、主に他の著者の引用数と自分の引用数を比較できることを理解できるからです。 平均して、記事の引用数は通常の引用数を上回っています。 これは、個人記事の引用グラフの一貫性への重要な貢献も示しています。







これは、Habrの記事の一貫性に対する個人的な貢献であると考えることができます(この記事の著者は、この評価で26位(!)位になりました)。







自己引用評価

1 itinvest、541

2 SLY_G、526

3 MagisterLudi、469

4 1クラウド、424

5 esetnod32,415

6ポイントセキュリティ、410

7 maisvendoo、373

8 zag2art、365

9 ilya42,337

10 EvseyFaydo、302

11 lol_wat、270

12 frii_fond、264

13 1eq無限、258

14 alexzfort、229

15 XaocCPS、226

16アンドロ、226

17アリザール、222

18 khizmax、218

19 Boomburum、196

20ミスゴル、188

21 Milfgard、174

22イーグルソン、173

23ベデニン1980,168

24 OsipovRoman、161

25クーパーマスター、159

26ヴァラジアン、155

27 BBK、154

28 Irina_Ua、153

29ドミトリカバノフ、133

30 Unrul、131







再現性とオープンデータ



私は、研究の結果はすべて再現可能で再現性があり、読者にとってもアクセスしやすいものでなければならないと確信しています。 したがって、すべてのソースデータが記事に添付されます。







リンク: Habrahabrの引用 グラフと 自記の グラフ (Gephi)、およびHabrahabrのすべての記事のダンプ(2016年5月20日に収集)、およびHabrに関するその他の多数のおいしい興味深いデータ(特別に収集および削除)使用するには(卒業証書を書く場合、または実際のテキストまたは(半)構造化データが必要な場合に便利です)。







結論





結論の代わりに



アートを愛するために:頂点の重みとしてエッジを除外した引用グラフ








All Articles