かつて、それは私にとって興味深いものになりました:Habréの記事はどのように相互接続されているのでしょうか? したがって、本日は記事の関連性を調査し、もちろん、数値メトリックを数えるだけでなく、全体像も確認します。
(これは単に注目を集めるための写真ではなく、Habrahabr内の記事の引用グラフであり、頂点のサイズは、入ってくるエッジの数、つまり「Habra内の引用数」によって決定されます)
それはすべて、 Habraグラフとカルマに関する記事へのコメントで、 TiberiusとLoriowarが実際に空中に浮かんでいるアイデアを表明したという事実から始まりました。Habr内の記事で引用グラフを見てみませんか?
聞いた? 私たちには責任があります。 ストーリーが手の波にならないように、分析する質問を指定します。
Q 1 :Habrahabrの引用グラフはどのように見えますか?また、ハブと当局は何ですか?
Q 2 :コミュニティ(引用グラフ)はどの程度つながりがあり、そのクラスターは何ですか?
- Q 3 :自己引用が削除された場合、グラフはどのように変化しますか?
猫の往来の下。 すべての写真はクリック可能です。
用語の簡単な説明:
ハブは多数のアウトバウンドリンクを持つ頂点であり、 「権限」は多数のインバウンドリンクを持つ頂点です。 接続性とは、頂点あたりの平均エッジ数(着信または発信)を意味します。 自己引用は、同じ著者の両方の頂点を持つエッジです。
記事の引用グラフ(Habr内)
記事の最初からグラフを取り、各クラスターと大きなピークを注意深く調べます。 記事のいくつかの興味深い「コミュニティ」を強調表示してタグ付けすることができました。
残念なことに、投稿番号1:habrahabr.ru/post/1は純粋に技術的な理由(パーサーの不完全性)で多くの着信を受け取りました。実際、誰もそれを参照しませんでした。
残りのクラスターは非常に興味深いものです。たとえば、精神の中にはITストーリーのグループ全体があります。Grace“ Granny COBOL” HopperまたはTensor Algebraに関するいくつかの記事です。 合計で、95,000のピークと約5万のエッジがあります。 接続性は非常に低いです:平均して、1つの頂点には約1つのエッジがあり、すべてのポイントの約60%はHabréの他の記事に接続されていません-下の最後の図のグラフの周りの大きな密集した雲を参照してください
自己引用なしでカウント
ご覧のとおり、状況は大きく変化しており、多くのクラスターが消えています。 一般に、これは、ある著者による一連の記事が各記事のシリーズ全体へのリンクにより高い接続性を持っているという古典的なシナリオを反映しています。
ただし、多くのクラスターがまだ残っています。 それらを詳しく見てみましょう。
「人気のある」クラスター
生き残った3つの最大かつ最も興味深いクラスターは、情熱的なプログラマー、KingPin、およびPeter Thielの講演の翻訳です。 シリーズの文書化を含む素晴らしいチームワーク! これは非常に興味深い肯定的な結果であり、コミュニティがかなり大規模で複雑な作業を調整し、リンクの整合性を維持できることを示唆しています。1つの記事を見つけた場合、常にシリーズ全体を抽出して見つけることができます。
マップハブ(発信エッジグラフ)
頂点の重みが着信エッジによって決定される「信頼できるソース」をすでに見てきました。今では、多数の発信エッジを持つ頂点を見ることができます。 そして、決定するために-どんな種類のハブがネットワークに存在するか。
ご覧のように、私たちは主に、Habré自体に関する興味深い資料のコレクションを含む投稿について話しています。 たとえば、Pythonで最も興味深いものや素材の上部。 確かに論理的なこと-発信リンクを格納するディレクトリには、外部リンクの数が最も多くなります(Habrの記事のすべてのレビューのメタレビューはどこにありますか?)
このグラフは、Pythonに対するコミュニティの愛情についても説明しています(理由がないわけではありません)。
着信/発信の見積もり数のリーダー
着信および発信を考慮せずに、残りの投稿(25以上のリンク)を考慮します(つまり、グラフを非指向と見なします)。
リスト内のすべての記事は、ディレクトリ(トピックXの興味深いリンク)とシリーズの一部に分割できます。 よく見ると、前者はまさに私たちのハブであり、後者は当局です。
つまり、単にHabréですべてを積極的に引用した記事はありません(少なくともここでは、シリーズの記事よりも頻繁に引用されていません)。
著者の引用評価
著者に起因する記事の引用数を収集することも興味深いです。 評価を計算およびコンパイルする際に、自己引用は考慮されませんでした(このトピックには別の評価があります)。
最初の場所はかなり予測可能であることが判明しました-そして、広いマージンによって。
1アリザー、743
2マーク、261
3 ilya42,202
4 MagisterLudi、202
5 lapyk、167
6 XaocCPS、144
7 SLY_G、131
8 frii_fond、127
9 grokru、124
10ドミトリカバノフ、118
11キチク、115
12ソール、101
13 itinvest、99
14ジェストン、97
15 ValdikSS、95
16ミスゴル、83
17アンドロ、76
18 UiDesignGroup、72
19 IT_invest、71
20アマラオ、70
21パイソン、69
22 esetnod32.66
23アレクサンドリット、66
24 azproduction、64
25ノキアマン、64
26 wiygn、63
27 NCNecros、62
28 FSBook、61
29 Boomburum、61
自己引用評価
この評価がおもしろいのは、主に他の著者の引用数と自分の引用数を比較できることを理解できるからです。 平均して、記事の引用数は通常の引用数を上回っています。 これは、個人記事の引用グラフの一貫性への重要な貢献も示しています。
これは、Habrの記事の一貫性に対する個人的な貢献であると考えることができます(この記事の著者は、この評価で26位(!)位になりました)。
1 itinvest、541
2 SLY_G、526
3 MagisterLudi、469
4 1クラウド、424
5 esetnod32,415
6ポイントセキュリティ、410
7 maisvendoo、373
8 zag2art、365
9 ilya42,337
10 EvseyFaydo、302
11 lol_wat、270
12 frii_fond、264
13 1eq無限、258
14 alexzfort、229
15 XaocCPS、226
16アンドロ、226
17アリザール、222
18 khizmax、218
19 Boomburum、196
20ミスゴル、188
21 Milfgard、174
22イーグルソン、173
23ベデニン1980,168
24 OsipovRoman、161
25クーパーマスター、159
26ヴァラジアン、155
27 BBK、154
28 Irina_Ua、153
29ドミトリカバノフ、133
30 Unrul、131
再現性とオープンデータ
私は、研究の結果はすべて再現可能で再現性があり、読者にとってもアクセスしやすいものでなければならないと確信しています。 したがって、すべてのソースデータが記事に添付されます。
リンク: Habrahabrの引用 グラフと 自記の グラフ (Gephi)、およびHabrahabrのすべての記事のダンプ(2016年5月20日に収集)、およびHabrに関するその他の多数のおいしい興味深いデータ(特別に収集および削除)使用するには(卒業証書を書く場合、または実際のテキストまたは(半)構造化データが必要な場合に便利です)。
結論
- Q 1 :ハブ-信頼できる情報源であるHabréの興味深いコレクション-一連の記事、グラフは複数のコミュニティと単一のリンクなしの周りの記事の巨大なベルト(すべての頂点の約60%)のように見える
- Q 2 :グラフは非常にまばらです-頂点ごとに1つのエッジのオーダーで、十分に接続されたクラスターがあります-たとえば、「テンソル代数のマジック」は、各記事がシリーズ内のすべてのリンクのカタログを保存するため、接続性を維持します
- Q 3 :自己引用がなければ、ほとんどすべてのクラスターが消えますが、少数の「人気のある」クラスターが残っています。たとえば、KingPin本の翻訳は、コミュニティの実際のチームワークを示しています。
結論の代わりに
アートを愛するために:頂点の重みとしてエッジを除外した引用グラフ