開始する
LiveJournalのロシア語セグメントの構造分析に関する一連の研究出版物を続けています。 最初の出版物は、トップ10のブロガーの聴衆の分析に捧げられました。 準備中に、ロシアのLJリンクのグラフが編集され、 200万を超えるブログとそれらの間の5,800万のリンクがカバーされました 。 次のシリーズでこのグラフに戻ります(理解するまで)が、今日は他のことについて説明します。 つまり、 誰が、どのくらいの頻度で、誰がLiveJournalの戦いと議論の最も活気のあるコーナーでコメントするかについて-TOP-500の雑誌で 。
4月初旬のLiveJournalレーティングのステータスに基づいて、 500のトップポジションを獲得し、次の方法を使用してデータの収集を開始しました。 リストの各ブログは、 25の最近の出版物 (通常のLJツールで入手可能)を要求しました。 もちろん、投稿のコメントが部外者に開かれていない限り、コメンテーターのリスト(名前、IDコメント、ツリー内のコメントの場所)が各出版物から引き出されました。
通常のLJツールではこれが許可されず、耳で気を失い、Yandexからのブログ検索のRSSフィードを削除しようとする試みは、このフィードの非常に奇妙でやや非論理的な動作に遭遇しました(これは苦情ではなく、事実です)。したがって、ページからコメントの構造に関する情報を抽出する必要がありました雑誌。 しかし、それはより良いことが判明しました:)ところで、それなら:LJ上のDDos-それは私ではありません:)
その結果、数日間情報を収集した後(クローラーの初期バージョンはバグではなく、LJの速度が低下しました-その時点で別のDDoSがありました)、これらの初期データが取得されました:
少なくとも1つのコメント付き投稿がある487のジャーナル。
少なくとも1つのコメントを含む10546件の投稿。
809,563件のコメント(匿名のコメントを除く)、そのうち115,326件(14.2%) -雑誌所有者からの回答。
114,412人のコメンテーター。うち3884人 (3.4%)は外部サービス(twitter、facebookなど)を使用してログインしています。
プログラムでさらに:
1. TOP-500の雑誌のさまざまな特性の統計
2.いくつかの暗黙的だが奇妙な評価
3.クラスター分析と相関分析を使用して、「人気のブロガーになる方法」という答えを検索します(ただし、これは調査の第2部になります)
1雑誌および出版物の統計
研究されたサンプルからのジャーナルのいくつかの統計的特徴の分布を以下に示します。 ヒストグラムに「長いテール」を持つソーシャルネットワーク( パレート曲線は特別なケースです)のパワー分布特性を考慮すると、この「テール」は最後に増加した間隔で収集されます。 そして、算術平均とともに、シリーズの中央値を平均値のより堅牢な推定値として提供します。
ところで、興味深い詳細。 友人の数がトップのブロガーの位置に依存する関数は、 R2 = 0.9932のべき関数でほぼ理想的に近似されます。 しかし、コメントとコメンテーターの数に対する同様の近似は著しく悪いです:コメントの場合R2 = 0.2355、コメンテーターの場合R2 = 0.3074。
しばらくしてこれらの図を見て、もっと多くの投稿をするのは面白いでしょう。 したがって、彼らの団結への欲求は、今日のコメントで熱烈な議論をしているブログの読者が徐々にトップの「頭」に移動することを意味します。 連結格付けの「シェイク」 。
1.1出版物、コメント、解説者
以下の2つのヒストグラムは、コメントの数とユニークなコメンテーターの数として、出版物(すべての著者)のそのような特性の分布を示しています。

調査対象のサンプルでは、コメント数が500〜1000の投稿は198件のみで、 69件以上が1000件以上のコメントを入力しました。 トップブロガーでさえ典型的な出版物は26コメント(中央値)を得ています。
もちろん、トップの「トップ」の出版物はより多くのコメントを収集します;これは、評価の異なる「カットオフ」に対するコメントのセットの中央値の変化で見ることができます。 サンプルが大きいほど、これらのインジケータは速く分解します。
TOP-10 211
TOP-30 149
TOP-100 70
TOP-200 44
TOP-500 26
同じ写真は、各出版物のユニークなコメンテーターの数です。

典型的なLiveJournalエントリには16の「ディスカッション」があります。 100人以上の人がたった725の出版物(全体の6.85%)に集まったが、そのうち500から1000人のコメンテーターが42のエントリ(0.4%)を持ち、 4つのエントリ全体が、これについて何か言いたい1000人以上の読者によって収集されました。
1.2著者とその称賛者-討論者の分析
ジャーナルへの関心に対する重要な貢献は、コメントにおけるユーザーアクティビティの性質によって行われる可能性が非常に高いです(そして、これは定期的な聴衆の存在 、ディスカッションへのジャーナルの著者の関与 、ディスカッション自体の存在 、そして「フィード」のコメントだけではありません) 「たくさん」。
したがって、たとえば、コメントの総数での回答のシェアを通じて、ジャーナルの著者のアクティビティを評価できます。 このセクションの著者の分布は、ヒストグラムに示されています。

したがって、回答の50%のシェアは、訪問者のコメントごとに、著者が回答を残したことを意味します。 したがって、20%のシェアは、作成者が4番目ごと(はい、5番目ではなく4番目)のコメントに返信したことを意味します。 すべてのジャーナルの平均値は、回答の約16%です 。 つまり 5番目のコメントごとに、抽象作者が答えを出します。
コメンテーター
雑誌は、ユニークなコメンテーターの数でランク付けできます。 聴衆によると、読書だけでなく、書面の議論にも参加しています。
コメンテーターの数 | 雑誌の数 |
0〜200 | 206 |
200〜400 | 118 |
400〜600 | 65 |
600〜800 | 34 |
800〜1000 | 11 |
1000以上 | 53 |
TOP-500の平均的な雑誌には、約260人のコメンテーターがいます (もちろん、最後の25の投稿について)。
コメンテーターのカーネルを強調するために、3つの追加の(そして非常に明らかになる)スライスを作成し、それらの取得された平均値を提示します。
1.ブログコメンテーターの61%が雑誌にコメントを1つだけ残しました
2.29 %残り2-4コメント
3.そして、コメンテーターの10%だけがブログのライフに積極的に参加し、 5つ以上の投稿を残します。
議論
私の意見で最も興味深いのは、雑誌の議論の余地のある魅力の定義です。 コメントにはツリーがあり、ツリーにはグラフがあり、グラフで多くをカウントできるので、チャット好きの雑誌を検索するために使用できるさまざまなメトリックがあります。
少し考えてから、スレッド内のコメントの平均数という指標を取りました。 非常に明確なインジケータ。 しかし、視覚的ではありません。 その場合、平均値は、最適な場合には2前後で変動するか、まとまります。
したがって、ジャーナルにN個以上のコメントがあるスレッドの数を取ります。 簡単にするために、Nは最大スレッド長の中央値の半分と見なされます。 スレッドの中央値22のコメントでは、N = 11です。
「重い」スレッドの数 | 雑誌の数 |
0-10 | 346 |
10〜20 | 69 |
20〜30 | 21 |
30〜40 | 14 |
40〜50 | 5 |
50〜100 | 19 |
100以上 | 13 |
平均的なジャーナルには、11を超えるコメントがあるスレッドが4つしかありません。
2追加評価
次に、上記のコメント可能性指標に基づいて、いくつかの追加評価(上位3位)を提供します。
コメント数(合計)
雑誌 | コメント数 |
ニキータベソゴン | 42752 |
アレックスソード | 33057 |
クリスポプチク | 15465 |
コメンテーターの聴衆(合計)
雑誌 | コメンテーター、合計 |
pesen_net | 5989 |
トースター | 4626 |
ムザドルノフ | 4184 |
ジャーナルの所有者の回答数(合計、コメント数のシェア)
雑誌 | 回答総数 | 返信、コメント数の割合 |
ムチェブラシキナ | 4799 | 40.5% |
アレックスソード | 4221 | 12.8% |
キトヤ | 3351 | 42.5% |
オーディエンスのコア(合計、コメンテーターの総数に対する割合)
雑誌 | コメンテーター | 全体の% |
ニキータベソゴン | 835 | 23.1% |
ナバルニー | 827 | 27.0% |
フリッツモルゲン | 610 | 22.9% |
聴衆の中核は、ジャーナルに5つ以上のコメントを残したコメンテーターの数です。
一時停止...
これで、研究の最初の部分は終了です。 第二部では、2、3の仮説を提示し、それらを確認または反論し、そのような雑多なブロガーの群衆の一般的な特徴を探します。 彼らが言うように、調整してください!