ハブラハブ統計

6年間Habrahabrが実行されてからほぼ1週間が経過しました。 サイトパフォーマンスの成長のグラフを見るのは非常に興味深いでしょう。 なぜなら 標準統計は有益ではないため、すべての情報を自分の手で収集して分析することが決定されました。 そのため、ほぼ1週間の情報の解析と収集が行われ、次の興味深いデータが受信されました(非表示/削除された投稿/ユーザーとそのコメントは考慮されませんでした)。



美しいグラフ、測定方法、得られたデータを備えたデータベース、「habroanomalies」-これらはすべてカットされています。





y-月ごとに公開されたトピックの数。 x-タイムライン、1部門-月



y-月ごとに公開されたコメントの数。 x-タイムライン、1部門-月



y-月あたりのユーザー登録数。 x-タイムライン、1部門-月

2008年8月に開始され、9月に最低に達した登録数(月に1回の登録)でこのような失敗を引き起こした原因についての質問に対する答えは見つかりませんでした。 おそらく、この期間中に登録されたユーザーは、大幅に禁止/読み取り専用に移行されました。



yは現在公開されているトピックの平均数です。 x-タイムライン、1部門-時間

このグラフは、この時間に6年間にわたって公開されたトピックの数をカウントすることによって取得されました。 より小さなフレームを使用する場合、グラフをシフトすることができます。



yは現在公開されているトピックの平均数です。 x-タイムライン、1部門-日



y-全体の平均合計評点。 x-タイムライン、1部門-日

結局のところ、週末に公開されたトピックはより多くの利点を獲得します。 おそらくこれは週末に彼らが半分を公開するという事実によるものです。





y-xスケールで指定されたトピックの数を持つユーザーの数。 x-ユーザートピックの数

悲しいことに、半分以上のユーザーが単一のトピックを公開していません。



y-xスケールで指定されたコメントの数を持つユーザーの数。 x-ユーザーのコメントの数

グラフからわかるように、ユーザーの約15%が1〜5個のコメントを投稿し、アクティビティを停止しています。





yは、xスケールで示されるカルマの量を持つユーザーの数です。 x-ユーザーのカルマの量

ユーザーの20%はカルマがゼロです。 肯定的な部分のユーザー数の優勢に満足しています。



信じられていたように



なぜなら ハブのDBに直接アクセスできないため、回避策を探す必要がありました。 お気づきの方は、各トピックのアドレスバーに番号があります。 habrahabr.ru/post/1の最初のレコードを見ることができます すぐに決定が出され、公開されたすべてのトピックを1から144,400の数字で終了する必要がありました(その時点で、既に有効期限が切れていた最後のトピック)。 これらのうち、121,641のトピックがあり、そのうち25,949がドラフトに移動され、数百のトピックが空でした(例habrahabr.ru/company/muk/blog/119653) 。 すべてのトピックはさらに解析するためにファイルに保存され、10GB近くかかりました。 さらに、各トピックは次のように解析されました。トピックの作成者、評価、公開日が取得され、次にコメントが解析され、そのコメントの作成者、コメント評価、日付が取得されました。 3つのテーブルがありました。 すべてのユーザーを受け取った後、カルマと評価の各値を取得する必要がありました。 このアプローチでは、少なくとも一度投稿またはコメントしたすべての人が考慮されました。 これらはすべてポンプで取り出され、約1週間24時間解析されました。 解析用のSoftinkaは、データを受信するプロセスで作成されました。 ハブへのリクエストの頻度は、1秒あたり1リクエストを超えませんでした。

DB構造:



ここからデータベースダンプ(MSSQLバックアップ)をダウンロードします(132Mb):



Habroanomaly



解析中に、一連の異常が発見されました。



PS受け取った情報に基づいて興味深いグラフを作成する提案を受け入れます。



追加:



y-指定されたxスケールで登録されたユーザー投稿の数。 x-タイムライン、1部門-月

この図から、2008年半ば以前に登録したユーザーが最も多くのトピックを書いたことがわかります。




次のデータを見ると非常に興味深いでしょう。

*時間ごとのトピックの平均評価(日ごと、しかしより興味深い)

*トピック作成時間ごとの時間ごとのトピックごとの平均投票数

*トピックが作成された時間ごとの、トピックに関するコメントの平均数



このような情報は、最大限のアクティビティを得るためにいつ公開するのが最適かを知ることができます。



しかし、一般的にはタグとハブの要約統計を見ることは興味深いでしょうが、私が理解しているように、パーサーを再起動する必要があります。









「史上最高」のセクションがあります。 「史上最悪」を見るのは面白いでしょう。 habrahabr.ru/post/145045/#comment_4873731


最も取り上げられているトピック:



最もガウジングされたコメント:



最も影響を受けたユーザー(カルマによる):






コメントによる多数の先駆者:





最初のコメントの平均評価は+3.59ですが、すべてのコメントの平均評価は+0.98です。




最も刺激的なコメント



All Articles