- 投稿のほとんどはアリザールによって書かれました -4298、1日あたり12の投稿の記録は2006年10月18日に設定されました
- ほとんどのコメントはVolCh -19323が作成し、2011年7月27日に140件のコメントを記録しました。
- freetonikの日に公開されたほとんどの投稿— 21トピック2007年8月26日
- 1日あたりのハブラの最大活動-105トピックが公開されました:2010年2月18日および2008年6月22日。
- 1か月あたりの最大Habrアクティビティ-2010年3月に2055のトピックを公開
- カルマの平均値:+7.83
- 平均トピック評価:+24.75
- 総コメント:3 703 022。
- 平均コメント評価:+0.98
- コメントの最大数は、2011年7月1日で、4936個です。
- 公開されたすべてのトピックの25%が下書きに移動されました
- 最もコメントされたトピックhabrahabr.ru/post/123157収集された2252コメント
美しいグラフ、測定方法、得られたデータを備えたデータベース、「habroanomalies」-これらはすべてカットされています。
y-月ごとに公開されたトピックの数。 x-タイムライン、1部門-月
y-月ごとに公開されたコメントの数。 x-タイムライン、1部門-月
y-月あたりのユーザー登録数。 x-タイムライン、1部門-月
2008年8月に開始され、9月に最低に達した登録数(月に1回の登録)でこのような失敗を引き起こした原因についての質問に対する答えは見つかりませんでした。 おそらく、この期間中に登録されたユーザーは、大幅に禁止/読み取り専用に移行されました。
yは現在公開されているトピックの平均数です。 x-タイムライン、1部門-時間
このグラフは、この時間に6年間にわたって公開されたトピックの数をカウントすることによって取得されました。 より小さなフレームを使用する場合、グラフをシフトすることができます。
yは現在公開されているトピックの平均数です。 x-タイムライン、1部門-日
y-全体の平均合計評点。 x-タイムライン、1部門-日
結局のところ、週末に公開されたトピックはより多くの利点を獲得します。 おそらくこれは週末に彼らが半分を公開するという事実によるものです。
y-xスケールで指定されたトピックの数を持つユーザーの数。 x-ユーザートピックの数
悲しいことに、半分以上のユーザーが単一のトピックを公開していません。
y-xスケールで指定されたコメントの数を持つユーザーの数。 x-ユーザーのコメントの数
グラフからわかるように、ユーザーの約15%が1〜5個のコメントを投稿し、アクティビティを停止しています。
yは、xスケールで示されるカルマの量を持つユーザーの数です。 x-ユーザーのカルマの量
ユーザーの20%はカルマがゼロです。 肯定的な部分のユーザー数の優勢に満足しています。
信じられていたように
なぜなら ハブのDBに直接アクセスできないため、回避策を探す必要がありました。 お気づきの方は、各トピックのアドレスバーに番号があります。 habrahabr.ru/post/1の最初のレコードを見ることができます すぐに決定が出され、公開されたすべてのトピックを1から144,400の数字で終了する必要がありました(その時点で、既に有効期限が切れていた最後のトピック)。 これらのうち、121,641のトピックがあり、そのうち25,949がドラフトに移動され、数百のトピックが空でした(例 : habrahabr.ru/company/muk/blog/119653) 。 すべてのトピックはさらに解析するためにファイルに保存され、10GB近くかかりました。 さらに、各トピックは次のように解析されました。トピックの作成者、評価、公開日が取得され、次にコメントが解析され、そのコメントの作成者、コメント評価、日付が取得されました。 3つのテーブルがありました。 すべてのユーザーを受け取った後、カルマと評価の各値を取得する必要がありました。 このアプローチでは、少なくとも一度投稿またはコメントしたすべての人が考慮されました。 これらはすべてポンプで取り出され、約1週間24時間解析されました。 解析用のSoftinkaは、データを受信するプロセスで作成されました。 ハブへのリクエストの頻度は、1秒あたり1リクエストを超えませんでした。
DB構造:
ここからデータベースダンプ(MSSQLバックアップ)をダウンロードします(132Mb):
- トレント: tinyurl.com/bqy5g7c
- narod.ru:narod.ru/disk/51378386001.7a6c403f0422f2ca2edbaba1275c3ffd/backup.sql.html
Habroanomaly
解析中に、一連の異常が発見されました。
- habrの設立の6か月前に公開されたトピック: habrahabr.ru/post/1453 habrahabr.ru/post/1455
- 1970年に再登録されたユーザー: Nks PeterParker
- habrahabr.ru/post/100012/#comment_3089391のように見えるが、同時にネットライダーではないユーザー (ユーザープロファイル404エラーを要求しようとする場合)
PS受け取った情報に基づいて興味深いグラフを作成する提案を受け入れます。
追加:
y-指定されたxスケールで登録されたユーザー投稿の数。 x-タイムライン、1部門-月
この図から、2008年半ば以前に登録したユーザーが最も多くのトピックを書いたことがわかります。
次のデータを見ると非常に興味深いでしょう。
*時間ごとのトピックの平均評価(日ごと、しかしより興味深い)
*トピック作成時間ごとの時間ごとのトピックごとの平均投票数
*トピックが作成された時間ごとの、トピックに関するコメントの平均数
このような情報は、最大限のアクティビティを得るためにいつ公開するのが最適かを知ることができます。
しかし、一般的にはタグとハブの要約統計を見ることは興味深いでしょうが、私が理解しているように、パーサーを再起動する必要があります。
「史上最高」のセクションがあります。 「史上最悪」を見るのは面白いでしょう。 habrahabr.ru/post/145045/#comment_4873731
最も取り上げられているトピック:
- Bolgenosは単なる別のLinuxビルドではありません –268
- レベデフは嘘をついている! -198
- スタートアップのアイデアを燃やしたい(1) -193
最もガウジングされたコメント:
- habrahabr.ru/post/118370/#comment_3859046 -219
- habrahabr.ru/post/119754/#comment_3918136 -203(画像はコメントで失われました
- habrahabr.ru/post/63854/#comment_1774342 -192
- habrahabr.ru/post/119754/#comment_3918076 -177
最も影響を受けたユーザー(カルマによる):
コメントによる多数の先駆者:
- 466- bondbig
- 448-ジェジェ
- 396- ヴォックス
- 294-ヌーズ
- 293- NaFigator
- 255-アマラオ
- 237- XaocCPS
- 204-ドーリク
- 202-リーミラー
- 200-ミスゴル
最初のコメントの平均評価は+3.59ですが、すべてのコメントの平均評価は+0.98です。
最も刺激的なコメント