LiveJournalエントリの統計の2番目のバージョン

top

以前の研究は、ソースデータの不一致について正しく批判されました。これは、タグ「photo Ufa」の例ではっきりと確認できました。 今回は状況を修正し、サンプルを何度も増やしました。



ソースデータ



この調査には10,000のユーザー日記が含まれました。 最初の100人のユーザーが見落とされ、その後、 評価の各ページから2人のユーザーが選択されました。 各ユーザーは2006年まですべてのレコードをアップロードしました。 例外は18+およびサブキャッスルの投稿でした。 次に、レコードから、ヘッダー、タグ、HTMLマークアップのないテキスト、画像とコメントの数が抽出されました。 結果は1,777,308レコードでした。



素敵な景色を!



投稿



利用可能なヘッダー
ハスタイトル



文字の文字長
TitleLength



文字の長さ
TextLength

avenuが予想するように 、LJは投稿の文字数が圧倒的に多いという点でTwitterと非常によく似ています。



時間と曜日ごと
タイムデイ



ユーザー記録
UserArticleCount

それは秘密の陰謀のように見えます。 日記の簡単なレビューは規則性を示さなかった。



タグ

ハスタグス



タグの長さと数
タグ



人気のタグ
トップタグ

pepelsbey 、少しあります!



コメント

Hascomments



投稿あたりのコメント数
コメント数



コメント数に対するテキストの長さ
TextLengthComments



コメントの平均テキスト長
AvgTextLengthComments



おわりに



エントリ数の増加は、人気のあるタグのみに大きな影響を与え、他のパラメーターにはほとんど影響を与えませんでした。



ご清聴ありがとうございました。 あなたの願い、批判、コメントを待っています。



UPD:55エントリのユーザー日記:

13whitemice55thairborngirla-mne-eshea-sebrovakmychal-really-of -sunbeamanton -platovb0risl0dkinbazil-tbeobachterblog-knockknockborianskybrom-termitcatrin- flamecurious-jacybercoolda4dj- nicksdjrediskadr-bassdugladyxlesskaecharriekaterianaekleryennochkaermolaev-vladescaldoestetika-nicefabylafather-kotgeyzer76gizirgonishgreen-tiffanigyqyvhmixailiorajazz-funjelka3john-scark0mpaskaribuskrysia-i-basiakushkalagounlazutkinalight-tmloony2004love-springmagnumxmakova547malone -xbitmaririmashkimia312minorlandmore-produktmozgoviknankinnew-zebranikita-avantiokskovinepastsimplepavel -lvpeshi-eshepoignant -artpugachevskyroketaryzha-sonyasamaposebe99sank -asaule-marsaultschattenphonixseligoroffsergik1977servinnsevavladimirovshtefaneskosklyankinsnow-catstas -ystei nboomsuhaverhisvetik-shtamikoritipo-femminatri-4etyreturobeiuberlastungulianichusersvale4ka-babo4kavernon-dimirestvictoria1527yanezh-von-sarkyellow- lukezerguz

すべてのユーザーレコードが取得されたわけではなく、2006年のみであることを完全に忘れていました。 したがって、ボットの確率は非常に低くなります。 ほとんどの日記は生きています。11月と12月のエントリがあります(10月にデータを収集しました)。 したがって、それが何であるかは明確ではありません。 他のリソース(Habr?)で同様の統計を収集する必要があります。



All Articles