
以前の研究は、ソースデータの不一致について正しく批判されました。これは、タグ「photo Ufa」の例ではっきりと確認できました。 今回は状況を修正し、サンプルを何度も増やしました。
ソースデータ
この調査には10,000のユーザー日記が含まれました。 最初の100人のユーザーが見落とされ、その後、 評価の各ページから2人のユーザーが選択されました。 各ユーザーは2006年まですべてのレコードをアップロードしました。 例外は18+およびサブキャッスルの投稿でした。 次に、レコードから、ヘッダー、タグ、HTMLマークアップのないテキスト、画像とコメントの数が抽出されました。 結果は1,777,308レコードでした。
素敵な景色を!
投稿
利用可能なヘッダー

文字の文字長

文字の長さ

avenuが予想するように 、LJは投稿の文字数が圧倒的に多いという点でTwitterと非常によく似ています。
時間と曜日ごと

ユーザー記録

それは秘密の陰謀のように見えます。 日記の簡単なレビューは規則性を示さなかった。
タグ

タグの長さと数

人気のタグ

pepelsbey 、少しあります!
コメント

投稿あたりのコメント数

コメント数に対するテキストの長さ

コメントの平均テキスト長

おわりに
エントリ数の増加は、人気のあるタグのみに大きな影響を与え、他のパラメーターにはほとんど影響を与えませんでした。
ご清聴ありがとうございました。 あなたの願い、批判、コメントを待っています。
UPD:55エントリのユーザー日記:
13whitemice 、 55thairborngirl 、 a-mne-eshe 、 a-sebrov 、 akmych 、 al-re 、 ally-of -sunbeam 、 anton -platov 、 b0risl0dkin 、 bazil-t 、 beobachter 、 blog-knockknock 、 boriansky 、 brom-termit 、 catrin- flame 、 curious-ja 、 cybercool 、 da4 、 dj- nicks 、 djrediska 、 dr-bass 、 dugla 、 dyxlesska 、 echarri 、 ekateriana 、 eklery 、 ennochka 、 ermolaev-vlad 、 escaldo 、 estetika-nice 、 fabyla 、 father-kot 、 geyzer76 、 gizir 、 gonish 、 green-tiffani 、 gyqyv 、 hmixa 、 iliora 、 jazz-fun 、 jelka3 、 john-scar 、 k0mpas 、 karibus 、 krysia-i-basia 、 kushka 、 lagoun 、 lazutkina 、 light-tm 、 loony2004 、 love-spring 、 magnumx 、 makova547 、 malone -xbit 、 mariri 、 mashki 、 mia312 、 minorland 、 more-produkt 、 mozgovik 、 nankin 、 new-zebra 、 nikita-avanti 、 oksk 、 ovine 、 pastsimple 、 pavel -lv 、 peshi-eshe 、 poignant -art 、 pugachevsky 、 roketa 、 ryzha-sonya 、 samaposebe99 、 sank -a 、 saule-marsault 、 schattenphonix 、 seligoroff 、 sergik1977 、 servinn 、 sevavladimirov 、 shtefanesko 、 sklyankin 、 snow-cat 、 stas -y 、 stei nboom 、 suhaverhi 、 svetik-sh 、 tamikori 、 tipo-femmina 、 tri-4etyre 、 turobei 、 uberlastung 、 ulianich 、 users 、 vale4ka-babo4ka 、 vernon-dimirest 、 victoria1527 、 yanezh-von-sark 、 yellow- luke 、 zerguz
すべてのユーザーレコードが取得されたわけではなく、2006年のみであることを完全に忘れていました。 したがって、ボットの確率は非常に低くなります。 ほとんどの日記は生きています。11月と12月のエントリがあります(10月にデータを収集しました)。 したがって、それが何であるかは明確ではありません。 他のリソース(Habr?)で同様の統計を収集する必要があります。