啓示のないホワイトマジックのセッション、またはLJでトロルを探していたとき





プロローグ



昨年一年半、私はLJでこのタクシー運転手として感じました。 私は10年以上前に初めてLiveJournalにサインアップしました。 デュロフは当時Facebookについて聞いていなかったと思われますが、ここでは興味に応じて団結し、意見を交換し、レベデフのような著名人に手紙を書くことができます。 私の友人が結成し、ロシアのセグメントがそれほど大きくなく、一般に、誰もがお互いを知っていることに気付き始めました。 2011年頃、LJはだんだん弱まり始め、運動はTwitterとFacebookで動き始め、私はコメンテーターの条件が変わっていることに気付き始めました。 最初は気づかなかったが、昨年から私は自分がその投稿についてコメントを開いたときに、あごひげを生やした隠者の質問を自問していると思うようになった。 そして、報道機関では、興味深い内容の記事がすり抜け始めました。



しかし、私はジャーナリストにあまり信仰がないので、Python、BeautifulSoup、psycopg2、matplotlib、およびPostgreSQLを使用して、独自のミニ調査を実施すると同時に、スキルを更新/取得することにしました。



外観と動作



隠すために、私自身も時々トロールするのが好きでした。多くの人はまだ恥ずかしく思っていましたが、貴重な(ハハ)経験により、トロールの主な兆候を定式化することができました。



しかし、私が探していたのは、まさにトロルではありませんでした。

彼らは明らかに孤独ではありませんでした、彼らは一緒に行動し、より多くの変装の機会があったようです。

彼らは意味のある投稿を書くことができ、多くの友人がいるので、私のmyい脚本家が、私がハイライトしたトップブロガーのLiveJournalのモバイル版のページを引っ張っていたときに、後でデータを処理する方法を考えました。



キャッチ



このスクリプトは年末年始のすべてで機能し、使い慣れたユーザーのユーザー名が、場合によっては既になくなっていても、コンソールに表示されていました。 それでも、10年はかなりの期間です...

数週間で、3つの禁止をキャッチして、約1万1千件の投稿、230万件のコメントを解析し、約9万人のユーザーが7人のトップブロガーのすべてのエントリに残らなかった。 厚くはなく、おそらく最初に解析したかったものの約5%です。 このデータベースのダンプはここからダウンロードできます



データを分析します。 まず第一に、私は「murzilk-like」の登録時への依存を推測することにしました。

うーん...






正規化、自身の投稿の数、重み係数の選択の影響で計算しようとすると、これらはすべて異常を示さず、解を答えに当てはめる試みのようでした。 外部ユーザーを探しましょう。

うーん...


まあ、このジャンプは非常に説明可能です。 たとえば、ログインできる新しいサービスを追加しました。



証拠のヒントがないという事実にほぼ一致して、私は最終的に、ユーザーの登録日と彼の現在の友人数との単純な対応のグラフを作成することにしました。

そこにいる、シャチ






はい、ほとんどデータを収集していません。 はい、これは私の対象分野ではありません。初めて多くのことを行いましたが、間違えられる可能性があります。 はい、学生の係数が何であるかをすでに忘れています。 そして一般的に、これは何も証明しません。

同じ日に登録したユーザーがブロゴスフィアでより人気がある可能性はありますか? ほとんどない。 一緒に考えることをお勧めします。



エピローグの代わりに



面白いのは、チャート全体がこのように見えることです


2004年の異常はもっと大きい。





リポジトリへのリンク 。 急いで、コードを厳密に判断しないでください。

私の友人a11audに調査の相談に特別な感謝を申し上げたいと思います。



All Articles