この投稿では、方法論的および技術的側面について話し、データマイニングソーシャルメディアの「詳細な掘削」のアイデアを議論することを提案します。 興味のある人は猫に招待されます。
      実際、評価自体は次のようになりました。
ソーシャルメディアの上位30のメディア引用評価(2014年3月):
|   配置する 
       ランキング  |   リソース名 
       |   サイトアドレス 
       |   索引 
       SMI  |   数量 
       リンク  | 
|   1 
       | RIA「ニュース」 | ria.ru | 117 | 516 641 | 
|   2 
       | ロシア語のRT | russian.rt.com | 83 | 364,845 | 
|   3 
       | Lenta.ru | lenta.ru | 72 | 318 735 | 
|   4 
       | ラジオ局「モスクワのエコー」 | echo.msk.ru | 52 | 226 985 | 
|   5 
       | Newspaper.Ru | gazeta.ru | 51 | 226,760 | 
|   6 
       | ライフニュース | lifenews.ru | 48 | 212 870 | 
|   7 
       | チャンネル「雨」 | tvrain.ru | 48 | 210 413 | 
|   8 
       | ITAR-TASS | itar-tass.com | 46 | 203,795 | 
|   9 
       | Vesti.ru | vesti.ru | 45 | 197 654 | 
|   10 
       | Sports.ru | sports.ru | 42 | 184 831 | 
|   11 
       | RBC(RosBusinessConsulting) | rbc.ru | 35 | 154,048 | 
|   12 
       | NEWSru.com | newsru.com | 32 | 140 082 | 
|   13 
       | コムソモールの真実 | kp.ru | 31 | 136,291 | 
|   14 
       | インターファックス | interfax.ru | 28 | 121 714 | 
|   15 
       | ロシアの新聞 | rg.ru | 27 | 118 643 | 
|   16 
       | 日本テレビ | ntv.ru | 26 | 113 353 | 
|   17 
       | 新しいリージョン2 | nr2.ru | 25 | 110 104 | 
|   18 
       | ビジネス新聞「Vzglyad」 | vz.ru | 23 | 100 647 | 
|   19 
       | 最初のチャンネル | 1tv.ru | 19 | 84 659 | 
|   20 
       | Snob Media | snob.ru | 18 | 78,439 | 
|   21 
       | REGNUM News Agency | regnum.ru | 17 | 76 920 | 
|   22 
       | Kommersant.ru | kommersant.ru | 15 | 66 221 | 
|   23 
       | Slon.ru | slon.ru | 15 | 65,872 | 
|   24 
       | ヴェドモスティ | vedomosti.ru | 15 | 63 915 | 
|   25 
       | 引数と事実 | aif.ru | 13 | 58,290 | 
|   26 
       | Izvestia.ru | izvestia.ru | 13 | 56 109 | 
|   27 
       | モスクワで-モスクワのニュース | newsmsk.com | 12 | 54,147 | 
|   28 
       | 新しい新聞 | novayagazeta.ru | 12 | 52,367 | 
|   29日 
       | フリープレス | svpressa.ru | 11 | 49,069 | 
|   30 
       | Inosmi.ru | inosmi.ru | 10 | 42,757 | 
なぜそして誰のため?
メディア調査市場では、出版物を測定するためのいくつかの評価があります:流通、オンライン版の出席、引用_他のメディアの引用、購読者の数(オフラインとオンラインの両方)。 実際、これらすべての測定値は、プリンター、インターネット統計サービス、ソーシャルネットワークカウンターなどのどこかで既に収集されたデータを比較します。 メディアを他のメディアで引用するかどうかを比較することは、メディア監視業界が提供できる最大のことですが、おわかりのように、このメトリックは回答よりも多くの質問を提起します。
私たちの仲間の社会学者が読者の信頼性と信頼に従ってメディアをランク付けする仕事をしたとき、解決策は標準でした-インタビュー対象者によると、どのメディアがより権威があるかを示す提案で調査を行うことです。
すべてのソーシャルタスクをソーシャルメディアに投影するという(悪い:-))習慣があるため、パートナーがソーシャルネットワーク上のユーザー投稿や記事へのコメントから追加情報を取得できるようにすることにしました。
方法:発見と困難
このタスクは技術的には面白く、結果は予想外でした。 データの量は事前に理解されていました-プラットフォームは1日あたり2,000万〜2,500万のメッセージとコメントを収集します。つまり、3月に約6億の資料を処理する必要があります。
その場合、すべては単純に思えます。リンクを含むメッセージの数を理解し、それらを切り取り、処理し、不要なメッセージを削除し、それらを正規化し、並べ替えることは残ります。 分析のために、私たちは1日のデータを取得し、離れて行きました。 最初の驚きはリンクの数にありました:アナリストは誰もリンクの数がメッセージの数にほぼ対応していると推測することはできませんでした-1日あたり1500万以上!
2番目の「迷惑」は、写真、グラフィック要素、ビデオへのリンクの数であり、全体の約30%です。 3番目の「トラブル」の準備はすでに整いました。ショートリンクを展開する技術は、ブランド分析システムのレポートで既に使用されていますが、数万をスキャンすることと、1日あたり約400〜500万です。 同時に、別の23の新しいサービスが、長いリンクの既によく知られている12の一般的な畳み込みサービスに追加されました。
「正面」のシングルスレッドデータ処理には1日で3〜4時間かかりました。これは一般に「ひざまで」のゆったりとした研究オプションでは普通ですが、定期的な毎日の監視にはあまり受け入れられません。 1か月間のデータ処理に適用された最終的なマルチスレッド(3スレッド)アルゴリズムにより、6時間で6億5,500万の月の配列を処理することができました。
PS非構造化データを解析するためのさまざまな方法論を試してみたい場合は、1時間ごとにデータをアップロードする準備ができています。誰かがより高速なソリューションを提供できるかもしれません。
結果
要約データ:
•3月の処理済みメッセージ:655 269 709
•ユニーク著者:35 172 270
•見つかった合計リンク:536 185 906
•写真なしのリンク:357 853 627
•短いリファレンス:110 685 097
統計のファンのために、トップの「生」の排他的なデータを提供します
リンク-「億万長者」-私たちの意見では、非常に興味深いINFA:
| 154,659,839 | vk.com | 
| 25,776,485 | apps.facebook.com | 
| 23,611,855 | dsm.odnoklassniki.ru | 
| 10 531 545 | facebook.com | 
| 10 123 556 | youtube.com | 
| 5,240,568 | instagram.com | 
| 4,026,849 | twitter.com | 
| 2 320 472 | plus.google.com | 
| 2 304 521 | ask.fm | 
| 1 847 571 | docs.google.com | 
| 1 225 210 | islandandroid.17bullets.com | 
1.すべての一般的なソーシャルネットワークで、ボットアカウント(ボットネット)と通知メッセージ(ゲーム、カード、ギフト、笑顔など)の両方がかなり高い(10〜47%)レベルの自動メッセージがあることは周知の事実です。 注意深い専門家の読者の論理的な質問を予測する-はい、そのようなメッセージはフィルタリングされ、リンクターゲットを分析および評価するためのモジュールに到達しません。
2.人気のあるリソースに関するメディア引用指数の公開後、ソーシャルネットワーク上のいくつかのグループで議論が行われ、人々は格付けリーダーのRIA Novostiを皮肉としました。ウェブサイトria.ru。 興味深い考えですね。 そして、それはSMMの新しい「動き」につながります:-)
おそらく、アナリストはこの側面を考慮して、4月の次の調査でメディアの格付けと引用指数を計算するでしょう。 たとえば、出版物のウェブサイトの記事へのコメントをソーシャルメディアの出版物と同一視します(さらに、私たちの方法論によれば、ニュースに関するコメントは独立したオブジェクトとして考慮されるためです)。 この問題について意見をお持ちの場合は、ご意見をお聞かせください。もちろん、賛否両論もあります。
PSリンクのランキングでは、Habrは最初の50代で高く、技術リソースの中で1位です。