ビッグデータデータマイニング:ソーシャルメディアの引用評価

「アナリストはビッグデータが好きではありません!」-あなたは高速運転に関する一般的なことわざを言い換えることができます。 3,500万人の著者からの6億5,000万のソーシャルメディアメッセージ、3億5,800万のリンク、そのうち1億1,000万は「短い」。このようなデータは2014年3月に分析され、メディアの引用評価をまとめた。

この投稿では、方法論的および技術的側面について話し、データマイニングソーシャルメディアの「詳細な掘削」のアイデアを議論することを提案します。 興味のある人は猫に招待されます。

画像



実際、評価自体は次のようになりました。

ソーシャルメディアの上位30のメディア引用評価(2014年3月):
配置する

ランキング

リソース名

サイトアドレス

索引

SMI

数量

リンク

1

RIA「ニュース」 ria.ru 117 516 641
2

ロシア語のRT russian.rt.com 83 364,845
3

Lenta.ru lenta.ru 72 318 735
4

ラジオ局「モスクワのエコー」 echo.msk.ru 52 226 985
5

Newspaper.Ru gazeta.ru 51 226,760
6

ライフニュース lifenews.ru 48 212 870
7

チャンネル「雨」 tvrain.ru 48 210 413
8

ITAR-TASS itar-tass.com 46 203,795
9

Vesti.ru vesti.ru 45 197 654
10

Sports.ru sports.ru 42 184 831
11

RBC(RosBusinessConsulting) rbc.ru 35 154,048
12

NEWSru.com newsru.com 32 140 082
13

コムソモールの真実 kp.ru 31 136,291
14

インターファックス interfax.ru 28 121 714
15

ロシアの新聞 rg.ru 27 118 643
16

日本テレビ ntv.ru 26 113 353
17

新しいリージョン2 nr2.ru 25 110 104
18

ビジネス新聞「Vzglyad」 vz.ru 23 100 647
19

最初のチャンネル 1tv.ru 19 84 659
20

Snob Media snob.ru 18 78,439
21

REGNUM News Agency regnum.ru 17 76 920
22

Kommersant.ru kommersant.ru 15 66 221
23

Slon.ru slon.ru 15 65,872
24

ヴェドモスティ vedomosti.ru 15 63 915
25

引数と事実 aif.ru 13 58,290
26

Izvestia.ru izvestia.ru 13 56 109
27

モスクワで-モスクワのニュース newsmsk.com 12 54,147
28

新しい新聞 novayagazeta.ru 12 52,367
29日

フリープレス svpressa.ru 11 49,069
30

Inosmi.ru inosmi.ru 10 42,757
格付け、SMIインデックスの形成、SMRの格付けに関する詳細については、ブログ( http://br-analytics.ru/blog/?p=1264)をご覧ください。



なぜそして誰のため?


メディア調査市場では、出版物を測定するためのいくつかの評価があります:流通、オンライン版の出席、引用_他のメディアの引用、購読者の数(オフラインとオンラインの両方)。 実際、これらすべての測定値は、プリンター、インターネット統計サービス、ソーシャルネットワークカウンターなどのどこかで既に収集されたデータを比較します。 メディアを他のメディアで引用するかどうかを比較することは、メディア監視業界が提供できる最大のことですが、おわかりのように、このメトリックは回答よりも多くの質問を提起します。



私たちの仲間の社会学者が読者の信頼性と信頼に従ってメディアをランク付けする仕事をしたとき、解決策は標準でした-インタビュー対象者によると、どのメディアがより権威があるかを示す提案で調査を行うことです。



すべてのソーシャルタスクをソーシャルメディアに投影するという(悪い:-))習慣があるため、パートナーがソーシャルネットワーク上のユーザー投稿や記事へのコメントから追加情報を取得できるようにすることにしました。



方法:発見と困難


このタスクは技術的には面白く、結果は予想外でした。 データの量は事前に理解されていました-プラットフォームは1日あたり2,000万〜2,500万のメッセージとコメントを収集します。つまり、3月に約6億の資料を処理する必要があります。



その場合、すべては単純に思えます。リンクを含むメッセージの数を理解し、それらを切り取り、処理し、不要なメッセージを削除し、それらを正規化し、並べ替えることは残ります。 分析のために、私たちは1日のデータを取得し、離れて行きました。 最初の驚きはリンクの数にありました:アナリストは誰もリンクの数がメッセージの数にほぼ対応していると推測することはできませんでした-1日あたり1500万以上!



2番目の「迷惑」は、写真、グラフィック要素、ビデオへのリンクの数であり、全体の約30%です。 3番目の「トラブル」の準備はすでに整いました。ショートリンクを展開する技術は、ブランド分析システムのレポートで既に使用されていますが、数万をスキャンすることと、1日あたり約400〜500万です。 同時に、別の23の新しいサービスが、長いリンクの既によく知られている12の一般的な畳み込みサービスに追加されました。



「正面」のシングルスレッドデータ処理には1日で3〜4時間かかりました。これは一般に「ひざまで」のゆったりとした研究オプションでは普通ですが、定期的な毎日の監視にはあまり受け入れられません。 1か月間のデータ処理に適用された最終的なマルチスレッド(3スレッド)アルゴリズムにより、6時間で6億5,500万の月の配列を処理することができました。



PS非構造化データを解析するためのさまざまな方法論を試してみたい場合は、1時間ごとにデータをアップロードする準備ができています。誰かがより高速なソリューションを提供できるかもしれません。



結果


要約データ:

•3月の処理済みメッセージ:655 269 709

•ユニーク著者:35 172 270

•見つかった合計リンク:536 185 906

•写真なしのリンク:357 853 627

•短いリファレンス:110 685 097



統計のファンのために、トップの「生」の排他的なデータを提供します

リンク-「億万長者」-私たちの意見では、非常に興味深いINFA:

154,659,839 vk.com
25,776,485 apps.facebook.com
23,611,855 dsm.odnoklassniki.ru
10 531 545 facebook.com
10 123 556 youtube.com
5,240,568 instagram.com
4,026,849 twitter.com
2 320 472 plus.google.com
2 304 521 ask.fm
1 847 571 docs.google.com
1 225 210 islandandroid.17bullets.com
技術的な問題から方法論への回帰...



1.すべての一般的なソーシャルネットワークで、ボットアカウント(ボットネット)と通知メッセージ(ゲーム、カード、ギフト、笑顔など)の両方がかなり高い(10〜47%)レベルの自動メッセージがあることは周知の事実です。 注意深い専門家の読者の論理的な質問を予測する-はい、そのようなメッセージはフィルタリングされ、リンクターゲットを分析および評価するためのモジュールに到達しません。



2.人気のあるリソースに関するメディア引用指数の公開後、ソーシャルネットワーク上のいくつかのグループで議論が行われ、人々は格付けリーダーのRIA Novostiを皮肉としました。ウェブサイトria.ru。 興味深い考えですね。 そして、それはSMMの新しい「動き」につながります:-)



おそらく、アナリストはこの側面を考慮して、4月の次の調査でメディアの格付けと引用指数を計算するでしょう。 たとえば、出版物のウェブサイトの記事へのコメントをソーシャルメディアの出版物と同一視します(さらに、私たちの方法論によれば、ニュースに関するコメントは独立したオブジェクトとして考慮されるためです)。 この問題について意見をお持ちの場合は、ご意見をお聞かせください。もちろん、賛否両論もあります。



PSリンクのランキングでは、Habrは最初の50代で高く、技術リソースの中で1位です。



All Articles