👩‍🏭 👊🏿 🤬 シリーズ：ビッグデータ-夢のよう。 9番目のシリーズ：IBMが1億ドルでAlchemistsを購入せざるを得なかった理由 📳 💠 🔓

前のシリーズ：ビッグデータは単なる大量のデータではありません。ビッグデータは正のフィードバックプロセスです。 rtBD＆Aの具体化としてのオバマボタンビッグデータ開発哲学。このシリーズでは、非構造化テキストとソーシャルメディアメッセージの高速フローの言語分析について説明し、「錬金術師」に対する答えである「ユーレカ」を紹介します。

インターネットは、現在の社会の認識では、メッセージの関連セットです：メッセンジャーの個人的な通信、メディア内の記事間のリンク、ブログディスカッション、ゲームチャット、Habréのテーマシリーズ、または、新しい世代の世界観で変更された-検索エンジンへの回答へのリンククエリセット「今日の対処方法」

よく見ると、基本の基礎であるコミュニケーションとトピックです。「接続」の分析については説明しません（これは、NSAに対するもので、「電子全能の米国上院」は、今日電子監視での試みを拒否しています）。しかし、テーマ分析（最近ブランドアナリティクス -FacebookとDataSiftの間のプレスリリースで、ロシアではプロジェクト名の形で3年がすでにあります）とそれに関連するさまざまな利点-素晴らしいトピック（！）。

シリーズを膨張させないために、我々は、より深く探求したい人々のために、論文、現在の「脅威レベル」、および新しいソリューションとアプローチが必要な特定のケースへのリンクを引用します。

-人類によって生成される通信メッセージの量は1日あたり200億に近づいており、メインストリームは非公開（さまざまなメッセンジャー、メール）です。

-ソーシャルメディア（ソーシャルネットワーク、Twitter、メディアコメント、ブログ、フォーラム、写真およびビデオホスティングサイト、レビューサイトなど）のロシア語の公開メッセージの量-1か月あたり10億 。「古典的な」編集および「リテラシー」メディアレポートの量は、データストリーム全体の1％未満です（10億のうち最大1,000万）。

ソーシャルメディアとメディアデータフローのオープンなリアルタイム統計は、 br-analytics.ru / statisticsで入手できます。

-1日あたり3,000万〜4,000万メッセージ（ピーク時に1秒あたり1,000メッセージ）を処理するには、新しいデータ処理技術とアルゴリズムが必要です。ソーシャルメディアストリームは、構造化されていない「非識字」（非古典的なメディア）で、疎結合であり、多くのスペルミスや句読点エラーがあり、多くの場合、多義的および多言語メッセージです。

現代のダイナミックな世界で解決する必要があるタスクと問題（過去数年の実際の事例）：

- 「ワールドワイド」キャンペーン （2013年10月1日のケース）は、「運用社会学」クラスのタスクです。ダイナミックに変化し、人気のあるメディアの人々、関心のある、ほとんどの社会の影響に対する反応をリアルタイムで監視します。議論に関係する構造（この場合、TVチャンネルと携帯電話事業者）からの迅速な反応のために、社会の重要な予測不可能な変調アクティブ配信の識別。

--- 「プーチンとの直接回線」 （2013年4月25日の場合）

-Obama Buttonクラスのタスク：未知のアクティブなトピックをリアルタイムで強調表示し、各トピックの調性を決定します。

- ロシアの地図上の「愛と憎しみ」 、2014年から2015年の冬：ロシアのすべての地域の3500万人のソーシャルメディアユーザーの感情状態の研究。

-絶対に今日： 「Museum Night」のMinCult特別プロジェクトの一部としてのWebサイト用のテーマウィジェット

フィード（ソーシャルネットワーク、Instagramの写真、YouTubeビデオ）から：

ルミエール2.0のミュージアムナイトでお会いできることを楽しみにしています。 私たちは、20：00からの展覧会「ソビエト写真」のツアーで始まります... t.co/evIDYZVltl

リュミエールセンター1分 戻る

そして昨日、私たちは博物館の夜に行きました）））それはとても面白かったです

vk.com-エレナイワノワ-2分 戻る

誰が今日の博物館の夜を望んでいますか?? 書き込みまたは電話）会社は89260860xxxになります

vk.com-ナデジダ・ポロジンスカヤ-3分 戻る

1時間後、美術館の夜のために家を出る）

vk.com Daria Klimovich-3分 戻る

...モノローグ、ウラジミールネムヒンと自分自身についてのリディアマスターコバ。 みんな、入り口を待っています...

instagram.com-モスクワ近代美術館-6分 戻る

サンクトペテルブルクの博物館の夜：サンクトペテルブルクのミハイロフスキー城でのクエスト、2015年5月17日

youtube.com-今日のニュース-3時間前

このクラスの問題を解決するには、まったく新しいアプローチとソリューションを開発する必要がありました。過去10〜20年にわたって、IBM、SAP、Microsoft、Samsungなどの大手企業は、 「クラシック」テキスト （メディア、企業文書、アーカイブデータ） を処理するテクノロジーに数十億ドルを費やしてきました。

しかし、これらの数十億と成果は、新しい問題の解決には役立ちません。そして、ここで勝者は決定をより速くする人です（非構造化ビッグデータのサプライヤとの戦いにおけるAppleとTwitterについてのビッグゲームシリーズ-megamozg.ru/company/palitrumlab/blog/14154を参照）。ビッグゲームの継続において、IBM は3月に既に数十億のテキストを処理するための高速テクノロジーを備えたAlchemyAPIプロジェクトを買収し、以前に費やした資金（ヨーロッパのセンターの助けを借りて2年間ロシア語の問題を解決しようとしている同じSAPとは異なります） に投資しましたいくつかの西洋の言語。

「シリーズの広告」の権利に関して、あるいは「長い間探していた人たちのために」：

「チェンバレンへの報告」（第6回シリーズで言及）はすぐに続きました。2015年5月に、サードパーティ企業を使用する可能性のために、独立した独立したパブリックソリューションとして新しいテクノロジーを割り当てました-Eureka Engine（http://EurekaEngine.ru ）、チーム、企業、組織が既存または開発済みの技術チームに統合するための高負荷クラウドソリューションと産業用APIを表します。

ユーレカは、RIA NovostiとSamsung、Mail.ruとRosTourism、AtonomyとBrand Analytics、さまざまな国の代理店と企業のためにすでに働いています。 非構造化データの大きなフローを処理するタスクに直面している場合（エディターのテーマプロット、受信ドキュメントのヒープを正しい部門に分類する、テキストの言語を決定する、名前付きエンティティを識別するなど）-ようこそ！

常に解決策がありますよね？

シリーズ：ビッグデータ-夢のよう。 9番目のシリーズ：IBMが1億ドルでAlchemistsを購入せざるを得なかった理由

More articles: