シリーズ:ビッグデータ-夢のよう。 9番目のシリーズ:IBMが1億ドルでAlchemistsを購入せざるを得なかった理由

前のシリーズ:ビッグデータは単なる大量のデータではありません。 ビッグデータは正のフィードバックプロセスです。 rtBD&Aの具体化としてのオバマボタン ビッグデータ開発哲学。 このシリーズでは、非構造化テキストとソーシャルメディアメッセージの高速フローの言語分析について説明し、「錬金術師」に対する答えである「ユーレカ」を紹介します。



インターネットは、現在の社会の認識では、メッセージの関連セットです:メッセンジャーの個人的な対応、メディアの記事間のリンク、ブログのディスカッション、ゲームチャット、Habréのテーマシリーズ、または新しい世代の世界観で変更された-検索エンジンへの回答へのリンククエリセット「今日の対処方法」



よく見ると、基本の基礎であるコミュニケーショントピックです。 「接続」の分析については説明しません(これは、NSAに対するもので、「電子全能の米国上院」は、今日電子監視での試みを拒否しています)。 しかし、テーマ分析(最近、その名前はブランド分析 -FacebookとDataSiftの間のプレスリリースで、ロシアではプロジェクト名の形で3年がすでにあります)とそれに関連するさまざまな利点-素晴らしいトピック(!:-))新しいシリーズ。



シリーズを膨張させないために、我々は、より深く探求したい人々のために、論文、現在の「脅威レベル」、および新しいソリューションとアプローチが必要な特定のケースへのリンクを引用します。



-人類によって生成される通信メッセージの量は1日あたり200億に近づいており、主なストリームは非公開(さまざまなメッセンジャー、メール)です。



-ソーシャルメディア(ソーシャルネットワーク、Twitter、メディアコメント、ブログ、フォーラム、写真およびビデオホスティングサイト、レビューサイトなど)のロシア語の公開メッセージの量-1か月あたり10億 。 「古典的な」編集および「リテラシー」メディアレポートのは、総データストリームの1%未満です(10億のうち最大1,000万)。

ソーシャルメディアとメディアデータフローのオープンなリアルタイム統計は、 br-analytics.ru / statisticsで入手できます



-1日あたり3,000万〜4,000万メッセージ(ピーク時に1秒あたり1,000メッセージ)を処理するには、新しいデータ処理技術とアルゴリズムが必要です。 ソーシャルメディアストリームは、構造化されていない「非識字」(非クラシックメディア)であり、疎結合であり、多くのスペルミスや句読点のエラーがあり、多くの場合、多義的および多言語のメッセージです。



現代のダイナミックな世界で解決する必要があるタスクと問題(過去数年の実際の事例):



- 「ワールドワイド」キャンペーン (2013年10月1日のケース)は、「運用社会学」クラスのタスクです。動的に変化し、人気のあるメディアの人々、関心のある、ほとんどの社会の影響に対する反応のリアルタイムモニタリング。 議論に関与する構造(この場合、TVチャンネルと携帯電話事業者)からの迅速な反応のために、社会のメッセージ内の重要で予測不可能な変調アクティブ分布の識別。



--- 「プーチンとの直接回線」 (2013年4月25日の場合)

-Obama Buttonクラスのタスク:未知のアクティブなトピックをリアルタイムで強調表示し、各トピックの調性を決定します。



- ロシアの地図上の「愛と憎しみ」 、2014年から2015年の冬:ロシアのすべての地域の3500万人のソーシャルメディアユーザーの感情状態の研究。



-絶対に今日: 「Museum Night」のMinCult特別プロジェクトの一部としてのWebサイト用のテーマウィジェット



フィード(ソーシャルネットワーク、Instagramの写真、YouTubeビデオ)から:



ルミエール2.0のミュージアムナイトでお会いできることを楽しみにしています。 私たちは、20:00からの展覧会「ソビエト写真」のツアーから始まります... t.co/evIDYZVltl

リュミエールセンター1分 戻る



そして昨日、私たちは博物館の夜に行きました)))それはとても面白かったです

vk.com-エレナイワノワ-2分 戻る



誰が今日の博物館の夜を望んでいますか?? 書き込みまたは電話)会社は89260860xxxになります

vk.com-ナデジダ・ポロジンスカヤ-3分 戻る



1時間後、美術館の夜のために家を出る)

vk.com Daria Klimovich-3分 戻る



...モノローグ、ウラジミールネムヒンと自分自身についてのリディアマスターコバ。 みんな、入り口を待っています...

instagram.com-モスクワ近代美術館-6分 戻る



サンクトペテルブルクの博物館の夜:サンクトペテルブルクのミハイロフスキー城でのクエスト、2015年5月17日

youtube.com-今日のニュース-3時間前





このクラスの問題を解決するには、まったく新しいアプローチとソリューションを開発する必要がありました。 過去10〜20年にわたって、IBM、SAP、Microsoft、Samsungおよびその他の大手企業は、 「クラシック」テキスト (メディア、企業文書、アーカイブデータ) を処理するテクノロジーに数十億ドルを費やしてきました。



しかし、これらの数十億と成果は、新しい問題の解決には役立ちません。 そして、ここで勝者は決定をより速くする人です(非構造化ビッグデータのサプライヤとの戦いにおけるAppleとTwitterについてのビッグゲームシリーズ-megamozg.ru/company/palitrumlab/blog/14154を参照)。 ビッグゲームの継続において、IBM は3月に既に数十億のテキストを処理するための高速テクノロジーを備えたAlchemyAPIプロジェクトを買収し、以前に費やした資金(ヨーロッパのセンターの助けを借りて2年間ロシア語の問題を解決しようとしている同じSAPとは異なります) に投資しましたいくつかの西洋の言語。



「シリーズの広告」の権利に関して、あるいは「長い間探していた人たちのために」:



第6回シリーズ 」で言及した 「チェンバレンへの報告」はすぐに続きました。2015年5月、サードパーティ企業を使用する可能性のために、独立した公開ソリューションとして新しいテクノロジーを割り当てました-Eureka Engine(http://EurekaEngine.ru )、チーム、企業、組織が既存または開発した技術チームに統合するための高負荷クラウドソリューションと産業用APIを表します



ユーレカは、RIA NovostiとSamsung、Mail.ruとRosTourism、AtonomyとBrand Analytics、さまざまな国の代理店と企業の利益のためにすでに働いています。 非構造化データの大きなフローを処理するタスクに直面している場合(エディターのテーマプロット、受信ドキュメントのヒープを正しい部門に分類する、テキストの言語を決定する、名前付きエンティティを識別するなど)-ようこそ!



常に解決策がありますよね?



All Articles