サッカーの言語で:ビッグデータ+ワールドカップのウィジェットの言語学

私たちのほとんどはサッカーワールドカップを見るでしょう。 そして、いつものように、私たちのチームは輝いていないと専門家に言わせてください。世界のサッカーの美しさは、自分自身をファンと見なさない人でも捕らえるでしょう。 「関節痛」の美しさについて考えたことはありますか? 巨大なグローバルプラットフォームで自分自身を感じ、さまざまな国のファンの声を聞いて、彼らの目を通して試合を見ます...非構造化データを処理するための最新のテクノロジーは、ファンの夢を実現します。 ワールドカップの開始前であっても、今では何千ものサッカーツイート、Instagramの写真、YouTubeビデオが私たちファンによって作成されています。 試合中に何が起こるか想像できますか?! 「ファンの世界のトリビューン」を組み立てることは残っています。これは、即興の素材から一緒に、迅速に、カットの下で行います。



fans_2936689b.jpg



オンラインビッグデータクラス「World Grandstand」のコンストラクターは、利用可能ないくつかの完全に利用可能なパーツから、レゴの原則に従って組み立てられました。



1.コンテンツ:

毎日、人類(私たちは全世界だと思います!)ソーシャルメディアで10億を超える公開メッセージ(ツイート、投稿、コメント、写真、ビデオ)を生成します。 各ソーシャルネットワーク、ブログプラットフォーム、およびその他のインターネットサービスには独自のルールがあるため、パブリックメッセージのサービスアグリゲーター(American TopSyおよびGnip、English DataSiftまたはRussian Brand Analytics)が必要です。



2.目的のコンテンツのアグリゲーター:

私たちは数十億のメッセージを必要としませんが、フットボールについてのみです。 しかし、異なる言語で。 そして、形態、構文、言語定義、見出し語化、修正後。 そして、リアルタイムを忘れないでください! 「Goooool!」と叫ぶと、地球の半分では、朝のニュースではなく、ゴールにボールが必要です。



3.自動翻訳:

ソーシャルネットワークへの投稿用。 笑い始めます。 古典的な選択:Googleの翻訳者またはTranslate.ru。



4.チーム:

APIバインディングプログラマーと優れたレイアウトデザイナー-クリエイターがいない場所



そして、ここに数日間の仕事の結果があります-ウェブサイト/ブログの閲覧と挿入の両方に利用可能なウィジェット:

-ロシア語圏の場合http://br-analytics.ru/widget-generator-theme/wc2014ru

-コスモポリタンおよびブラジル人/スペイン人/英語およびその他のお気に入りをサポートする人向け br-analytics.ru/widget-generator-theme/wc2014



以下は、サッカーだけでなくファン向けのより詳細な技術情報です。



コンテンツの集約


ロシア市場では、ソーシャルメディアデータのメインプロバイダーの位置はブランド分析(BA)システムによって占められており、ロシアの形態と構文をリアルタイムで考慮して、フィルタリングされたテーマデータのストリームを簡単に構成および受信できます。 DataSiftとは異なり、BAはソーシャルネットワークからのデータだけでなく、ブログやフォーラム、ニュースポータルからの投稿も蓄積します。 BAには、フィルタリングされたデータを受信するためのパブリックAPIがあります。



このようなシステムで最も骨の折れる、頭脳を消費するビジネスは、フィルタリングです。キーフレーズ、マイナスワード、および信頼できるソースです。 この作業には、人気のあるスポーツポータルChampionat.comの従業員である真の専門家が参加しました。

システムにはボット用のフィルターがあるため、実際のユーザーからのメッセージのみがウィジェットに入り、スケール外の感情の冒fanは特別なフィルターで遮断されます。



翻訳の難しさ


Translate.ruが翻訳者として選ばれ、ワールドカップのシンプルなAPIに加えて、翻訳の品質を大幅に向上させる特別な言語モジュールと辞書のセットを入手しました。 自動翻訳には、ポルトガル語(ブラジル語)、スペイン語、英語、ロシア語の4つの言語が選択されました。これらは、ワールドカップで最も一般的な言語です。



リアルタイム処理


日々増加する新しい情報の流れに関連して、データ処理の速度は今日緊急の問題になりつつあります。 終了したばかりのコンピューター言語学国際会議「ダイアログ」で、有名企業の最新の言語システムが発表されました。 計算が示すように、それらの前処理の速度はまだ低く、実際のデータストリームを操作することはできません:最良のシステムは1つのプロセッサで数十kB / sを示しますが、実際には、ストリームを完全に処理するために速度は数百kB / sで測定する必要があることが示されています。

システムの速度も理想に達していませんが、それでも、今日では1つのストリームで1日あたり最大15 GB(〜200 kB / s)を処理​​できます。 この処理速度は、インテリジェントな並列コンピューティングシステムによって提供されます。 言語モジュールバランサーを使用すると、フロー処理の正確性を高い割合で維持できます。 たとえば、同音異義語などの現象の巧妙な巧妙な処理により、本当に必要な場合にのみ、負荷の高いアルゴリズムを使用できます。



私たちのものを適切に応援することだけが残っています。



PS:コンピューター言語学とテキストマイニングに関する一連の出版物を計画しています。メッセージ感情の自動検出、エンティティの分類、同化の見出し語化と解決などの技術の使用に関するストーリーを掲載しています。上記のトピックまたは他の言語トピックのいずれかに興味がある場合は、お問い合わせください、そして私たちは偉大で強力な者の情報化のすべての秘密を詳細に明らかにしようとします。



All Articles