イベント予測とデータマイニング-未来へ





興味深いオープンソースの情報監視サービスであるRecorded FutureがWebに登場しました。



アーカイブを最大5年間保存できる機能を備えた150,000を超えるさまざまなメディアから情報を蓄積し、その後の分析と、発生した事象と将来のイベントの結果に関する知識の抽出を可能にします。



このサービスの作成者はChris Holdenであり、支払いを行わずにRecorded Futureを使用することを親切に提供してくれましたが、完全な機能は商用ベースでのみ利用できます。



たとえば、現在、このサービスは世界のさまざまな国の8,000人以上の政治指導者の継続的な監視を実行しており、有名な人物がどこに、なぜ行くのかを追跡できます。 時には、これらのイベントの優れた分析により、国際関係の関係を確立し、選択した人物の旅行履歴を分析することにより、開発の最も可能性の高いモデルを予測することができます。



システムの機能を実証する最も興味深い事例は、次のアプリケーション例に反映されています。



- 世界の新たなサイバー脅威とハッカーの追跡

- オサマ・ビンラディンの近しい仲間の輪からの手紙の内容の分析

- 抗議活動の分析

- ギリシャとエジプトの選挙の分析



記録された未来の行動


サービスの使用は、地政学的状況、テロリズム、および抗議活動の分析のための使用よりも広い境界を持っています。 企業ニュース、競合企業の情報、製品、報道機関の報道のメカニズムを監視するために使用されます。



アナリティクスを使用すると、新しいテクノロジーの出現、契約の締結、取締役会のメンバーまたは会社のキーパーソンの変更に関連するイベントを追跡できます。これは、感情的な色付けを評価する機能を備えた非常に強力で便利な分析ツールです(「ポジティブ」、「ネガ」)。 :



先物-「Appleが2012/2013で概説したこと」






このサービスは有料のAPI( http://code.google.com/p/recordedfuture/wiki/RecordedFutureAPI )を提供します。これにより、地理などの指定された基準に従って追跡用のラベルを柔軟に設定できます。



ロシア連邦に関連する2012年8月の抗議活動の予測






リクエスト作成の例(Python):


import urllib, json, datetime, zlib, sys, time def query(q, usecompression=True): """      JSON- """ try: url = 'http://api.recordedfuture.com/ws/rfq/instances?%s' if usecompression: url = url + '&compress=1' for i in range(3): try: data = urllib.urlopen(url % urllib.urlencode({"q":q})) if type(data) != str: data = data.read() if usecompression: data = zlib.decompress(data) break except: print >>sys.stderr, "Retrying failed API call." time.sleep(1) res = json.loads(data) if res['status'] != "SUCCESS": print >>sys.stderr, "Error",str(res['errors']) return res except Exception, e: print str(e) return {'status': 'FAILURE', 'errors': str(e)}
      
      







サービスで使用されるアイデアは非常に単純です-異なる表記(数値、記号)の日付がすべてのソースから割り当てられ、その後、それらに割り当てられたイベントが記録されます。 同時に、このイベントがいつ発生するかを正確に分析します(「すぐ」、「数か月後」、「遠い未来」)。 このサービスは、追跡するための最も興味深い領域の更新を常に送信します。







Pythonで準備されたクラスを使用する:



python company-entquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > entoutputfile.txt





python company-aggquery.py MYTOKEN tickerfile.txt 2010-06-14 2010-06-20 > aggrawoutputfile.txt





ここで:



MYTOKEN-APIへのアクセスのハッシュを受け取りました。

tickerfile.txtは、解析する必要のあるメディアとリソースをディレクティブが指す特別なファイルです。



概要レポートは、フォームの結論になります。



Ticker,Entity,Time,Count,Momentum,Positive,Negative

MSFT,33312449,2011-11-01 19:30:00,780,0.43689,0.062,0.00461

GOOG,33321272,2011-11-01 19:30:00,1707,0.72436,0.07052,0.0254

AMZN,33328212,2011-11-01 19:30:00,344,0.20139,0.05491,0.01374

CHK,33511577,2011-11-01 19:30:00,6,0.00817,0,0

MSFT,33312449,2011-11-02 19:30:00,1235,0.4538,0.04981,0.0137

GOOG,33321272,2011-11-02 19:30:00,2602,0.80317,0.06482,0.02282

AMZN,33328212,2011-11-02 19:30:00,619,0.22222,0.06884,0.00787

CHK,33511577,2011-11-02 19:30:00,45,0.02334,0,0.02581








この情報の処理は、「ポジティブ」と「ネガティブ」を評価することを除いて、プログラマーの肩にかかっています。 このようなリソースを使用すると、かなり強力で効果的な競合分析ツールを作成し、BIの目的に使用できます。



All Articles