ほぼ1年が経過しました。2011年の州下院選挙の際に、このシステムがどのように自動データ収集に使用されたかを知ることは興味深いと思います。
言及の表を生成するために、CMF DrupalのFeedsモジュールとSimpleHTMLDOMparserプラグインを使用して、ソーシャルネットワークとブロゴスフィア上のページの処理(解析)を実装します。 解析のプロセスでは、システムはインターネット上の情報を含むページにアクセスし、一連のタグとカスケードスタイルシートに従ってDOM HTMLツリーからデータを選択します。
ユーザーコメントシステムにインポートするためのモジュールの構成を検討してください。 このシステムは、収集された情報を基本部分に分割できるように設計されています。各基本部分は、データベース内の個別のフィールドを表します。 インポートはきめ細かく実行されるため、結果を柔軟にフィルタリングできます。 収集されたデータのセット(図1を参照)には、次の抽出(抽出)が含まれています。
- コメントタイトル
- コメント作成者-ネットワークまたはブログでのユーザーのニックネーム。
- ジャーナル作成者-コメントが参照するエントリ。
- コメント-実際のテキスト。
- コメントへのリンク。
- コメンテーターの日記。
- 著者の日記
- コメントの日付-コメントがネットワークに投稿された現在の日付。
![](https://habrastorage.org/storage2/582/6ed/e4a/5826ede4abd442f37f0c4fe57cd30f33.png)
図 1.-フィードモジュールのデータエクスポート設定
データ検索は階層的に実行されます。
特に、「コメント作成者」フィールドでは、パターン「ul [class = 'info b-hlist b-hlist-middot'] li a」を属性「plaintext」で設定する必要があります。 そのようなパターンは、HTML DOMツリーに没頭し、クラス「info b-hlist b-hlist-middot」を含む順序なしリスト「ul」に含まれるすべての要素をエクスポートし、タグ「a」でラップします(図2を参照)。
![](https://habrastorage.org/storage2/1f7/886/516/1f7886516c6228183e23222a7e9d9777.png)
図 2.-フィードモジュールの「コメント作成者」フィールドのパターンと属性の設定
システム内のエクスポートされた各アイテムは、材料タイプフィードアイテム(フィードインスタンス)の事前定義フィールドに対応しています。 対応表を図に示します。 3。
![](https://habrastorage.org/storage2/5d6/0e1/b53/5d60e1b5361bbc5c975a2b11bbe57464.png)
図 3.-フィードモジュールの「コメント作成者」フィールドのパターンと属性の設定
必要なすべてのパラメーターを設定した後、システムは選択したキーワードの解析を開始します。 その結果、図1に示すコメントに関する一連のデータを含むテーブルがシステムに生成されます。 4:コメントのタイトル、システムにインポートされた日付、コメントの作成者、コメントが参照するブログの作成者、コメントテキスト、インターネット上での公開日、調性(正、負、中立)、システムのユーザーによって決定されます。
![](https://habrastorage.org/storage2/fdd/742/05e/fdd74205e5d019bf8a8163b1d9e9a694.png)
図 4.-コメントデータを含むテーブル
グラフをさらに分析するために、生成されたテーブルはサポートされている形式のいずれかにエクスポートされます。 エクスポートするには、表の下にあるXLSボタンを使用します。図 5。
![](https://habrastorage.org/storage2/c98/445/e3c/c98445e3c4227e671ca0e73538719c67.png)
図 5.-テーブルエクスポートボタン
エクスポートプロセス中に、その進行状況を確認できます。システムがファイルを生成するのに必要な時間と完了の割合が表示されます。図 6。
![](https://habrastorage.org/storage2/813/a60/5d2/813a605d2253390109a0b6133efa9c46.png)
図 6.-データエクスポートプロセス
エクスポート結果は、グラフをさらに分析するために保存する必要があるファイルです。図 7。
![](https://habrastorage.org/storage2/20b/e0b/1c1/20be0b1c1fd30e4b922c548fefd8d97d.png)
図 7.-エクスポート結果
開発されたモデルと説明されたアルゴリズムを使用してキャンペーンアクションを監視するための技術の実装は、ソーシャルネットワークと選挙プロセスを監視するさまざまな段階で-選挙キャンペーン中およびその両方で役立ちます。
また、データ収集およびグラフ形成のシステムをアクティビティの任意のフィールドで使用することもできます。この場合、構造は、明確なノードとノード間の接続を持つグラフとして表すことができます。
もちろん、カウントを確認したいですか?)これは最初の記事です。 次に、結果のグラフの視覚化と分析、および昨年12月の有名なイベントの前に行った結論について説明します。