パナマ文書。 世界をひもでつなぐ

画像 多くの人がマスコミから知っているように、国際調査ジャーナリストのコンソーシアム(ICIJ)は、いわゆる「パナマアーカイブ」を自由に利用できるようにしました。







パブリックドメインでのデータの受信および公開方法に対して、データ自体に対して異なる態度をとることができます。 しかし、これらの問題を無視する場合、これは単に処理できる情報であり、文字通りの意味でさまざまな角度から見ることができます。







データの概要



これらのジャーナリストのコンソーシアムによると、処理されたデータはNeo4j形式(後で投稿することを約束します)ですが、これまでのところ、csvファイル内の個々のノードのデータとノード間の接続のファイルのみが公開されています。

Webサイトでは視覚化がグラフ形式で表示されますが、すべての基本データを1つのテーブルに表示しておくと便利です。







そのため、データと通信ファイルを含む4つのcsvファイルがあり、各ファイルには識別子(一意ではない)が含まれ、ノード間の接続は通信ファイルによって提供され、通信のタイプはrel_type列に示されます。 ファイル、その識別子、紙に線と矢印を描くことを分析することにより、次のように接続性が確保されていることが確認されました( 図1 )。

画像

図 1ファイル内のデータ間の通信スキーム







最終表には、オフショア会社の受益者に関するデータ( 役員ファイル)、その住所( 住所 )、およびオフショア会社自体( エンティティ )が含まれています。

識別子は一意ではない(共通の交差セットがある)ことを考慮し、キーでテーブルのペアを結合することは明らかに不可能です。その後、テーブルを1つずつ結合し、左側と共通の交差で結合します。 これらはすべてRでtidyrおよびdplyrパッケージを使用して行われました。 さらに、いくつかの重要でない列は除外されました。 一意のエンティティ(つまり、オフショアに関連付けられているすべての受益者)の総数は、140万レコードに達しました。







インターフェース



WebベースのGUIは伝統的に光沢のあるダッシュボードインターフェイスであり、2つのタブを持つメインパネルのみを使用します。







グローブディスプレイ



関心のあるデータを結合した後、それらを視覚化することができますが、すべての値がカテゴリであり、そのような多数(一意の値を含む)では、そのようなデータの視覚化は便利な形式で表現できません。 データはICIJウェブサイト自体にグラフ形式で提示されており、いくつかの集計分析(度数分布表-国別のオフショア企業の総数、各国のオフショア企業の数など)はすでにマスコミで発表されているので、国間の流れを提示することにしました受益者と地球上のオフショア、同時にそのようなペアの数をカウントし、この図に表示します( 図2 )。

画像

図 2最初のブックマーク







地球上でストリームを表示するには、レンダリングにthreejsパッケージを使用します。この場合、マップ生成(ランドスケープカバーの既製の画像ではなく)が使用されます。 地球上では、列にはオフショア所有者が存在するすべての国が表示され(220か国、つまり実質的にすべての国)、列の高さは他の国に対するオフショア所有者の数を反映しています。 また、アークはすべての国のすべてのオフショア企業をマークし、アークの太さはこの方向のオフショア企業の数に依存します。 詳細については、特定の国を選択し、その国のオフショア会社の所有者を確認できます。 隣のブロックの表は、夫婦のオフショア会社の合計数-受益国とオフショア国を示しています。







テーブル



2番目のタブ( 図3 )は、結合されたデータを含むテーブルを示し、大量のデータ(150万行)を考慮して、サーバー側の計算(フィルタリング、並べ替え、検索)を含むデータテーブルオブジェクトを使用してテーブルを表示します。これは、 DTパッケージによって提供されます( JSライブラリDataTablesへのラッパー)。 列ごとに、目的の値を並べ替え、検索できます(検索には約3〜4秒かかります)。

画像

図 3 2番目のタブ







おわりに 結論



そして、誰もが自分で結論を出します...








All Articles