Fbiの検出:FBIエージェントの見つけ方

ブラック・アーキオロジー・オブ・データマイニングの最新号では 、少しのスパイをプレイします。 通常のデータスペシャリストがネットワーク上で開かれているデータに基づいて認識できることを確認します。



それはすべて、ハブに関する記事から始まり、特定の匿名のハッカーがFBIエージェントからのデータをネットワークに統合したことです。 私はこのデータを受け取り、それらを使って何ができるのか、見始めました。 データには、姓、名前、オフィスの電子メールと電話のみが含まれています-いくつかの情報。







このデータを受け取った後、文字Jで終わることがわかりました つまり、データセットは完全ではありません。 イントレセノ、そのフルサイズは何ですか? 調べるには、姓の出現頻度に関する統計を作成する必要があります。



これを行うために、私はアメリカの姓のセットを探し始めました、そしてここで私は、例えば州の有権者に関するオープンデータを見つけることができる発見を待っていました-私が理解するように、完全に合法です。 たとえば、30分間、すべてのユタ州の有権者のデータを問題なく取得します。







これはすでにはるかに興味深いです! 最初のデータセットに姓、名、および1文字の「ミドルネーム」(ここではミドルネームミドルネームと呼びますが、これは少し間違っています )しかなかった場合、FBIエージェントに関するより多くの情報を見つけることができます-たとえば、住所名前、年齢、政治的好み。 それでは始めましょう。



まず、データセットの完全性を評価します(データの調査元)。 ユタ州での姓の出現に関する統計を作成し、姓が文字Jをどのくらい構成しているかをまとめて確認します。すべてのデータの約半分、より正確には43%があります。 エージェントの完全なリストは5万件のレコードになります。 はい、誰かがそれを必要とするなら、ここにアメリカの姓の頻度分布があります:

ネタバレ見出し
手紙 総記録 頻度
A 128934 0.030
B 401048 0.093
C 298668 0.069
D 197078 0.046
E 80467 0.019
F 152500 0.035
G 200349 0.046
H 325591 0.075
私は 17765 0.004
J 121452 0.028
K 184007 0.043
L 183266 0.042
M 399768 0.093
N 73607 0.017
O 53166 0.012
P 199195 0.046
Q 5802 0.001
R 224124 0.052
S 456642 0.106
T 147229 0.034
うん 10559 0.002
V 52085 0.012
W 272087 0.063
X 371 0.000
Y 28468 0.007
Z 27642 0.006






次に、投票者リストでエージェントを見つけます。 最初に、姓、名、およびミドルネームの最初の文字で交差点を見つけようとします(これは、エージェントに関するすべての情報です)。 有権者データセットは非常に大きいため、このアクションを使用すると、データを大幅に削減して、少なくとも非常に古いコンピューターのメモリに収まるようにします。



交差点を見つけました-そして、ここで最初の驚きが待っています。 それらの多くがあります-エージェントのファイルによると、22,000人のうちほぼ15000人です。 FBIがすべて1つの州に住んでいる可能性はほとんどありません。アメリカには非常に人気のある姓があり、ミドルネームの姓と名の一致が多すぎるというだけです。 さて、さらにフィルタリングします。



姓は1回しかありません。 これらはまれな姓であり、ほとんどの場合、姓は名前を特定するだけで個人を特定するのに十分です。 別のセリーヌ・ホバニシアンと出会うことはまずありません。 フィルタリング後、193個の一意のレコードのデータセットを取得します。 あります!



高い確率で、これらはエージェントであり、完全な詳細-住所、氏名、生年月日、政治的好み(有権者リストがあり、2002年以降のこの人の投票方法に関するデータが含まれています) 。 念のため、結果を公開しません。突然、代理店は本当に長い手を持っています:)



これらのデータの統計をより良く計算します。 たとえば、年齢のヒストグラム:







最低年齢:21歳(この年齢から投票できます)

最大:90年



政治的な好み。 パーティのメンバーシップは、宣言されたメンバーシップによって決定されます(そのような情報はデータセット内にあるか、人が常にパーティの1つに投票する場合)。

193人のうち、 43は共和党員32人は民主党員です。

興味深い情報は、共和党員が著しく増えると思いました。



このデータはどの程度真実ですか? 上記のredditへのリンクのコメントには、ほとんどの州のデータセットへのリンクがあります。 ソーシャルネットワークから情報を収集することもできます。 結構です 私は残りの人生をエクアドル大使館で過ごしたくありません。

ああ、誰かがドアベルを鳴らします-1秒間、私は誰がそこにいるかを見ます。 そして、私は保存する方法について書きます



All Articles