それはすべて、ハブに関する記事から始まり、特定の匿名のハッカーがFBIエージェントからのデータをネットワークに統合したことです。 私はこのデータを受け取り、それらを使って何ができるのか、見始めました。 データには、姓、名前、オフィスの電子メールと電話のみが含まれています-いくつかの情報。

このデータを受け取った後、文字Jで終わることがわかりました。 つまり、データセットは完全ではありません。 イントレセノ、そのフルサイズは何ですか? 調べるには、姓の出現頻度に関する統計を作成する必要があります。
これを行うために、私はアメリカの姓のセットを探し始めました、そしてここで私は、例えば州の有権者に関するオープンデータを見つけることができる発見を待っていました-私が理解するように、完全に合法です。 たとえば、30分間、すべてのユタ州の有権者のデータを問題なく取得します。
これはすでにはるかに興味深いです! 最初のデータセットに姓、名、および1文字の「ミドルネーム」(ここではミドルネームミドルネームと呼びますが、これは少し間違っています )しかなかった場合、FBIエージェントに関するより多くの情報を見つけることができます-たとえば、住所名前、年齢、政治的好み。 それでは始めましょう。
まず、データセットの完全性を評価します(データの調査元)。 ユタ州での姓の出現に関する統計を作成し、姓が文字Jをどのくらい構成しているかをまとめて確認します。すべてのデータの約半分、より正確には43%があります。 エージェントの完全なリストは5万件のレコードになります。 はい、誰かがそれを必要とするなら、ここにアメリカの姓の頻度分布があります:
ネタバレ見出し
手紙 | 総記録 | 頻度 |
A | 128934 | 0.030 |
B | 401048 | 0.093 |
C | 298668 | 0.069 |
D | 197078 | 0.046 |
E | 80467 | 0.019 |
F | 152500 | 0.035 |
G | 200349 | 0.046 |
H | 325591 | 0.075 |
私は | 17765 | 0.004 |
J | 121452 | 0.028 |
K | 184007 | 0.043 |
L | 183266 | 0.042 |
M | 399768 | 0.093 |
N | 73607 | 0.017 |
O | 53166 | 0.012 |
P | 199195 | 0.046 |
Q | 5802 | 0.001 |
R | 224124 | 0.052 |
S | 456642 | 0.106 |
T | 147229 | 0.034 |
うん | 10559 | 0.002 |
V | 52085 | 0.012 |
W | 272087 | 0.063 |
X | 371 | 0.000 |
Y | 28468 | 0.007 |
Z | 27642 | 0.006 |
次に、投票者リストでエージェントを見つけます。 最初に、姓、名、およびミドルネームの最初の文字で交差点を見つけようとします(これは、エージェントに関するすべての情報です)。 有権者データセットは非常に大きいため、このアクションを使用すると、データを大幅に削減して、少なくとも非常に古いコンピューターのメモリに収まるようにします。
交差点を見つけました-そして、ここで最初の驚きが待っています。 それらの多くがあります-エージェントのファイルによると、22,000人のうちほぼ15000人です。 FBIがすべて1つの州に住んでいる可能性はほとんどありません。アメリカには非常に人気のある姓があり、ミドルネームの姓と名の一致が多すぎるというだけです。 さて、さらにフィルタリングします。
姓は1回しかありません。 これらはまれな姓であり、ほとんどの場合、姓は名前を特定するだけで個人を特定するのに十分です。 別のセリーヌ・ホバニシアンと出会うことはまずありません。 フィルタリング後、193個の一意のレコードのデータセットを取得します。 あります!
高い確率で、これらはエージェントであり、完全な詳細-住所、氏名、生年月日、政治的好み(有権者リストがあり、2002年以降のこの人の投票方法に関するデータが含まれています) 。 念のため、結果を公開しません。突然、代理店は本当に長い手を持っています:)
これらのデータの統計をより良く計算します。 たとえば、年齢のヒストグラム:

最低年齢:21歳(この年齢から投票できます)
最大:90年
政治的な好み。 パーティのメンバーシップは、宣言されたメンバーシップによって決定されます(そのような情報はデータセット内にあるか、人が常にパーティの1つに投票する場合)。
193人のうち、 43人は共和党員 、 32人は民主党員です。
興味深い情報は、共和党員が著しく増えると思いました。
このデータはどの程度真実ですか? 上記のredditへのリンクのコメントには、ほとんどの州のデータセットへのリンクがあります。 ソーシャルネットワークから情報を収集することもできます。 結構です 私は残りの人生をエクアドル大使館で過ごしたくありません。
ああ、誰かがドアベルを鳴らします-1秒間、私は誰がそこにいるかを見ます。 そして、私は保存する方法について書きます