
すべての結果を再現するためのR
コード( gist )
インスピレーションとすぐに仮説をテストしたいという欲求によって取り上げられた最初のパートでは、ヨーロッパでの性比と殺人の有病率との関係を分析しました。 結果は私の期待を裏付けませんでした。 ヨーロッパの国々は、多くの点で、周辺国とその中心部がある同じ国の地域に似ているようです。
以下の結果を読むことができる私の懐疑論の次の繰り返しでは、アメリカの郡のデータと元の記事の著者に関する仮説をテストします 。
記事の最初の部分を見るのが面倒な場合は、ここに簡単な要約があります。 Human Nature誌に掲載された研究の著者は、成人人口の性比が深刻な犯罪(特に殺人)の有病率に影響を与えると主張しています。女性が多いほど犯罪も多くなります。 私は今でも全体が見逃された変数であると思います-中心性/周辺(都市/農村)-都市の女性の割合の増加と女性の犯罪の増加の両方を説明する必要があります。
気取らないヨーロッパのデータに関する推測を納得のいくように確認することができませんでした。 詳細なアメリカ人を試してみましょう。
データ
そして、胸がちょうど開いた(秒)
すべてが予想よりもはるかに単純であることが判明しました。 もちろん、私は1時間以上、さまざまなリソースをさまよっていました(米国のデータの利点...私たちはそうします)。 それで、私がまだ困難を描き、後で何十ものブックマークを保存していたときに、 この素晴らしいデータセットに出会いました。 データセットは、利用規約の登録および承認後に自由にダウンロードされます。
データはこの種の分析のために意図的に収集され、元の記事の著者のサイクリング専門化に疑念をもたらします。 このデータセットには、2001年から2006年の期間における米国の郡の変数の広範なリストが含まれています。 著者ほど最新のデータではありませんが、人間の性質が10年にわたって変化していることはほとんど期待できません。 調査を自由に繰り返し、関心のある仮説をテストするために、関心のあるすべての変数が含まれています。
探索的データ分析
まず、中央郡と周辺郡の主要な指標に大きな違いがあるかどうかを見てみましょう。 データセットには、郡が9つのタイプに分類されています(RuralUrban03、2003 ERS Rural-Urban Continuum Code)。 最初の3つのカテゴリは、さまざまな数の都市郡です。 カテゴリー4-9-農村、人口の違い、地域センターからの距離。
コードの説明
都道府県:
1人口100万人以上の大都市圏の郡
人口250,000〜100万の大都市圏の2つの郡
人口25万人未満の大都市圏の3つの郡
非大都市郡:
4メトロエリアに隣接する20,000人以上の都市人口
5メトロエリアに隣接していない20,000人以上の都市人口
6メトロエリアに隣接する2,500〜19,999人の都市人口
7都市人口2,500〜19,999人、大都市圏に隣接していない
8完全に農村部または都市部人口2,500人未満、大都市圏に隣接
9完全に農村部または都市人口2,500人未満、大都市圏に隣接していない
マップ上ではこのように見えます。 円は州の首都(赤)と大都市(金)を示します。

図1.中心性/周辺による郡の分類。
9つのカテゴリで作業するのは不便なので、詳細な分析では、最初の3つをmetro
カテゴリに結合し、残りをnon-metro
カテゴリにnon-metro
ました。
まず、男性と女性の比率が、Ravenstein移住法の結果を本当に反映しているかどうかに関心があります。女性は、短距離の移住で実際により活発であり、都市にはもっと多くあります。 成人期の性比による郡の分布を見てみましょう(図2)。

図2.成人期の性比による中央および周辺郡の分布。
性比が増加している郡(男性が優勢)では、周辺の郡が多いことが明らかに見られます。 周辺国の指標の中央値は1.039です。 中央1.016用。
郡ごとのマップは非常にノイズが多いことが判明したため、州ごとのマップを作成し、中央郡と周辺郡の平均性比を比較しました(図3)。 中央郡で性比がより高い州は実際にはありません。

図3.中央郡と周辺郡の平均性比。
移住のもう1つの視覚的な結果は、常に人口の中央値です。 平均して、移民は常に地元の人口よりも若いです。 したがって、移住は人口の年齢の中央値を再配分し、中央の領土を若返らせ、周辺の人口の老化を加速させます。 もちろん、この一般的な規則はアメリカのデータでも確認されています(図4および5)。

図4.人口の年齢の中央値の比率による中央および周辺の郡の分布。

図5.米国の郡の人口の中央値。
人口の年齢の中央値によると、彼は郡ごとに地図を作成しました。 まだかなりうるさいですが、一般的なパターンをキャッチできます。
最後に、都市と田舎での殺人はどうですか? ここで状況は奇妙です(図6)。

図6.人口10万人あたりの殺害率による中央および周辺郡の分布。
2004年にデータが収集されたとき、周辺郡の65.2%と中央郡の30.3%で殺害は発生していません。 さらに、それにもかかわらず周辺地域で犯罪が発生した場合、地方郡の人口が少ないため、係数はかなり高いことが判明しました。 もちろん、都市ではより多くの殺人があります。 都市の3番目の四分位数(75%)は55.4であり、州では人口10万人あたり36.7人が死亡します。 州および郡のタイプ別にデータを集計すると(図7)、ほとんどすべての州で都市犯罪が多いことが明確にわかります。

図7.中央郡と周辺郡の人口10万人あたりの平均殺人率。
したがって、初期の仮定はデータによって確認されます。 シミュレーションの結果がどうなるか見てみましょう。
しかし、最初に、郡ごとの米国の黒人人口のシェアの美しい地図を見てみましょう(図8)。著者の後にこの変数をモデルのコントロールとして使用するからです。

図8.米国の郡における黒人の割合。
モデル
そのため、ポアソン回帰を使用して、殺人率の性比およびその他の追加変数への依存をモデル化します。 変数を順番に紹介します。
怠azineは指定を変更することでした。 さらに、彼らは非常に話している。
asr-成人期の性比(15-44)
perstpov04-持続可能な貧困:貧困線以下の郡人口の割合は、最後の4つの国勢調査、1970年、1980年、1990年、2000年によると、少なくとも20%です。
pctblack05-黒人の割合
southSouth-南部州のダミー変数( 南対北 )
metroNon-metro-中心性/周辺性(周辺と中心)
uralurban03-9段階の中心性/周辺分類
unemprate05-失業
medianage05-人口の中央値
表1.殺人のレベルをモデル化した結果。
モデル1〜4の結果は、Human Natureの記事の著者が引用したものと非常に似ています。 モデル2からモデル3に切り替えると、変数「定数貧困」の係数が符号を変更することは、おそらくここで興味深いです。 黒人人口の割合が貧困の変動を説明していることがわかります。
モデル4と5を比較することに興味があります。制御変数として中心性/周辺性を導入すると、性比の係数は負の値が大幅に小さくなります。 つまり、中心性/周辺性の違いは、殺人の頻度と性比の間の特定された関係の重要な部分を説明します。 残りのモデルはそれほど興味深いものではありませんが、残っています。
結論
感覚は起こらなかった。 しかし、実際には、郡の中心性/周辺性は、著者によって明らかにされた性比と犯罪率の間の関係をほぼ半分弱めます。 私がテストした他の追加変数は、同じ重要な効果を持ちません。 したがって、私の疑いは半分確認されました。 領土の地位は多くを意味しますが、完全に明らかにされた関係を平準化しません。 しかし、疑いもなく、元の記事の著者は重要な変数の1つを見逃していました。
再現性
すべての結果を再現するためのR
コード( gist )。 2016-11-10以降のパッケージでR
バージョン3.3.2を使用する場合に機能することが保証されています。 パッケージに互換性がない場合は、適切な日付を設定してチェックポイントパッケージを使用します。