Kaggle人口調査アンケートコンテスト

米国国勢調査コンテストは、2013年のアメリカコミュニティ調査で興味深い事実を見つけるために、現在kaggleで開催されています。 このアンケートのデータは無料で利用できます。詳細はこちらをご覧ください

Kaggleは、分析のために2つの領域を選択しました-個人情報(性別、年齢、婚ital状況など)および世帯情報(住宅、世帯収入、納税などのさまざまな特性)。 私は自分の結果を共有したいと思います 。これは、所有権のタイプに応じた世帯の違いに焦点を当てています-保有権(住宅ローンまたはローン)、保有権、非保有(家賃)。





インフォグラフィック: アメリカ住宅調査ファクトシート



American Community Survey(ACS)データは加重され、研究デザインは反復加重によって与えられます。 そのため、意味のあるすべての統計に重みが付けられます。 国内のすべての世帯は、地理的に2351のクラスターに分割され、各クラスターの人口は約10万人です。 これらのクラスターは、PUMA(公用マイクロデータ領域)と呼ばれます。 次に、ターゲットオーディエンスを検討するすべての場所で、家計が財産に制限のある住宅所有者であるか、家の所有者であるか、家を借りています。 このターゲットオーディエンスは、国内の総世帯数の約86%です。



住宅ローンとレンタル費用の比較

次の2つのグラフは、これらのクラスターの住宅ローンと家賃の平均世帯支出を示しています。 最初のグラフの単位は、住宅ローンの費用/家賃の家賃のシェアであり、2番目のグラフは、住宅ローンの家賃/家賃を月あたりのドルで示しています。 両方のグラフの赤い線は、住宅ローンの比較的短い間隔を借りるための中央値を示しています。







平均して、それを借りる世帯の住宅費の割合は、住宅ローンで住宅を購入した世帯のそれよりも高いことがわかります。 しかし、絶対的な観点では、状況は逆転します。平均して月額の支払いは、2番目のグループの方が高くなります。 これらの観察結果は、ほぼすべての地域で有効です。



世帯収入のレベルに応じた、住宅の主な所有形態

3種類の所有権のいずれかを持つ世帯の株式の、その年の収入の10分の1ごとの配分を考慮してください。 つまり、ターゲットオーディエンスを収入レベルに応じて10の等しい部分(ウェイトを含む)に分割します。 最初のグループには、世帯収入レベルを上げることで、最低収入の世帯の10%などが含まれます。



次の結果が得られます(赤は賃借人の割合、薄い灰色-制限のない所有者の割合、青-住宅ローンの所有者の割合)











収入のレベルに応じて、不完全な住宅ローンの支払いのある賃貸住宅と所有者のシェアの差の傾向を見るのは簡単です。 これらの株式のおおよその平等(37〜38%)は5桁で達成されます。 収入の増加に伴い、3桁から始まる住宅の負担のない所有者の割合は、収入が最も高い最後のグループを除き、十分位あたり1.5%減少します。



住宅の所有権のタイプに対する社会的要因の影響

3種類の家族を検討する



以前は、対象オーディエンス全体を年間の世帯収入で10分の1に分割しました。 これらのクラスの各家族の所得レベルの分布を、得られた十分な得られた境界に従って検討します。











予想どおり、両方の配偶者が働いている家族の収入は、上位10分の1に大きく偏っています。 以前の情報に基づいて、住宅を借りるこのクラスの家族の割合は全国平均よりも少ないと仮定することができます。 そう、ほぼ半分











ご覧のとおり、妻だけが働いており、夫が働いておらず、仕事を求めていない家族は、両方の配偶者が働いている家族に比べて裕福ではありません。 妻だけが働く教室で住居を借りる家族の割合が、両方の働く配偶者のいる家族の入居者の割合よりも大きいというのは本当ですか? いいえ。











両方の配偶者が働いている家族の年間の一人当たりの平均収入が、他の2つのクラスの家族のそれを上回ることを確認してください。 以下のチャートは、最初の3つの四分位数における一人当たりの平均収入の範囲を示しています。











次に、これらのクラスの所有権タイプのシェアの、すべての世帯の収入の四分位数による分布を見てみましょう。











同じ収入レベルの各グループでは、妻だけが働いている家族のテナントの割合が最も低くなっています。 これらの違いが統計的に有意であることを示します。 これを行うには、スタディのデザインを設定します。 その後、フォームのロジスティック回帰を見つけます



画像






標準偏差とp.valueの値を持つモデル係数の次の表を取得します











つまり、4つすべてのケースで、係数B_2は0とは大きく異なります。Waldテストを使用して、係数B_2-B_1の線形結合の場合、4つすべてのケースで係数B_2が係数B_1より大幅に小さいことがわかります。



これは、配偶者のみが働いている家族は、他の2つのクラスの家族よりも住宅を借りる可能性が低いという私たちの仮定を証明しています。 結果として生じる違いは、所有権を制限せずに自分の住宅を所有している家族の割合に影響することを示すことができます。



興味のある方はkaggleへのこのリンクをたどってください。コントロールとツール、R言語でのすべての計算のコード、追加情報とグラフィックスを備えた本格的なGoogleチャートが配置されています。



All Articles