モスクワの学校のための統一国家試験、国家アカデミック試験およびオリンピックの結果の研究。 どの学校がどの大学に行く

1か月前、私はオープンデータに関するハッカソンへの参加について書きました



ハッカソンの後、私たちは通常そうであるようにそこで止まりませんでしたが、働き続けました。 以前は教育省の従業員だけがアクセスできたデータを手元に持っていました:モスクワの学校の90%の2014年から2015年のオリンピックでの州の学業試験と勝利の結果。 55%の学校では、2015年に試験に関するデータを収集できました。 VKontakteのモスクワの学童のすべてのアカウントをポンプでくみ、卒業後にプロファイルに表示する大学を調べました。



当然、そのようなデータセットを研究することは興味深いものでした。 まず、教育関係者がおそらくよく知っている些細なこと:





一部の学校では、2014年の試験に関するデータがあるため、2年間のダイナミクスを調べることができます。







一部の学校では、USEスコアだけでなく、科目に合格した生徒の数もあります。 分野の人気を見ることができます。 ほとんどの場合、主題の人々はすでにこれを知っています:







話題の人気が高いほど、その平均スコアは高いと思いました。 しかし、逆のことが当てはまるようです。





GIAについて少し説明します。 学校でGIAに合格すればするほど、2年とUSEスコアの後で良くなると思いました。 これはロシア語と数学にのみ当てはまり、一部は社会科学にも当てはまることが判明しました。 なぜだれが知っているのですか?







被験者の選好が変わるという仮説がありました。 たとえば、9年生の物理学を引き継いだ人たちは必ずしも11年生の物理学に合格するわけではありません。







たぶん、それは割り当てにあります。 平均GPAスコアに従ってアイテムを注文した場合、注文はUSEの注文とはまったく異なります。







今、オリンピックについて。 すべての科目でモスクワおよび全ロシアのオリンピックの勝者が多数います。 オリンピアードでの成功が、学校での試験の平均スコアと相関するかどうかを確認するのは興味深いことでした。







座標はすべての学校で知られています。 はい、たまたまいくつかの建物がありますが、今のところは法的な住所を見ています。







学校がセンターに近ければ近いほど良いと思いました。 しかし、これは事実ではないようです。 少なくとも平均試験スコアは、センターへの近さに依存していません。







おそらく、一部の人は、データがどこから来て、なぜ信頼できるのかについて興味を持っています。 GIAとオリンピアードの結果は、教育省から親切に提供されました。 彼らは、すぐにこのデータが公開されると約束した。 被験者の試験結果は、何らかの理由で大きな秘密とみなされるため、学校のウェブサイトから手動で収集する必要がありました。 すべてのモスクワの学校はmskobr.ruポータルでホストされており、誰もが「 公開レポート 」セクションを持っています。 通常、学校の校長が過去1年間に任意の形式で報告するドキュメントへのリンクがあります。 当然、すべての学校はレポートの内容とデザインをさまざまな方法で見ることができます。







したがって、自動データ収集を忘れなければなりませんでした。 PDF文書の表を認識するためのクールなツール-Tabulaを使用しました 。 彼らはそれを少し修正し、データ収集プロセスは次のようになりました。







〜30時間後、〜600のドキュメントすべてが処理されました。 試験のデータを取得することが判明したのは、〜55%だけでした。 多くの場合、レポートのデータは古くなっているか、試験の結果は平均スコアではないか、正確に平均スコアではありませんが、たとえば、最大値のみです。 その後、試験でポイントを獲得することができた約300の学校で、データの確認を求める手紙が送られました。 〜30校が回答し、2校がエラーを発見し、5校がレポートよりもわずかに高いスコアを送信し、残りは「規範」と回答しました。 つまり、精度に大きな問題はなく、完全性に問題があります。 300校までのポイントを獲得する必要があります。



次に、連絡先に進みました。 目標は、どの学校からどの大学に最も頻繁に来るかを決定することでした。 最初のステップは、学校の正式名称とContactが使用する名称を結合することでした。 これはそれほど単純ではありません。 たとえば、「学校No. 17」があり、VKには「Evening School No. 17」、「Music Sc​​hool No. L. N.オボリーナ "、"寄宿学校No. 17 "。 また、連絡先では、1000件の検索結果のみを受信できます。 学校が1000以上のアカウントにリストされている場合、モスクワの学校ではほとんどの場合これが当てはまりますので、何かを考え出す必要があります。 「学校No. 17」というクエリをいくつかに分割しました。「学校No. 17の6〜14歳の女の子」、「学校No. 17の6〜14歳の男の子」、「学校No. 17の女の子15〜17」、「学校No. 17の男の子」 15から17まで」など。 検索クエリにはあいまいな制限があるようです。 約50回の通話の後、約1時間禁止されました。 何らかの方法で、数日後、すべてのアカウントがポンピングされました。 1つの学校は平均で約1800人を占めており、そのうち約450人が大学を示しています。





このデータをそのまま使用すると、奇妙な方法で、モスクワの学童の90%がモスクワ州立大学に進学します。 したがって、次の洗練されたアルゴリズムが使用されます。モスクワ州立大学を捨てます。 はい、たとえば、人民の50%がモスクワ州立大学に向かうリセウムNo. 1533の場合、このアルゴリズムはうまく機能しませんが、他のアプローチはすべての学校のカバレッジをひどく悪化させます。 たとえば、〜450人ではなく、〜45人のままであり、大学向けの配布を構築することはできません。 絵で学校で勉強した人は、ヒストグラムが正しいかどうかを書いてください:





obr.msk.ruで他の学校を検索してみることができます。



All Articles