市町村モイラ、または役人のキャリアに影響するもの

こんにちは、Habr! Why So Serious Hackに関する以前の投稿で約束したように、このシリーズの次のストーリーを準備しました。 今回は、サンクトペテルブルクの欧州大学が4月21〜22日に開催した市立モイラハッカソンについてお話します。







はじめに



たまたまこのハッカソンは珍しく、なぜそれほど深刻なハックにも非常に似ていました。 しかし、主催者が交差し、両方のイベントの技術的な部分を同じ人が担当したことを考えると、これは驚くことではありません。 したがって、ハッカソンの思い出は新鮮であり、以前の投稿についてはあなたのものですが、私たちは今それについて書くことにしました。



しかし、前の記事を読んでいない人のために、私はそのような競争の形式について繰り返します。 彼らは自分たちのプロジェクトのアイデアを発明し、実装する必要はありません。 代わりに、出場者はデータ分析に関する質問をされ、24〜48時間後に回答する必要があります。



質問に加えて、主催者は、特定の目標値を予測するモデルをトレーニングするために提案されるデータを提供します。 閉じたテストセット内のモデルの精度がわかれば、初期データに関する仮説をテストできます。 これにより、参加者はどのように考えるかを理解しやすくなり、調査結果を確認でき、正確性が向上します。



モデルの品質は、テストシステムを使用して確認できます。 いいえ、多くの人が示唆しているように、kaggleではなく、電報でボットを使用しています! リーダーボードの場所は勝者を決定するものではありませんが、チームの順序に影響します。 より良い速度-以前のプレゼンテーション。 審査員は、質問に対するチームの回答の深さ、品質、独創性、洗練度に基づいて賞を授与されます。 しかし、これについてはもう少し詳しく説明します。



ハッカソン組織



前回同様、ハッカソンがどのように組織されたかについていくつかの言葉から始めましょう。



イベントは欧州大学の建物で開催されました。 残念ながら、夜を過ごすための特別に指定された場所はありませんでしたが、ハッカソンは30時間続いたので、これは大きな問題ではありませんでした。 サイトには十分な栄養がありませんでしたが、主催者は部屋にお茶、コーヒー、パイ、クッキーを用意しました。 すべてはトップハッカソンの説明のようには聞こえませんが、EUSPの現在の困難な状況を知っているので、それはすべて許すことができます。



賞金は100,000ルーブルで、1つのチームのみが受け取りました。



ケースとソリューション



EUSPのRes Publicaセンターのチームは、イベントを開催し、2007年から2018年にかけて、ロシアでの自治体ガバナンスの質とそのダイナミクスに関する調査を実施します。



そのため、ハッカソンの参加者は、都市と地域の首長の経歴の決定要因についての質問に答えなければなりませんでした。 市長の解任は彼の仕事の非効率性の指標であり、より高いレベルへのキャリアアップはその逆であると想定されています。 私たちの意見では、これは論理的であり、現実にはそうあるべきです(ネタバレ:いいえ)。



職員の経歴を予測するためのデータとして、彼らの経歴データ、および自治体のデータベースからのさまざまな指標を使用することが提案されました。 たとえば、道路の一般的な状態や病院の数。



参加者は、18年の期間にわたって自治体の長の歴史がありました。 データセットの各エントリは、特定の年のチャプターのキャリアの状態について言及しました。つまり、次のフィールドが含まれていました。年と地域、市町村、役職、性別と年齢、教育のレベルと範囲、キャリアの現在の状態など。



データは匿名化されましたが、必要に応じて復元できます。 これは規則違反とみなされ、失格により罰せられました。



ここで最も興味深い分野は、予測が必要なのはこの分野だったので、キャリアの状態です。 章の経歴の状態は、3つの意味(「ポストに任命された」、「作品」、「ポストから解任された」)だけでなく、より多様で詳細なセットによって説明されます。 たとえば、モスクワ地域の長は、健康上の理由により、または彼に対して提起された刑事事件に関連して辞任する可能性があります。 合計13のそのようなカテゴリがありました。



チャプターのキャリアパスの典型的な例:



チャプターのキャリアパスの典型的な例



以前の投稿の一部の読者がより技術的な点を求めたので、それらについて少しお話しします。



最初に、将来の年ではなく、並行して生活する他の候補者のキャリアパスを予測する必要があったことを明確にします。 しかし、私たちの意見では、これは未来を予測するよりもはるかに退屈な作業です。 ただし、ルールはオーガナイザーによって設定されます。

one-vs-restモデル、つまり、クラスごとに個別の分類器を作成することに決めました。 サンプルの答えとして、例がこのクラスに属すると確信しているモデルのクラスを選択します。



データを少し調べてから、年に応じて「選挙での勝利」というカテゴリの発生頻度に注目しました。 5年ごとのピークが写真にはっきりと見えます。 そして、これは、ほとんどの候補者が次の5年間に頻繁に選ばれる場合、かなり論理的に思えます。







次に、地域に応じてカテゴリがどのように分布しているかを確認することにしました。 以下の図を得るために、最初にすべてを列で、次に行で正規化しました。







上記のヒットマップから、一部のセルが他のセルと比べて際立っていることがわかります。 たとえば、ウドムルト共和国では、他の地域よりも頻繁に投稿が削除されます。 そして、ヤロスラブリ地域では、候補者はしばしば別の仕事に転職します。



そのような機能が存在するため、これらすべての機能、つまり地域ごとのクラスの頻度を追加することにしました。 そして、それは本当に助けになりました。モデルの機能の重要性を見て、周波数が最も重要な役割を果たすことを確認してください。









以下に、それぞれ再割り当てと廃止の2つのクラスの例を示します。



もう1つの興味深い技術的ポイントは、自治体のデータを含む追加データベースの重量が30 GBを超えているため、解析するか、処理に十分なRAMを備えたサーバーにダウンロードできることです。







このデータベースには、自治体に関するさまざまな情報が含まれていました。 ただし、その使用は結果を改善するのに役立ちませんでした。



上で述べたように、テストは電報の特別なボットを使用して実行されました。 参加者は彼に回答を送信し、ボットは評価指標の値とチームの位置を結果テーブルに返します。 つまり、誰も知らない他のチームの結果です。 たとえば、これはこの競争では次のように見えました。







ただし、本当にしたい場合は、少しカンニングをすることができます。結果をシステムに送信することは最善ではなく、下からチームが頭の後ろでどれだけしっかりと呼吸しているかを理解します。



F1速度の値がかなり小さいのはなぜかということに言及したいと思います。 問題は、クラスには強い不均衡があるということです。 いくつかは非常に多く、他はわずかです。 そのため、多くのクラスを高い精度で予測し、一部のクラスはテストで数回しか発生しませんが、印象的なメトリック値は得られません。



誰かが、なぜこのような競争をkaggleで開催しないのかと言う理由を吐き出し始めることができますか? 私は同意します、kaggleはとてもいいシステムです。 ただし、ボットを使用したテストは、競合に異常を与えるほど普通ではないように見えます。



そしておそらく多くの人がハッカソンに参加したのは6チームだけだと気づいたでしょう。 これは非常に悲しいことです。ハッカソンはさまざまなチャットルームで公に宣伝されていましたが、参加者は約20人しかいませんでした。 それで、勝利は特別な挑戦ではありませんでしたが、私たちが勝利して経験を積んだので、それについて話してみませんか?



結果



ハッカソンの最後にチームのパフォーマンスがありました。 最初に作品を発表しました(スライドはこちらでご覧いただけます )。 ネガティブな点から:審査員は私たちがあまりにも専門的な言語で話したと述べ、いくつかの用語は文脈でのみ理解されました。 スライドを編集するときとスピーチをリハーサルするときの両方について考えてください。



話の直後に、1つの重要な間違いに気付きました。 勝者はリーダーボード上の位置によって決定されないという事実にもかかわらず、今回はなんらかの理由で目標を盲目的に追いました。



また、ju審員は説得力のある回答を受け取っていないと考えていますが、彼らのリコールによって判断すると、他の結果も有用です。 ちなみに、これは私たちにとって最初のハッカソンであり、その後、コードへのアクセスを公開し、使用されているソリューションと兆候を簡単に説明するように求められました。 結果は、この分野の研究に役立つことができてうれしいです。



小さく明白な結論として、友人:イベントのレベルと規模にもかかわらず、あなたが追求する主な目標を決して忘れないでください。



投稿はavgaydashenkoと共同で書かれました



All Articles