Rを使用した雇用市場の可視化

労働市場は、労働の需要と供給の古典的な形成です。 また、労働の需要側では、多くの人材派遣会社と求人検索ポータルは、利用可能なオファーに関する何らかの分析です(ただし、必ずしも必要な形式ではありません)。 (申請者の)供給側では、分析ははるかに小さく、誰にとっても一般的ではない分析であり、ほとんどの場合、それはいくつかの一般的な分野での所望の収入、または単に履歴書の名前による単純なカットです。

画像

私は、履歴書の任意の選択(名前、キーワードなど)によって、そのような選択の主な特徴、給与、年齢などの分布をグラフィカルに、また任意のパーセンタイルとして表示するツールに興味がありました。 切望の下で、私の欲望の結果。



データ収集



したがって、データを視覚化するには、実際のデータが必要です。そのようなデータの最大のソースは、 HeadHunter Webサイトです。 彼がAPIを持っていることを知って、私は今、彼と一緒に、すべてをすばやく取得し、何も解析する必要はないと考えましたが、彼の説明を読んだ後、そのデータベースへのアクセスは雇用主のみが可能であることがわかりました、さらに、求人のみを目的としています。 しかし、何もありません。hh.ruは一般公開されており、インターネット全体に公開した人の概要が記載されたセクションがあり、それらを見ることができます。 これらの人々のうち、私たちは希望する収入を示した人々とその大多数-80%に興味を持っています。

その結果、データ収集を2つの方法で実装しました-import.io APIを使用しデータを収集し(最初はより高速な実装として)、Rを使用して直接収集および解析することにより、この方法は最終的に20%高速になりました。 したがって、履歴書の最大数は5,000です( hh.ru制限)は3分で収集されますが、通常、関心のある要求でははるかに少ないため、2つの収集方法の即時の時間差は数秒です。



データの概要



ほとんどの場合、このサンプルは偏っています。履歴書をインターネット全体に公開するほとんどの人は仕事を見つけることに関心があり、その結果、彼らの収入の期待はやや過小評価されている可能性が高いという仮定から進みます。 しかし、完全なデータベースにアクセスしないと、この仮説を検証することは不可能です。つまり、そうです。

得られた結果を分析すると、このバイアスをいつでも思い出すことができ、たとえば、結果に数パーセントをかけることができます。 サンプルをさらに2つの部分に分割することも決めました。履歴書は6か月以上に更新され、傾向を評価するため、危機が申請者の期待と年齢に悪影響を及ぼすかどうかです。



Web GUI



hhサイトでの最初のリクエストの形成は非常に強力であるため、R-Shinyアプリケーションで個別に複製することは実用的ではないため、元の任意のリクエストはhhサイトで生成され、このハイパーリンクをアプリケーションで指定するだけです(この例では、次のリクエストが使用されました(それ自体そのような要求に興味がない): モスクワ、IT /テレコム、プログラミング/開発、3年の経験 )。 このハイパーリンクは、ページごとに100個の広告の出力に自動的に変換され(データ収集を高速化するため)、選択の主な特徴がこのソースページで既に示されているため、データが収集されます(要約に移動しません)。 必要な変換(ルーブルの給与と年齢のない履歴書の除外、これがhh Webサイト自体で行われなかった場合、履歴書の日付の処理)の後、投稿タイトルからの概要図に加えて、このサンプルのさまざまな図が作成されます。 1、3。これはすべて、 Shiny Dashboardパッケージを使用して行われます。 図1の図から、給与と年齢の両方の分布密度をこれらの値の10進で見ることができます(ちなみに、視覚的には、6か月以上前と現在の応募者の期待は同じです)。



画像

図 1.年齢と給与の密度分布



また、サイドメニューの別の項目(図2)には、すべての履歴書が便利な表形式で表示されます。この表では、並べ替えまたは検索フィルターに加えて、特定の何かを見つけることができます。



画像

図2データ表



最後の図(図3)では、特定の年齢別の主な収入特性(最小、3つの四分位数、最大値、排出量)と一般的な収入傾向(平滑化曲線が示されている見出し後の散布図に加えて)の両方を見ることができます。



画像

図3箱ひげ図(年齢別収入分布)



おわりに



Rについての次の投稿では、多くの任意の「私たちの周りのデータ」を迅速かつ簡単に処理し、知覚のためのより視覚的で便利な方法で提示できることを示したいと思いました。 この場合、たとえば、業界、労働圏、またはその逆の「広い」ビューとして評価することができます。逆に、「狭い」-可能な限り多くのパラメーター(キーワード、方向)でクエリを詳細化し、主な傾向を確認します。



All Articles