Grail Telecom Data Cupコンペ。 一番ホットな





11月初旬、コードネームTelecom Data Cupと呼ばれる機械学習およびデータ分析選手権が 、Mail.Ru GroupとMegaFonによって組織されました。



このコンテストは、すでに有名なML Boot Campプラットフォームで開始されます。 私たちは、データ分析コンテストの大部分を実施しようとしています。 このコンペティションは、今年で2回目であり、プロジェクトの存続期間全体で7回目です。 以前のチャンピオンシップはサンドボックスモードで開かれているため、昼夜を問わずいつでも過去の課題を解決することができます。



2500人以上のユーザーが現在のコンテストに登録し、1700人がデータセットをダウンロードし、7800の異なるソリューションがアップロードされ、 チャットコミュニティは1600人の参加者を超えました。 コンテストは12月16日に終了しますので、まだファイトクラブに参加していない場合は、ファイトクラブに参加しましょう。 皆様を歓迎し、お手伝いします。 コーヒーまたはあなた自身の何かとあなたを助けるために爽快に:)











記事のフッターには、このコンテストおよび以前のコンテストに関する有用なリンクと資料があります。 主なことは、現在、Telecom Data Cupタスクの世界に飛び込むことです。これにより、プロセスにすばやく参加し、実際の研究を楽しむことができます。



タスクについて簡単に



チャンピオンシップで何が起こっているかをすでに知っている人は、次のセクションに進むことができます。



私たちは皆、「マーケティング担当者」の強迫観念的な電話とインターネットの世論調査にうんざりしています。 彼らがあなたに電話をかける方法を想像して、あなたが今テレビを見ているか、どのチャンネル、現在いくつのデバイスがオンになっているか、そしてどんな種類のテレビ番組が起こっているかを尋ねてください。 神様、私は本当に電話を落としたいです(私たちは頻繁にそうします)。 ユーザーはinし、フィードバックの共有に非常に消極的であり、提供されるサービスの品質に悪影響を及ぼします。 問題には解決策が必要です。



この競争では、MegaFonテレコムオペレーターによって提供され、実際のライブ顧客の調査中に取得された匿名ユーザーデータに基づいて、サブスクライバーが通信の品質に満足しているかどうかを予測するために、通信の世界に没頭する必要があります。



9443のサブスクライバーが調査されました。 調査の結果は、各サブスクライバーの満足度指数であり、ゼロ(0-満足)または1(1-満足していない)に等しくなります。 不満のある顧客をできるだけ正確に特定する必要があります。



決定を評価する指標はROC AUCです。 subs_csi_test.csvファイルと同じ順序で5221サブスクライバーの予測を行う必要があります。 データはプラットフォームのWebサイトからダウンロードできます。 予備結果は、2088人のサブスクライバーの回答によって生成され、最終結果は、3133人のサブスクライバー(40/60)の回答によって生成されます。 1日あたりのソリューションダウンロードの最大数は5で、選択したソリューションの数は2です。



グラール











この挑戦はコミュニティの好奇心を呼び起こしました。 参加者はさまざまなソリューションを選択します。 一部のモデルはNモデルを生成し、それらを参照し、フローダウンおよびフローダウンします。そして出来上がりです。 他の人は機能を生成し、 リポジトリに投稿された講義を通じて「情報システムと技術」の分野を研究し、すべてがうまくいくようです。 そして、いくつかは、良いシードを持つランダムに依存しています。



コンテストの終わりにリーダーボードをより美しくするために、タスクに関するGraalsを共有します。



聖杯番号0。







講義でチャットGithubリポジトリに注意してください。 多くの有用な情報があります。 私たちの多くは、ネットワークがどのように機能するかについてほとんど考えていません。 求める者はいつも見つけます! BS操作の説明と、サービスごとの属性の配布を含むファイルを含む短いプレゼンテーションがリポジトリに追加されました。











チャットでは、参加者は主催者を拷問します。 抑えようとするが、難しい。







聖杯番号1



提案されたデータでは、 cell_lac_idフィールドは1つのセルを示します。 各セルは、2世代、3世代、4世代(LTE)の1世代のみの通信に属します。 世代が属するセルごとに決定することをお勧めします。



聖杯番号2



各電話には、2G、3G、4Gをサポートする最大のデータ転送テクノロジーがあります。 これに関する情報は、 subs_featuresテーブルのINTERNET_TYPE_IDフィールドに含まれています。 フィールドはエンコードされます。 このフィールドのどの値がどのテクノロジーに対応するかをどのように判断できるかを検討してください。



聖杯番号3



注:一部のクライアントが4Gをサポートする電話を持っているが、3Gまたは2Gのセルを介してトラフィックをダウンロードすることが多いという歴史から、この事実は彼の通信品質の認識にどのように影響しますか?



グレイル№4



顧客は、頻繁に(定期的に訪問する)ハニカム(自宅、職場、道路、店舗など)と、まれにしか使用しないハニカムを持っています。 顧客にとってどの品質がより重要だと思いますか? 重要なハニカムはどのように識別できますか?



グレイル№5



インターネットトラフィックのsubs_bs_consumptionテーブルには、転送されたデータの量(SUM_DATA_MB)とそれに費やされた時間(SUM_DATA_MIN)の両方に関する情報が含まれています。 このデータからセル上の顧客体験に関するどのような情報を抽出できますか?



グレイル№6



テーブルbs_avg_kpiおよびbs_chnn_kpiには、1日に平均および最繁時(CNN)の両方で、数か月の履歴を持つ多数のセル特性に関する情報があります。 これらの特性の点で互いに類似しているセルのグループを選択してみてください。 たぶん、総質量とは非常に異なる細胞がありますか? これらのセルを頻繁に訪れる顧客はどうなりますか?



これで主催者からの聖杯は終わった。 彼らはより良いプライベートな会話を達成するのに役立つと確信しています。 うまくいきません。ランダムにロードすると、Tシャツに飛びます。 すべての最も興味深い先。 チャンピオンシップの終わりに、リーダーボードが燃えます:)トップ5を覚えておいてください!







スケジュール



チャンピオンシップの終了日は12月16日で、12月22日はMegaFonのオフィスで報われます。



プレゼント



1位:400,000ルーブル;

2位:200,000ルーブル;

3位:100,000ルーブル。



伝統的に、トップ200にはチャンピオンシップのシンボルが入ったTシャツが贈られます。

さらに、特別な指名があります。













コミュニティ



Telegramでコミュニティに参加してください。 いつでも質問をしたり、データサイエンスの分野で専門的なアドバイスを得ることができます。 Mail.Ru Group Championship Communityは、志を同じくする人々を簡単に見つけることができるネットワークです。



便利なリンク



  1. MLブートキャンプI( 機械学習ブートキャンプ-方法...
  2. MLブートキャンプII( MLブートキャンプ2016。トップ10の新機能「パフォーマンス評価」。非常に簡単です...
  3. MLブートキャンプIII。 バイナリデータ( MLブートキャンプIIIを行ったよう に、MLブートキャンプIの勝者...コンテストMLブートキャンプIII:残り半分の予測...
  4. MLブートキャンプIV。 シークレットタスク( MLブートキャンプIV。4番目。シークレット。
  5. MLブートキャンプV. CVDの予測( AgeHack-長期にわたる最初のオンラインハッカソン...MLブートキャンプV、3か月の決定履歴...MLブートキャンプチャンピオンシップの結果に基づくMeetup
  6. ML Boot Camp VI。 オンライン調査に対する聴衆の反応の予測( ML Boot Camp VI。聴衆の反応の予測...ML Boot Camp VIの最初の場所の歴史 )。



All Articles