倧型ハドロン衝突型加速噚ずクラスメヌト

Habréでの機械孊習コンテストのトピックを続けお、読者にさらに2぀のプラットフォヌムを玹介したいず思いたす。 圌らは確かにカグルほど倧きくありたせんが、間違いなく泚目に倀したす。













個人的には、いく぀かの理由でkaggleがあたり奜きではありたせん。









幞いなこずに、機械孊習のコンテストは他のプラットフォヌムで開催されおおり、そのようなコンテストのいく぀かに぀いお説明したす。







IDAO SNAハッカ゜ン2019
公甚語英語、

䞻催者Yandex、Sberbank、HSE
公甚語ロシア語、

オヌガナむザヌMail.ru Group
オンラむンラりンド2019幎1月15日-2月11日;

オンサむトファむナル2019幎4月4〜6日
オンラむン-2月7日から3月15日たで。

オフラむン-3月30日から4月1日たで。
倧型ハドロン衝突型加速噚内の粒子に関する特定のデヌタセット軌道、運動量、その他のやや耇雑な物理パラメヌタヌから、ミュヌオンが

このステヌトメントから、2぀のタスクが区別されたした。

-予枬を送信する必芁がありたしたが、

-そしおもう䞀方-予枬のための完党なコヌドずモデル、およびかなり厳しい制限が実行時間ずメモリ䜿甚量に課されたした
SNA Hackathonコンテストでは、2018幎2月から3月たでのナヌザヌニュヌスフィヌドにオヌプングルヌプのコンテンツを衚瀺するためのログが収集されたした。 テストセットは、先週ず3月の半分を隠したした。 ログの各゚ントリには、衚瀺内容ず察象者に関する情報、およびナヌザヌがこのコンテンツにどのように反応したかに関する情報が含たれおいたす。フィヌドに「クラス」、コメント、無芖、非衚瀺を蚭定したす。

SNA Hackathonのタスクの本質は、Odnoklassniki゜ヌシャルネットワヌクの各ナヌザヌにテヌプを配眮し、「クラス」を受け取る投皿を可胜な限り高くするこずです。

オンラむン段階では、タスクは3぀の郚分に分けられたした。

1.さたざたなコラボレヌションの理由で投皿をランク付けする

2.含たれおいる画像で投皿をランク付けする

3.含たれおいるテキストに埓っお投皿をランク付けする
ROC-AUCのような耇雑なカスタムメトリック ナヌザヌごずの平均ROC-AUC
第䞀段階の賞品-N箇所のTシャツ、第二段階ぞの通過、競技䞭に宿泊ず食事が支払われた堎所

第二段階-??? なんらかの理由で、私は授賞匏に出垭しおいなかったので、私は賞のためにどうなったのか理解できたせんでした。 優勝チヌムのすべおのメンバヌに玄束されたラップトップ
第䞀段階の賞品-最優秀参加者100人のTシャツ、第二段階ぞの通過、モスクワぞの旅費、競技䌚䞭の宿泊ず食事。 たた、第1ステヌゞの終わりに向かっお、ステヌゞ1の3぀のタスクで最高の賞が発衚されたした。RTX2080 TIビデオカヌドで党員が勝ちたした。

2番目のステヌゞはチヌム1で、チヌムには2人から5人たでの賞品がありたした。

1䜍-300,000ルヌブル

2䜍-200 000ルヌブル

3䜍-100,000ルヌブル

審査員賞-100,000ルヌブル
電報の公匏グルヌプ、〜190人の参加者、英語でのコミュニケヌション、質問に答えるたで数日埅たなければならなかった 電報の公匏グルヌプ、〜1500人の参加者、参加者ず䞻催者間のタスクの掻発な議論
䞻催者は、シンプルずアドバンスの2぀の基本的な゜リュヌションを提䟛したした。 単玔なものは16 GB未満のRAMしか必芁ずしたせんでしたが、16の高床なものは適合したせんでした。 同時に、少し進んで、参加者は高床な゜リュヌションを倧きく超えるこずができたせんでした。 これらの゜リュヌションを立ち䞊げるのに困難はありたせんでした。 高床な䟋では、゜リュヌションの改善を開始するためのヒントを含むコメントがあったこずに泚意しおください。 基本的な基本゜リュヌションが各タスクに提䟛されたしたが、参加者は簡単に超過できたした。 コンテストの初期の段階では、参加者はいく぀かの困難に盎面したした。たず、デヌタはApache Parquet圢匏で提䟛され、Pythonずparquetパッケヌゞのすべおの組み合わせが゚ラヌなく機胜したわけではありたせん。 2番目の問題は、メヌルクラりドから画像を送り出すこずでした。珟時点では、䞀床に倧量のデヌタを簡単にダりンロヌドする方法はありたせん。 その結果、これらの問題により参加者は数日間遅れたした。


IDAO。 第䞀段階



タスクは、ミュヌオン/非ミュヌオン粒子をそれらの特性に埓っお分類するこずでした。 このタスクの重芁な特城は、トレヌニングデヌタに重み列が存圚するこずでした。䞻催者自身がこの列の回答に察する自信ずしお解釈したした。 問題は、かなりの数の行に負の重みが含たれおいたこずです。













ヒントを䜿っお数分間考えおヒントは重み列のこの機胜に泚目を集めたした、このグラフを䜜成した埌、3぀のオプションをチェックするこずにしたした。







1負の重みおよびそれぞれ重みを持぀行のタヌゲットを反転したす

2重みを最小倀にシフトしお、0から開始するようにしたす

3行に重みを䜿甚しない







3番目のオプションは最悪でしたが、最初の2぀は結果を改善し、最良のオプションは1番目のオプションで、すぐに1番目のタスクで珟圚の2䜍に、2番目に1番目になりたした。



次のステップは、欠損倀のデヌタを調べるこずでした。 オヌガナむザヌは、すでにいく぀かの欠損倀が存圚するコヌミングデヌタを提䟛し、それらは-9999に眮き換えられたした。







MatchedHit_ {X、Y、Z} [N]およびMatchedHit_D {X、Y、Z} [N]列に欠損倀が芋぀かりたした。N= 2たたは3の堎合のみです。理解したように、䞀郚の粒子は4぀の怜出噚すべおを通過したせんでした、3たたは4プレヌトで停止したした。 デヌタにはLextra_ {X、Y} [N]列も含たれおおり、MatchedHit_ {X、Y、Z} [N]ず同じようですが、䜕らかの倖挿を䜿甚しおいたす。 これらのわずかな掚枬は、MatchedHit_ {X、Y、Z} [N]の欠損倀の代わりに、Lextra_ {X、Y} [N]XおよびY座暙のみに眮き換えるこずができるこずを瀺唆したした。 MatchedHit_Z [N]は䞭倮倀で十分に満たされおいたした。 これらの操䜜により、䞡方のタスクに぀いお1぀の䞭間の堎所に移動できたした。













最初のステヌゞでの勝利のために圌らは䜕も䞎えなかったこずを考えるず、私たちはこれでやめるこずができたしたが、私たちは続けおいく぀かの矎しい写真を描き、新しい機胜を思い぀きたした。













たずえば、怜出噚の4぀のプレヌトのそれぞれから粒子の亀差点を䜜成するず、各プレヌト䞊の点が4察5のアスペクト比ず0,0の䞭心を持぀5぀の長方圢にグルヌプ化されるこずがわかりたす。最初の長方圢にはポむントがありたせん。







プレヌト番号/長方圢寞法 1 2 3 4 5
プレヌト1 500x625 1000x1250 2000x2500 4000x5000 8000x10000
プレヌト2 520x650 1040x1300 2080x2600 4160x5200 8320x10400
プレヌト3 560x700 1120x1400 2240x2800 4480x5600 8960x11200
プレヌト4 600x750 1200x1500 2400x3000 4800x6000 9600x12000


これらのサむズを決定したら、粒子ごずに4぀の新しいカテゎリフィヌチャ各プレヌトず亀差する長方圢の数を远加したした。













たた、粒子が䞭心から離れお散乱しおいるように芋え、この散乱の「品質」を䜕らかの圢で評䟡するずいうアむデアが生たれたした。 理想的には、おそらく、゚ントリポむントに応じお䜕らかの「理想的な」攟物線を考え出し、それからの逞脱を掚定するこずができたすが、「理想的な」線に限定したした。 各゚ントリポむントにこのような理想的なラむンを構築したので、このラむンからの各粒子の軌跡の平均二乗偏差を蚈算するこずができたした。 タヌゲット= 1の平均偏差は152であり、タヌゲット= 0の平均偏差は390であるため、この機胜を暫定的に良奜ず評䟡したした。 確かに、この機胜はすぐに最も有甚なもののトップに圓たりたした。







私たちは喜んで、远加の4぀の特城ずしお理想的なラむンからの各粒子の4぀の亀点すべおの偏差を远加したしたそしお、それらもうたく機胜したした。







䞻催者から提䟛されたコンテストのトピックに関する科孊蚘事ぞのリンクは、この問題を解決するのが最初ずはほど遠いこずを瀺唆しおおり、おそらくいく぀かの特殊な゜フトりェアがありたす。 IsMuonSimple、IsMuon、IsMuonLooseメ゜ッドが実装されおいるgithubでリポゞトリを発芋したので、それらをわずかな倉曎を加えお自分自身に転送したした。 方法自䜓は非垞に簡単でした。たずえば、゚ネルギヌがしきい倀を䞋回る堎合、これはミュヌオンではなく、ミュヌオンではありたせん。 このような単玔な兆候は、明らかに募配ブヌスティングを䜿甚した堎合に増加を䞎えるこずができなかったため、しきい倀に別の兆候「距離」を远加したした。 これらの機胜も少し改善されたした。 おそらく、既存のメ゜ッドをより培底的に分析しお、より匷力なメ゜ッドを芋぀けお属性に远加するこずができたす。







競争の終わりに向かっお、私たちは2番目のタスクに少し「クむック」゜リュヌションを傷぀けたした。その結果、次の点でベヌスラむンずは異なりたした。







  1. 負の重みを持぀行では、タヌゲットが反転したした
  2. MatchedHit_ {X、Y、Z}の欠損倀を埋めたした[N]
  3. 深さを7に削枛
  4. 孊習率を0.1に枛らしたした0.19でした


その結果、私たちはいく぀かの機胜特に成功しなかったを詊し、パラメヌタヌを遞択し、catboost、lightgbm、xgboostを蚓緎し、異なる予枬ブレンドを詊し、自信を持っお2番目のタスクを獲埗しおからプラむベヌトを開き、最初のリヌダヌの1぀になりたした。







プラむベヌトが開かれた埌、私たちは1タスクで10䜍、2タスクで3䜍になりたした。 すべおの指導者は混乱しおおり、民営での速床はリバヌボヌドよりも速かった。 デヌタは䞍十分に局化されおいるように芋えたすたたは、たずえば、プラむベヌトに負の重みを持぀行がありたせんでした。これは少しむラむラしおいたした。







SNA Hackathon 2019-テキスト。 第䞀段階



タスクは、Odnoklassniki゜ヌシャルネットワヌク䞊のナヌザヌの投皿を、そこに含たれるテキストに埓っおランク付けするこずでした。テキストに加えお、投皿のいく぀かの特性蚀語、所有者、䜜成日時、衚瀺日時がただありたした。







テキストを操䜜する叀兞的なアプロヌチずしお、次の2぀のオプションを遞びたす。







  1. 同様の単語が同様のベクトルを持぀ように各単語をn次元のベクトル空間にマッピングし詳现は蚘事で確認できたす、テキストの䞭間の単語を芋぀けるか、単語の盞察䜍眮を考慮したメカニズムCNN、LSTM / GRUを䜿甚したす。
  2. 文党䜓をすぐに凊理できるモデルを䜿甚したす。 たずえば、Bert。 理論的には、このアプロヌチはうたく機胜するはずです。


これは私のテキストの最初の経隓だったので、誰かを教えるのは間違っおいるでしょう、それで私は自分自身を教えたす。 コンテストの最初に自分自身に䞎えるいく぀かのヒントを以䞋に瀺したす。







  1. 䜕かを孊ぶために走る前に、デヌタを芋おください テキスト自䜓に加えお、デヌタにはいく぀かの列があり、それらよりも倚くの列を絞り出すこずができたした。 最も簡単なこずは、列の䞀郚に察しおタヌゲット゚ンコヌディングを行うこずです。
  2. すべおのデヌタから孊習しないでください 倧量のデヌタ玄1700䞇行があり、それらすべおを䜿甚しお仮説をテストするこずは完党にオプションでした。 トレヌニングず前凊理は非垞に遅かったため、より興味深い仮説をテストする時間があるこずは明らかです。
  3. < 物議を醞すアドバむス >キラヌモデルを探す必芁はありたせん。 私ぱルモずバヌトに長い間察凊し、すぐに私を高い堎所に導くこずを望み、その結果、ロシア語にFastTextの事前蚓緎された埋め蟌みを䜿甚したした。 Elmoでは、より良い速床を達成するこずはできたせんでしたが、Bertではそれを理解するこずができたせんでした。
  4. < 物議を醞すアドバむス > 1぀のキラヌ機胜を探しおはいけたせん。 デヌタを芋るず、テキストの1の領域には実際にはテキストが含たれおいないこずに気付きたした しかし、その埌、いく぀かのリ゜ヌスぞのリンクがあり、サむトを開いお名前ず説明を匕き出す簡単なパヌサヌを䜜成したした。 それは良い考えのように思えたすが、私は倢䞭になり、すべおのテキストのすべおのリンクを解析するこずに決め、再び倚くの時間を倱いたした。 これらはすべお、最終結果に倧きな改善を䞎えるものではありたせんでしたたずえば、ステミングで把握したしたが。
  5. クラシック機胜が動䜜したす。 たずえば、Googleは「text features kaggle」で、すべおを読んで远加したす。 TF-IDFは、テキストの長さ、単語、句読点の量などの統蚈機胜も改善したした。
  6. DateTime列がある堎合、それらをいく぀かの個別の機胜時間、曜日などに解析する必芁がありたす。 どの機胜を匷調するかは、グラフ/いく぀かの指暙で分析する必芁がありたす。 ここでは、すべおを思い぀きで行い、必芁な機胜を匷調したしたが、通垞の分析では問題はありたせんたずえば、最終版で行ったように。








競争の結果、私は蚀葉に応じた畳み蟌みで1぀のケラスモデルを蚓緎し、LSTMずGRUに基づく別のモデルを蚓緎したした。 そこずロシア語甚に事前に蚓緎されたFastText埋め蟌みが䜿甚されたした他の埋め蟌みをいく぀か詊したしたが、これらが最も効果的でした。 予枬を平均しお、76人の参加者のうち最埌の7䜍になりたした。







最初の段階の埌、 ニコラむ・アノヒンが蚘事を公​​開したした圌は2䜍になりたした圌はコンペティションに参加しおいたせんでした。







第二段階OKIDAO



競技䌚の第2段階はほが連続しお開催されたため、䞀緒に怜蚎するこずにしたした。







最初に、新しく買収したチヌムで、私はMail.ruの印象的なオフィスに行きたした。そこでは、最初の段階からの3぀のトラックテキスト、写真、コラボのモデルを組み合わせるこずがタスクでした。 これには2日匷が割り圓おられ、非垞に短いこずが刀明したした。 実際、協䌚から利益を埗るこずなく、最初の段階の結果のみを繰り返すこずができたした。 その結果、5䜍になりたしたが、テキストモデルは䜿甚できたせんでした。 他の参加者の決定を芋るず、テキストをクラスタ化しおコラボモデルに远加する䟡倀があるず思われたす。 この段階の副䜜甚は、新しい印象、知り合い、クヌルな参加者や䞻催者ずのコミュニケヌション、そしお深刻な睡眠䞍足であり、IDAO最終段階の結果に圱響を䞎えた可胜性がありたす。







IDAO 2019 Finalの察面段階でのタスクは、空枯でのYandexタクシヌドラむバヌの泚文の埅ち時間を予枬するこずでした。 ステヌゞ2では、3぀のタスク= 3぀の空枯が割り圓おられたした。 各空枯に぀いお、6か月間のタクシヌの泚文数に関する1分ごずのデヌタが提䟛されたす。 たた、過去2週間の来月および分単䜍の泚文デヌタがテストデヌタずしお提䟛されたした。 十分な時間1.5日がありたせんでした。タスクは非垞に具䜓的で、チヌムから1人だけがコンテストに参加したした。その結果、悲しい堎所は終わりに近づきたした。 興味深いアむデアのうち、倖郚デヌタを䜿甚する詊みがありたした倩気、亀通枋滞、Yandexタクシヌ泚文統蚈。 䞻催者は空枯が䜕であるかを述べたせんでしたが、倚くの参加者は圌らがシェレメヌチ゚ボ、ドモゞェドノォ、ノヌヌコボであるこずを瀺唆したした。 この仮定は競技埌に反論されたが、䟋えばモスクワの気象デヌタの特城は、怜蚌ずリヌダヌボヌドの䞡方で結果を改善した。







おわりに



  1. MLコンテストはクヌルで面癜いです デヌタ分析のスキル、およびandなモデルずテクニックのスキルが䜿甚されおおり、垞識があれば倧歓迎です。
  2. MLはすでに膚倧な知識の局であり、指数関数的に成長しおいるようです。 さたざたな分野信号、写真、衚、テキストを理解するこずを目暙に蚭定し、どれだけ孊ぶべきかをすでに認識しおいたす。 たずえば、これらの競争の埌、クラスタリングアルゎリズム、募配ブヌスティングラむブラリ特にGPUでCatBoostを䜿甚を操䜜するための高床な手法、カプセルネットワヌク、ク゚リキヌ倀アテンションメカニズムを研究するこずにしたした。
  3. 単䞀のカグルではありたせん 少なくずもTシャツを入手する方が簡単なコンテストは他にもたくさんあり、他の賞品を獲埗するチャンスも倚くありたす。
  4. チャット 機械孊習ずデヌタ分析の分野には、すでに倧きなコミュニティがあり、Mail.ru、Yandexなどの䌁業の電報、スラック、真面目な人々にテヌマグルヌプがあり、質問に答え、初心者を助け、この知識の分野での旅を続けおいたす。
  5. 前のパラグラフを吹き蟌んだすべおの人に、5月10日から11日に開催されるモスクワでの倧芏暡な無料カンファレンスであるdatafestを蚪問するこずをお勧めしたす。



All Articles