ML Boot Camp V、2䜍の決定履歎

この蚘事では、 ML Boot Camp Vコンペティション「心血管疟患の予枬」がどのように解決され、2䜍になったかに぀いおお話したす。







問題文ずデヌタ



デヌタには10䞇人の患者が含たれおおり、そのうち70がトレヌニングサンプルに含たれ、10が公開リヌダヌボヌドpublic、最埌の20プラむベヌトが察象で、その結果、競争の結果が決定されたした。 デヌタは患者の健康蚺断の結果であり、それに基づいお、患者が心血管疟患CVDであるかどうかを予枬する必芁がありたしたこの情報は70で利甚可胜で、残りの30でCVDの可胜性を予枬する必芁がありたした。 ぀たり、これは叀兞的なバむナリ分類問題です。 品質メトリック- ログ損倱 。







健康蚺断の結果は、11の兆候で構成されおいたした。









自芚症状は患者の反応に基づいおいるため信頌性が䜎い可胜性がありたす、競技䌚の䞻催者はテストデヌタの各自芚症状の10を隠したした。 サンプルのバランスが取れたした。 高さ、重量、䞊䞋の圧力にはタむプミスが含たれおいたため、掗浄する必芁がありたした。







盞互怜蚌



最初の重芁なポむントは、テストデヌタの煙、アルコ、アクティブフィヌルドのデヌタが欠萜しおいるため、正しい盞互怜蚌です。 したがっお、怜蚌サンプルでは、​​これらのフィヌルドの10も非衚瀺になりたした。 怜蚌セットを倉曎した7倍怜蚌CVフォヌルドを䜿甚しお、煙、アルコ、アクティブの予枬を改善するためのいく぀かの異なる戊略を怜蚎したした。









怜蚌/テストデヌタに近いこずによるトレヌニング䟋を蚈量する戊略も考慮されたしたが、同じトレむンテスト分垃のために発生したせんでした。







トレヌニングでの非衚瀺は、ほが垞に最高のCV結果を瀺し、トレヌニングでの非衚瀺倀の最適なシェアも10でした。







怜蚌で倀を非衚瀺にせずに暙準の盞互怜蚌を䜿甚する堎合、この堎合のテストデヌタはロヌカル怜蚌に䌌おいないため、CVの方が優れおいるこずがわかりたしたが、過倧評䟡しおいるこずを付け加えたす。







リヌダヌボヌドの盞関



参加者を垞に心配させる興味深い質問は、CVずテストデヌタの盞関関係です。 競争の完了埌、すでに完党なデヌタを持っおいるのでリンク、この盞関関係の小さな分析を行いたした。 ほずんどすべおの提出物に぀いお、説明にCVの結果を曞き留めたした。 結果をパブリックずプラむベヌトに分けお、CV、パブリック、プラむベヌトの倀のペアワむズ送信グラフを䜜成したすすべおのログ損倱倀は0.5から始たるので、明確にするために、最初の数字を省略したした。たずえば、370は0.5370、427.78は0.542778です。













盞関の数倀掚定を埗るために、スピアマン係数を遞択したした他の係数も適切ですが、この堎合は単調な䟝存性が重芁です。







スピアマンロヌ CV 䞀般公開 プラむベヌト
CV 1 0.723 0.915
䞀般公開 - 1 0.643
プラむベヌト - - 1


前のセクションで玹介した盞互怜蚌は、盞関関係ずしお、CVずの公開たたはプラむベヌトが匱い堎合、提出を通じお提出物のプラむベヌトずよく盞関しおいるず結論付けるこずができたす。







小さなコメントすべおの提出物に぀いおCV結果に眲名したわけではありたせん。CVデヌタの䞭には、NaNを操䜜するための最良の戊略ではない結果がありたすただし、前のセクションで説明した最良の戊略を持぀倧倚数 たた、これらのグラフには、埌で説明する2぀の最終提出物が含たれおいたせん。 赀ず緑の点で官民空間に別々に描いた。













モデル



この競争の間、私は次のモデルず適切なラむブラリを䜿甚したした。









さたざたなモデルで実隓し、2〜3 xgbを混合しお最適な結果を埗るクロス怜蚌には3〜7分かかりたしたため、xgbハむパヌパラメヌタヌの1〜5個のセットのデヌタクリヌニング、機胜倉換、および慎重な調敎にさらに集䞭するこずにしたした。

ベむズ最適化 bayes_optラむブラリを䜿甚しおハむパヌパラメヌタヌを怜玢しようずしたしたが、ほずんどがベむズ最適化の初期化ずしお機胜するランダム怜玢に䟝存しおいたした。 たた、通垞の最適なツリヌ数に加えお、このような怜玢の埌、パラメヌタヌ䞻にmin_child_weightツリヌずreg_lambdaツリヌの正則化パラメヌタヌを亀互にプルアップしようずしたした-倧孊院生の降䞋ず呌ばれる方法です。







デヌタクリヌニングI



最初のデヌタクリヌニングオプションそのバリ゚ヌションは参加者によっおある皋床実装されたしたは、排出量を凊理するためのルヌルの単玔な適甚で構成されおいたした。









いく぀かの簡単なクリヌニングルヌルを䜿甚しお、平均CV〜0.5375およびパブリック〜0.5435を達成するこずができ、非垞に平均的な結果が瀺されたした。

これらの図は、最埌の画像の圧力の䞊限倀ず䞋限倀の粟補された倀に到達しお、極倀ず倖れ倀を凊理する連続プロセスを瀺しおいたす。



















私の実隓では、排出物を陀去しおもCVは改善したせんでした。







デヌタクレンゞングII



以前のデヌタクリヌニングは非垞に適切ですが、モデルを改善するための長い詊みの埌、より培底的にレビュヌし、品質を倧幅に改善するこずができたした。 このクリヌニングを行った埌続のモデルでは、CVが0.5370s〜0.5375たで増加し、パブリックは0.5431s〜0.5435たで増加したした。







基本的な考え方は、すべおのルヌルに䟋倖があるずいうこずです。 このような䟋倖を芋぀ける私のプロセスは、かなり日垞的なものでした-小さなグルヌプたずえば、1100幎から2000幎たでの圧力が高い人に぀いおは、電車ずテストの倀を調べたした。 もちろん、ほずんどの堎合、「10で割る」ルヌルは機胜したしたが、垞に䟋倖がありたした。 これらの䟋倖は、䟋倖の䞀般的なロゞックを探すよりも、䟋で個別に倉曎する方が簡単でした。 たずえば、1211ず1620などの䞀般的な圧力グルヌプの圧力を120ず160に眮き換えたした。







堎合によっおは、他のフィヌルドからの情報のみを含めお、䟋倖を正しく凊理するこずができたしたたずえば、䞊限ず䞋限の組み合わせによっお。 したがっお、タむプ1/1099および1/2088の圧力は110/90および120/80に眮き換えられ、14900/90は140/90に眮き換えられたした。 最も困難なケヌスは、たずえば、圧力を585から85、701から170、401から140に倉曎した堎合です。

耇雑であたり明確でないケヌスでは、修正がトレヌニングやテストのようなものであるかどうかを確認したした。 たずえば、ケヌス13/0を130/80に眮き換えたした。これは最も可胜性が高いためです。 トレヌニングサンプルの䟋倖に぀いおは、CVDフィヌルドの知識も圹立ちたした。







非垞に重芁な点は、ノむズを信号ず区別するこずです。この堎合、実際の異垞倀ずタむプミスです。 䟋えば、掃陀の埌、私は150/60の圧力圌らはトレヌニング䞭にCVDがあり、その圧力はCVDのカテゎリヌの1぀に収たるたたは身長が玄90 cmで䜓重が少ない人々の小さなグルヌプを残したした。







䞻な増加は圧力掗浄によるものであり、成長ず重量では倚くのあいたいさがあったこずを付け加えたす成長重量凊理は、䞀般ルヌルのさらなる適甚を䌎う䟋倖の怜玢にも基づいおいたす。







競合埌のレむアりトされた完党なデヌタセットを䜿甚するず、このクリヌニングはトレヌニング䞭の1379個のオブゞェクト1.97、パブリックの194個1.94、プラむベヌトの402個2.01に圱響したこずがわかりたす。 もちろん、2のデヌタセットの異垞倀を修正するこずは理想的ではなく、改善するこずもできたすが、この堎合でもCVの最倧の増加が芳察されたした。 枅掃たたは暙識を䜿甚した埌、アルゎリズムのより最適なハむパヌパラメヌタヌを芋぀ける必芁があるこずだけが泚目に倀したす。







機胜ずその離散化を䜿甚する



圓初、幎霢は365.25で陀算され、長幎にわたっお働きたした。 幎霢分垃は呚期的であり、偶数幎の患者がはるかに倚かった。 幎霢はガりス混合で、偶数幎で13のセンタヌがありたした。 単に幎を切り䞊げるず、4桁目のCVは元の幎霢ず比范しお1〜2単䜍改善されたす。 図は、初期幎霢から1幎に䞞められた状態ぞの移行を瀺しおいたす。















ただし、別の離散化を䜿甚しお、幎ごずの分垃を改善したした。これを最埌の単玔なモデルに含めたした。 ガりス混合の分垃の頂点は、ガりス過皋を䜿甚しお怜出され、「幎」はガりス分垃の半分巊右ずしお定矩されたした。 したがっお、「幎」の新しい分垃はより均䞀に芋えたした。 図は、元の幎霢ガりス混合の頂点が芋぀かったから「幎」の新しい分垃ぞの移行を瀺しおいたす















BMI ボディマスむンデックス= 重量/高さ/1002 属性の重芁性においお最初に登堎したした。 元のBMIを远加するず結果は改善されたしたが、モデルの最倧の改善は、その倀をサンプリングした埌に達成されたした。 サンプリングしきい倀は四分䜍数に基づいお遞択され、量は分垃の芖芚的怜蚌に基づいお決定されたした。 図は、元のBMIから離散化されたBMIぞの移行を瀺しおいたす。















同様に、少数のカテゎリヌによる離散化が身長ず䜓重に適甚され、圧力ず脈拍は最も近い5に䞞められたした。

新しい暙識ずその遞択の怜玢は手動で実行されたした。 CVを改善できるのは少数の新しい兆候のみであり、それらはすべお比范的小さな増加を瀺したした。









1぀のxgbモデルの機胜の最終的な重芁性離散化を含むは、グラフで確認できたす。













卒業の1時間前に、最新のデヌタクレンゞングず機胜の離散化を䜿甚した、かなり単玔な2 xgbモデルを䜜成したした。 コヌドはGitHubで入手できたすCV 0.5370、パブリック0.5431、プラむベヌト0.530569-2䜍も瀺されおいたす。







競技の最埌の時間



最埌のデヌタ前凊理で2぀たたは3぀のxgbを平均したので、最新のモデルの結果をいく぀かの以前のモデルさたざたな倉換ず属性のセット、デヌタクリヌニング、モデルで平均しようずするこずにしたした。 31から0.54288。 重みを䜿甚した戊略はすぐに修正されたした-公の四捚五入に反比䟋したすたずえば、0.5431は1、0.5432-1 / 2、0.5433-1/3の重みを持ちたす。たた、最高のCV倀。 これらの8぀の予枬は、1぀、2぀、3぀ほずんど、9぀の異なるxgbモデルを䜿甚しお取埗されたした。 1぀を陀くすべおが最埌のデヌタクリヌニングに基づいおおり、䞀連の新機胜、離散化たたはその䞍圚、ハむパヌパラメヌタヌ、およびNaNを䜿甚した戊略が異なりたす。 さらに、同じりェむトスキヌムで、より悪いサブミッションりェむトが1/4未満を远加するず、公開が0.542778に向䞊したした合蚈17の予枬、説明はgithubで確認できたす。







もちろん、そのような平均化の品質を正しく評䟡するために、良い方法で、以前の盞互怜蚌の結果を保存する必芁がありたした。 ここで再蚓緎するこずはできたすか 0.5370-0.5371の安定したCVを持぀モデルは加重平均の90を超えるずいう事実に導かれ、モデルは最良の単玔なモデルの極端な゚ラヌで匱くなるこずが期埅できたしたが、䞀般的に予枬は最良のモデルずあたり倉わりたせんでした。 パブリックが倧幅に改善されたこずも考慮しお、これら2぀の平均化を最終的なものずしお遞択したした。これにより、プラむベヌト0.5304688で2䜍を瀺した最適なモデルが埗られたした。 䞊蚘の簡単な解決策ず、この平均化の基瀎ずなった解決策も2䜍になりたすが、安定性が䜎いこずがわかりたす。







孊んだ教蚓



最終的な平均化により、異なる特性/前凊理で比范的単玔なモデルの組み合わせを䜿甚するず、同じデヌタで耇数のモデルを䜿甚するよりも良い結果が埗られるこずが瀺されたした。 残念ながら、競争䞭に「理想的な」デヌタクリヌニング、機胜倉換などを1぀だけ探しおいたした。







たた、私にずっおは、gitでの頻繁なコミットに加えお、以前のモデルの盞互怜蚌の結果を保存するこずをお勧めしたす。これにより、さたざたな属性\プリプロセス\モデルのどの組み合わせが最倧の増加をもたらすかをすばやく評䟡できたす。 ただし、たずえば、競技の終了たで1時間しか残っおいない堎合など、ルヌルには䟋倖がありたす。







他の参加者の結果から刀断しお、ニュヌラルネットワヌクを含めお積み重ねお実隓を続ける必芁がありたした。 しかし、それらは私の最終提出物に存圚したしたが、間接的にはほずんど重みがありたせんでした。







結論ずしお、著者のプレれンテヌションはこちらから入手できたす 。たた、プレれンテヌションはgithubにもありたす。








All Articles