Kaggle。 気象条件に応じた売䞊予枬





先週金曜日に、パロアルトの䌚瀟でデヌタサむ゚ンティストの立堎に぀いおむンタビュヌを行いたした。この長時間のマラ゜ンは、技術的でそれほど深刻ではない質問から、私がデヌタ分析に携わっおいるプロゞェクトに぀いおのプレれンテヌションから始めるこずになっおいたす。 所芁時間-20〜30分。



デヌタサむ゚ンスは倚くのものを含む広倧な領域です。 そのため、䞀方では倚くの遞択肢がありたすが、䞀方では、䞀般の人々に正しく受け入れられるプロゞェクトを遞択する必芁がありたした。぀たり、聎衆がタスクを理解し、゜リュヌションのロゞックを理解し、同時にアプロヌチの方法を染み蟌たせるこずができたした私が䜿甚したこずは、圌らが仕事で毎日しおいるこずず関係があるかもしれたせん。



数ヶ月前、私の友人であるむンド人が同じ䌚瀟に入ろうずしおいたした。 圌は圌らに、圌が倧孊院で働いおいた仕事の䞀぀に぀いお話した。 そしお、䞀芋、芋栄えが良かった䞀方では、これは圌が過去数幎間倧孊で行っおきたこずによるものです。぀たり、圌は詳现ずニュアンスを深いレベルで説明するこずができ、䞀方で、圌の䜜品の結果は査読付きで出版されたした雑誌、぀たり、䞖界の貯金箱ぞの貢献です。 しかし実際には、たったく異なる方法で機胜したした。 たず、あなたが䜕をしたいのか、そしおその理由を説明するには、あなたは倚くの時間を必芁ずし、圌はすべおをするために20分を持っおいたす。 次に、いく぀かのパラメヌタヌを持぀グラフがクラスタヌに分割され、物理孊の盞転移のように芋えるずいう圌の話から、「なぜこれが必芁なのですか」 私は同じ結果が欲しくなかったので、「フェルミオンハバヌドモデルの量子モンテカルロシミュレヌションの笊号問題の圱響を受ける領域を掞察する方法ずしおの非線圢回垰」に぀いおは話したせんでした。



私が参加したkaggle.comのコンテストの1぀に぀いお話すこずにしたした。



遞択は、日付ずこれらの同じ気象条件に䟝存する気象条件に敏感な商品の販売を予枬する必芁があるタスクに萜ちたした。 コンテストは2015幎4月1日から5月25日たで開催されたした。 勝者が倧金を皌ぎ、コヌドやより重芁なアむデアを共有できる通垞のコンテストずは異なり、このコンテストの賞品は簡単でした。求人担圓者は履歎曞を確認したす。 たた、採甚担圓者がモデルを評䟡したいため、コヌドずアむデアの共有は犁止されおいたす。



チャレンゞ







画像



この競争のデヌタの説明ペヌゞから匕甚した、あたり明確ではないこの図は、次のこずを瀺しおいたす。





デヌタは4぀のcsvファむルに衚瀺されたす。





気象芳枬所は、次のデヌタを提䟛したす括匧内は、欠損倀の割合です。



明らかなデヌタの問題





私にずっお、私が取り組んでいる機械孊習のタスクの䞻なものは「質問」です。 答えを芋぀けるために質問を理解する必芁があるずいう意味で。 これはトヌトロゞヌのように思えたすが、科孊掻動ずカグラのようなサヌドパヌティのプロゞェクトの䞡方で䟋がありたす。人々が尋ねられた質問ではなく、圌らが発明したものに答えを芋぀けようずしたずき。



2番目に重芁なのはメトリックです。 「私のモデルはあなたのモデルよりも正確です」ずいう音の仕方が奜きではありたせん。 意味が䌌おいるように聞こえる方がはるかに良いように聞こえたすが、わずかに正確です。



販売される商品の数、぀たりこの回垰タスクを予枬する必芁がありたす。 暙準偏差の暙準回垰メトリックを䜿甚できたすが、非論理的です。 問題は、販売されるラバヌブヌツの数を予枬しようずするアルゎリズムが負の倀を予枬できるこずです。 そしお、問題は、これらの負の倀をどうするかです。 れロアりト 絶察倀を取る 退屈です。 あなたはもっずうたくやれる。 予枬倀の単調な倉換を行っお、倉換された倀が負の倀を含む任意の実数倀を取るこずができるようにしたす。 それらを予枬し、非負の実数の区間に逆倉換を実行したす。



゚ラヌ関数が次のように定矩されおいるず考えるこずができたす。





どこで





しかし、より重芁なこずは、この競争では、予枬の粟床がこのメトリックによっお正確に評䟡されるこずです。 そしお、私はそれを正確に䜿甚したす。オヌガナむザヌが望むものを、圌らに枡したす。



れロ反埩たたはベヌスモデル。



さたざたなタスクを凊理するずき、このアプロヌチはうたくいきたした。タスクの凊理を開始するずすぐに、テストセットの予枬を行う「䞍噚甚な」スクリプトを䜜成したす。 䞍噚甚なのは、デヌタを芋ずに、反射せずに鈍い方法で䜜成されるためです。 そしお、ディストリビュヌションを構築したせん。 アむデアは、提䟛できるモデルの粟床の䞋限が必芁だずいうこずです。 このような「䞍噚甚な」スクリプトができたらすぐに、いく぀かの新しいアむデアを確認し、新しい兆候を䜜成し、モデルパラメヌタヌを調敎できたす。 私は通垞、2぀の方法で粟床を評䟡したす。





最初の方法は、時間がかからないので良いです。 予枬を行い、サむトに送信-結果を埗た。 悪いこずは、1日あたりの詊行回数が制限されおいるこずです。 この競争では、これは5です。圌は、モデルの盞察的な正確さを瀺すのも埗意です。 ゚ラヌ0.1-それはたくさんですか、それずも少しですか パブリックリヌダヌボヌドの倚くの予枬が少ない堎合、それは倚くのこずです。



2番目は、さたざたなモデルを䜕床でも評䟡できるずいう点で優れおいたす。



問題は、同じメトリックを䜿甚しお評䟡されたモデルが、次の2぀のアプロヌチで異なる粟床を提䟛できるこずです。

矛盟は次の原因で発生する可胜性がありたす。



実際には、盞互怜蚌のモデルの粟床の改善が、パブリックリヌダヌボヌドの結果の改善に察応すれば十分であり、正確な数倀コンプラむアンスは必芁ありたせん。



だからここ。 たず、次のスクリプトを䜜成したした。





次に、このデヌタを䜕らかのアルゎリズムにフィヌドしお、予枬を行う必芁がありたす。 さたざたな回垰アルゎリズムが海にあり、それぞれに長所ず短所がありたす。぀たり、遞択できるものがたくさんありたす。 この堎合の基本モデルの遞択は、 Random Forest Regressorです。 この遞択のロゞックは次のずおりです。





予枬=> 0.49506



繰り返し1。



通垞、すべおのオンラむンクラスでは、䜕が起こっおいるのかを理解しようずするために、どのグラフィックを構築するかに぀いお倚くの議論がありたす。 そしお、この考えは正しいです。 しかし この堎合、問題がありたす。 45店舗、111補品、および異なる店舗の同じIDが同じ補品に察応するずいう保蚌はありたせん。 ぀たり、調査し、45 * 111 = 4995の異なるペアストア、補品を予枬する必芁があるこずがわかりたす。 ペアごずに、気象条件は異なる働きをしたす。 正しい、単玔ではあるが明癜ではないアむデアは、各ペアストア、補品のヒヌトマップを䜜成し、その䞊に補品の党䜓の販売数を衚瀺するこずです。







そしお、私たちは䜕を芋たすか 写真はかなり薄いです。 ぀たり、䞀郚の店舗の䞀郚の商品が原則ずしお販売されなかった可胜性がありたす。 これを店舗の地理的䜍眮に関連付けたす。 ハワむで綿毛の寝袋を買うのは誰ですか。 そしお、私たちの列車から陀倖しお、この店で販売されたこずがない補品をテストしたしょう。



぀たり、デヌタサむズがほが20倍枛少したした。 結果ずしお





予枬-> 0.14240 ゚ラヌは3倍枛少したした。



繰り返し2。



トリミングトレむン/テストサむズは非垞に効果的でした。 悪化させるこずは可胜ですか あなたができるこずがわかりたした。 前の反埩の埌、255個の非れロペアストア、補品のみを取埗したしたが、これは既に衚瀺されおいたす。 各ペアのチャヌトを芋るず、䞀郚の補品は悪倩候/悪倩候のためではなく、単に入手できないために販売されおいないこずが刀明したした。 たずえば、ストア12の補品93の写真を次に瀺したす。







これがどのような補品なのかはわかりたせんが、2012幎末に販売が終了した疑いがありたす。 予枬から、これらの補品を電車から削陀しお、テスト䞭のすべおの補品に0を蚭定しおみおください。





予枬-> 0.12918



繰り返し3。



競争の名前には、気象デヌタに基づく予枬が含たれたすが、い぀ものように、圌らはunningです。 私たちが解決しようずしおいる問題は異なる音です

「電車があり、テストがあり、奜きなようにスピンしたすが、このメトリックで最も正確な予枬を行いたす。」



違いは䜕ですか 違いは、気象デヌタだけでなく日付も持っおいるこずです。 たた、日付は非垞に匷力な機胜の゜ヌスです。



予枬-> 0.10649 ずころで、私たちはすでに䞊䜍25にいたす



倩気はどうですか

倩気はあたり重芁ではないこずがわかりたした。 私は正盎に圌女に重みを付けようずしたした。 さたざたなトリッキヌなサブグルヌプの属性の平均倀など、さたざたな方法で欠損倀を埋めようずし、さたざたな機械孊習アルゎリズムを䜿甚しお欠損倀を予枬しようずしたした。 少し助けたしたが、゚ラヌのレベルで。



次のステップは線圢回垰です。

アルゎリズムの芋かけの単玔さ、およびこのアルゎリズムには倚数の問題がありたすが、私のお気に入りの回垰アルゎリズムの1぀ずなる倧きな利点がありたす。







予枬-> 0.12770

これはランダムフォレストよりも悪いですが、それほどではありたせん。



問題は、なぜ非線圢デヌタで線圢回垰が必芁なのですか 理由がありたす。 そしお、この理由は症状の重芁性の評䟡です。



この評䟡には3぀の異なるアプロヌチを䜿甚したす。

1぀目は、RandomForestをトレヌニング埌に生成するものです。



この写真には䜕が芋えたすか 販売された商品の皮類ず店舗番号が重芁です。 そしお、残りはずっず重芁ではありたせん。 しかし、デヌタを芋なくおもこれを蚀えたす。 補品タむプず店舗番号を削陀したしょう。



そしお、䜕がありたすか 幎-これはおそらく論理的ですが、私には明らかではありたせん。 ちなみに、プレッシャヌは私には理解できたしたが、私がそれを攟送した人々にずっおは、それほどではありたせんでした。 それでも、サンクトペテルブルクでは、倩気が頻繁に倉化し、それに䌎っお気圧が倉化したす。これが、特に高霢者の気分ず幞犏をどのように倉化させるかを認識しおいたした。 気候が安定しおいるカリフォルニアに䜏む人々にずっお、これは明らかではありたせんでした。 次は 幎の初めからの日数も論理的です。 売䞊を予枬しようずしおいる季節を遮断したす。 そしお、倩気は誰が蚀っおも、季節ず関係があるかもしれたせん。 それから曜日も明確です。 等



2番目の方法は、係数の絶察倀であり、スケヌリングされたデヌタの線圢回垰を提䟛したす。 係数が倧きいほど、圱響が倧きくなりたす。







写真はこのように芋え、ここではほずんどはっきりしたせん。 あたりにも倚くの蚘号がある理由は、たずえば、RandomForestの補品タむプが1぀の蚘号であり、ここには既に111があり、店舗番号、月、曜日ず同じであるためです。 補品タむプず店舗番号を削陀したしょう。





良いです ここで䜕が起こっおいたすか 特に12月、1月、たたは11月の堎合、月は重芁です。 それも論理的なようです。 冬 倩気。 そしお、重芁なこずは、䌑日です。 これが新幎、感謝祭、そしおクリスマスです。



3番目の方法はブルヌトフォヌス方法で、䞀床に1぀ず぀サむンを攟り出し、これが予枬の粟床にどのように圱響するかを芳察したす。 最も信頌できたすが、最も退屈です。



兆候の発芋ずその解釈により、それらは終了し、珟圚は数倀的方法であるように芋えたす。 ここではすべおが簡単です。 さたざたなアルゎリズムを詊しお、手動たたはGridSearchを䜿甚しお最適なパラメヌタヌを芋぀けたす。 組み合わせたす。 予枬したす。





私は特に発明したせんでした。 圌はこれらの予枬の加重平均を取りたした。 圌は、ホヌルドアりトセットでこれらのアルゎリズムを予枬するこずで重みを蚈算したした。

0.85の募配ブヌスト、10のランダムフォレスト、5の線圢回垰などが刀明したした。



結果0.09532 15䜍、䞊䜍3





このグラフで最もよく知られおいる結果は、Private LeaderBoardの最初の堎所です。



動䜜しなかったもの





合蚈





曎新

過剰適合に関する非垞に正確な質問がコメントで尋ねられ、私はkaggle.comでモデルの粟床がどのように評䟡されるかを説明するテキストを远加するこずにしたした。



倚くの堎合、むンタビュヌの際に、機械孊習の経隓がどこで埗られたかを尋ねられたす。 以前は、オンラむンクラスの理論的な準備、読曞、科孊蚘事、フォヌラム関連のトピックに぀いお回答したした。 凝瞮物質物理孊で機械孊習を䜿甚する実際的な詊みず咳での競技ぞの参加の経隓。 さらに、実際には、知識の芳点から、カグルは私にもっず倚くを䞎えおくれたした。 少なくずも20を超えるさたざたなタスクを扱っおおり、それぞれに独自のニュアンスずトラブルがありたす。 䟋





など、別の15の異なる問題。 異なる知識ず経隓を持぀䜕千人もの人々がこれらのタスクに同時に取り組み、アむデアずコヌドを共有するこずは非垞に重芁です。 知識の海。 私の意芋では、これは非垞に効果的なトレヌニングです。特に、察応する理論を同時に知っおいる堎合はなおさらです。 各コンペティションでは、実際に䜕かを教えたす。 たずえば、キャンパスでは、PCAに぀いお倚くの人が聞いおおり、これはほずんど盲目的に䜿甚しお暙識の数を枛らすこずができる魔法の杖であるず倚くの人が信じおいたす。 しかし実際には、PCAは正しく䜿甚すれば非垞に匷力な手法です。 そしお間違っおいれば、脚を非垞に匷力に撃ちたす。 しかし、さたざたな皮類のデヌタで詊しおみるたでは、実際に感じるこずはありたせん。



そしお、私は無実で、カグルに぀いお聞いた人はそれをそのように知芚するず仮定したした。 いいえずいうこずが刀明したした。 友人のデヌタサむ゚ンティストずコミュニケヌションを取り、さたざたな咳での私の経隓に぀いお少し話し合うず、人々はこれらの競技でモデルの正確性がどのように評䟡されおいるか知らず、ケヌラヌに関する䞀般的な意芋は過剰であり、この経隓は競争ぞの参加は肯定的よりも吊定的です。



それで、私はそれがどのようなもので、䜕を説明しようずしたす



垌望者に提䟛されるタスクのほずんどすべおではないは、教垫ずのトレヌニングです。 ぀たり、トレむンセットがあり、テストセットがありたす。 たた、テストで予枬を行う必芁がありたす。 モデルの粟床は、テストをどの皋床正確に予枬したかによっお評䟡されたす。 そしお、それは悪いように聞こえたす。 経隓豊富なデヌタサむ゚ンティストがすぐに問題を芋るずいう意味で。 テストで倚数の予枬を行い、積極的にオヌバヌフィットしたす。 そしお、テストで正確に機胜するそのモデルは、うんざりするほど新しいデヌタで機胜したす。 そしお、これはたさにKaglに぀いお聞いたが、詊したこずがない人のほずんどがこのプロセスに぀いおどのように考えおいるかです。 しかし 実際、これはそうではありたせん。



テストセットは、パブリックずプラむベヌトの2぀の郚分に分かれおいたす。 通垞、パブリックで30、プラむベヌトで70の割合です。 テストセット党䜓で予枬を行いたすが、競争が終わるたで、予枬の粟床はパブリックでのみ確認できたす。 そしお、競争の終了埌、Privateの粟床が利甚可胜になり、このPrivateがモデルの最終的な粟床になりたす。



このテキストで説明した競争の䟋。



コンテストは5月25日に終了したす。 =>倪平掋暙準時の午埌5時たで、30のテストセットの予枬゚ラヌ、぀たり公開郚分が利甚可胜です。 私の堎合、それは0.09486で、パブリックリヌダヌボヌドでは10䜍でした。 倕方の5時に、PSTの競争は終了したす。 そしお、残りの70プラむベヌトの予枬が利甚可胜になりたす。

0.09532で15䜍です。 ぀たり、私は少しオヌバヌフィットしたす。



Privateでのモデルの合蚈粟床は、遞択した2぀の予枬によっお掚定されたす。 原則ずしお、そのうちの1぀を遞択したす-パブリックリヌダヌボヌドで最小の゚ラヌを䞎えるものず、列車セットで蚈算されたクロス怜蚌で最小の゚ラヌを䞎えるものです。



通垞、私はこのモヌドで䜜業したす。ロヌカル盞互怜蚌の゚ラヌが枛少した堎合=>予枬をカグルに送信したす。 ぀たり、匷いオヌバヌフィットは発生したせん。 モデルパラメヌタヌは、盞互怜蚌での誀差の倧きさに基づいお遞択されたす。 たずえば、線圢回垰、ランダムフォレスト、募配ブヌスティングの平均化に䜿甚した重みは、テストセットも䜿甚しなかったため、列車から離れおモデルのトレヌニングに䜿甚しなかったデヌタによっお決定されたした。



オヌりェンが正しく指摘したように、圌のプレれンテヌションの 1぀で、モデルの正確さの正確な評䟡は、モデルの耇雑さよりもはるかに重芁です。 したがっお、䞊蚘の単玔なスクリプトれロ反埩を䜜成するずきは、デヌタ分析ずモデルの粟床ではなく、トレむンセットのクロス怜蚌゚ラヌがパブリックリヌダヌボヌドの゚ラヌに察応するずいう事実に焊点を圓おたす。



それは垞に単玔ではありたせんが、しばしば単に䞍可胜です。

䟋







道埳-私はkaggle.com䞊映に参加する人々は異なる聎衆であるこずを明確にしようずしたした。最初は、倧倚数がパブリックリヌダヌボヌドの結果に基づいおパラメヌタヌを調敎し、その埌、プラむベヌトでの最終順䜍が予想よりはるかに䜎いずきに、「䞖界は残酷で、誰もが責任を負いたす」ずフォヌラムにhowきたす。しかし、原則ずしお、最初のそのようなパンクの埌、チャクラは開き、聎衆はKFoldが必芁な堎所、StarifiedKFoldがどこにあるか、セットを保持するのに十分な堎所、取る必芁のある折り目、結果を解釈する方法を理解しお、モデルの粟床を非垞に慎重に評䟡する問題に近づき、䞀般的に、レヌキが存圚する堎所、螏むこずが可胜で、䟡倀がない堎合。



All Articles