Heritage Health Prizeデータマイニングコンペティション終了



Netflix Prizeが終了して以来、大規模なデータ配列の分析分野で最大の競争。 また、上位10名と優勝者の公式結果は2か月後に発表されますが、結果は既にまとめられています。

目標は、過去2年間の治療データに基づいて、来年の患者の入院を予測することでした。 スポンサーによると、これは彼を最も必要とする患者により多くの注意を払うことを可能にし、それにより入院のために米国で毎年費やされる300億ドルの一部を節約します。

主催者によって宣言された賞金3,000,000ドルは、0.4 RMSLEの確立された精度制限により達成できませんでした(少ない方が良い、達成された最高の結果は0.46、1位と100位の差は0.008です、RMSLEは対数の標準偏差です)-それらは単純に提供されましたこのレベルの精度に達するのに十分な情報がありませんでした。 したがって、実際には、闘争は500,000ドルで行われ、最高のチーム、中間の仕上げと貴重な経験の基金になりました。



タスクの複雑さにもかかわらず、1.5万人以上が手を試してみたいと願っていました。 彼らは、2人のノーベル賞受賞者も競争に参加したと言いますが、彼らは誰で、どのような成功が認められていないのでしょうか。 数学とプログラミングの分野には存在しないことを考えると、医学はコンサルタントまたは経済学として残ります。



コンテストは2年間続き、3つの中間フィニッシュがあり、それぞれに2つの賞がありました。 勝者は、競争の条件に従って、彼らの方法の説明をレイアウトしました。 ただし、これはライバルにとってあまり役に立ちませんでした。事実は、主要なアルゴリズムがよく知られていることです-これらは、決定木ランダムフォレスト(ランダムフォレスト)勾配ブースティング勾配降下リッジ回帰(リッジ回帰、ティホノフ正則化)、それらの修正および組み合わせです。 違いは、アルゴリズム自体の実装、使用、組み合わせ、およびわずかなバリエーションの複雑さにありました。 しかし、非常に多くの詳細があったため明確ではなかったため、結果は実際に達成されました。 つまり、勝者は何をするのか-明確であり、なぜそれを行うのか、なぜ機能するのかは明確ではありません。



受賞者は、次のように中間仕上げに分けられました。





奇数は3回目の中間フィニッシュの前に始まりました。3つのチームはすべて、テストデータの30%で1日1回検証されたモデルチェックをほとんど使用せず、リーダーは戦いなしで交代しました。 その理由は、あるチームの組合でしたが、競技開始以来ずっと送られたモデルの限界を超えることは不可能でした-彼らは奇跡的に会いました。



終了日、テストデータの30%の予備結果は次のようになりました

しかし、最も興味深いのは、数日後に公開された隠された部分の結果であり、アルゴリズムの動作の実際の推定を反映しています。

最初の50の場所の要約表:



主な敵は、Almataチームの中で最も明確に観察された効果であり、オープンレーティングで1位になりました。 これは過剰適合です。 彼らは、評価の見積もりに基づいて、評価が考慮されたデータからすべての有用な情報を抽出し、それによってセットに固有の有害な情報をキャプチャしました。 その結果、未知のデータの推定は悪化します(または少なくとも改善しません)。 結果-1位から19位への移動。



最初の10人の参加者の勝者とスコアは、6月上旬にHealth Datapalooza IVカンファレンスで正式に発表されます。 しかし、中級フィニッシュの勝者の合併によって形成されたチームであるPOWERDOTの勝利については、ほぼ間違いありません。 3つの最良の結果を自由に使用できるようになったため、評価の隠された部分から暗黙的に学習する機会が得られ、その後は対処できなくなりました。

しかし、学ぶべきことがありました。 私にとって、これは最後の中間フィニッシュの結果に続く261位から最終27位への移動をもたらしました。 それはもっと高かったかもしれません-プロセスの理解は遅すぎましたが、次回はもっと面白くなるでしょう。



中間フィニッシュの勝者の方法の説明(勝者アルゴリズムはおそらくそれらで構成されます)は、 ここにあります (多くの数学と操作、これはまだわかりません)。



UPD 2013.07.15。 予測どおり、POWERDOTは0.461197のスコアで勝ちました。 複数のアカウントを使用したルールを違反者から取り除いた後、 ファイナルテーブルの外観が変更されました。 そして、主催者は、最初の結果に基づいた招待状で、競争の第2部を約束します。



All Articles