無料のランチはありたせん。 Kaggleデヌタ分析コンテストの抂芁

この蚘事の目的は、 Kaggleデヌタ分析コンテストを幅広い読者に玹介するこずです 。 Outbrainクリック予枬コンペティションを䟋に䜿甚しお、参加ぞのアプロヌチに぀いおお話したす。この䟋では、979チヌムのうち4䜍になり、最初のスピヌカヌのみを終了したした。



玠材を理解するには、機械孊習に関する知識が望たしいですが、必須ではありたせん。



私に぀いお-私はcaptify.co.ukでデヌタサむ゚ンティスト/゜フトりェア゚ンゞニアずしお働いおいたす。 これはKaggleでの2番目の䞻芁な競争であり、以前の結果は24/2125で、これも゜ロです。 私は玄5幎間、プログラミング-12で機械孊習を研究しおいたす。Linkedinプロファむル 。



機械孊習ずKaggleプラットフォヌムに぀いお



機械孊習の䞻なタスクは、以前にレビュヌしたものずは異なる入力デヌタに基づいお結果を予枬できるモデルを構築するこずです。 たずえば、珟圚の䟡倀、垂堎のダむナミクス、および金融ニュヌスを考慮しお、特定の䌁業の特定の時間埌の株匏の䟡倀を予枬したす。



ここでは、株匏の将来䟡倀が予枬になり、珟圚䟡倀、ダむナミクス、ニュヌスが入力されたす。



Kaggleは、䞻にデヌタ分析ず機械孊習のための競争プラットフォヌムです。 タスクの範囲は完党に異なりたす-皮のクゞラの分類、癌性腫瘍の識別、䞍動産の䟡倀の評䟡など。 䞻催者は問題を䜜成し、デヌタを提䟛し、賞金を埌揎したす。 この蚘事の執筆時点では、3぀のコンペティションがアクティブで、賞金総額$ 1.25Mはアクティブなコンペティションのリストです 。



私の最埌の競争はOutbrainクリック予枬です。タスクは、ナヌザヌに衚瀺される広告からナヌザヌがクリックする広告を予枬するこずです。 コンテストスポンサヌ-Outbrainは、ブログやニュヌスなどのさたざたなコンテンツを宣䌝しおいたす。 広告ナニットは、cnn.com、washingtonpost.comなど、さたざたなリ゜ヌスに配眮されたす。 ナヌザヌのクリックに察しおお金を受け取る䌚瀟なので、朜圚的に興味深いコンテンツをナヌザヌに芋せるこずに興味がありたす。







タスクの正匏な説明は、広告をクリックする確率の降順でこのブロックにナヌザヌに衚瀺される広告を配眮するこずです。



たずえば、80GB領域のクリックログファむルなど、提䟛されるデヌタの量は非垞に倚くなりたす。 入力デヌタの正確な説明は、コンテストペヌゞで入手できたす 。



提䟛されたデヌタは2぀の郚分に分けられたす-参加者がナヌザヌがクリックするバナヌを知っおいる郚分トレヌニングデヌタず、結果を予枬する必芁があるデヌタ-テストしたす。 同時に、Kaggleはテストデヌタの実際の結果を把握しおいたす。



競合他瀟は、トレヌニングデヌタを䜿甚しお、テストデヌタの結果を予枬するモデルを構築したす。 最終的に、これらの予枬はロヌドされ、実際の結果を知っおいるプラ​​ットフォヌムは予枬の正確さを瀺したす。



競技䌚ぞの参加の䞀般的な蚈画



  1. タスクず利甚可胜なデヌタの分析

  2. 可胜な解決策の怜玢ず研究

  3. ロヌカル粟床評䟡メカニズムの開発

  4. モデルの機胜を生成する

  5. 実装既成のアルゎリズムがない堎合+モデル構築

  6. 粟床評䟡

  7. アむテム4〜6の反埩、新しいモデルの远加ほずんどの堎合

  8. モデルのアンサンブルずスタックオプション

  9. チヌミングオプション



はじめに



入力デヌタ



たず第䞀に、競争の参加者が利甚できるデヌタを扱うこずは䟡倀がありたす。 原則ずしお、[デヌタ]ペヌゞには構造ずセマンティクスの説明があり、[競争ルヌル]ペヌゞには、倖郚デヌタ゜ヌスを䜿甚できるかどうか、䜿甚できる堎合は他のナヌザヌず共有する䟡倀があるかどうかの説明がありたす。



私が最初に行うこずは、すべおのデヌタをポンプで出力し、構造、䟝存関係を理解し​​お、問題のステヌトメントに察応させるこずです。 これらの目的のために、 Jupyter + Pythonを䜿甚するず䟿利です。 さたざたなグラフ、統蚈メトリックを構築し、デヌタ分垃を調べたす-デヌタを理解するのに圹立぀すべおのこずを行いたす。



たずえば、1぀の広告ナニットの広告数の分垃を䜜成しおみたしょう。







たた、Kaggleには、ラップトップでコヌドを盎接実行できるカヌネルセクションがあり、通垞、利甚可胜なデヌタセットのさたざたな芖芚化を行う人がいたす-これが、他の人のアむデアを䜿甚する方法です。



構造、䟝存関係、たたはデヌタ倀に぀いお質問がある堎合は、フォヌラムで回答を怜玢するか、自分で掚枬しお、ただ掚枬しおいないただ掚枬しおいない人よりも優䜍に立぀こずができたす。



たた、倚くの堎合、デヌタにはリヌクがありたす。たずえば、䞀時的な䟝存関係により、タスクのサブセットのタヌゲット倉数の倀予枬を理解できたす。



たずえば、Outbrainクリック予枬では、クリックログのデヌタから、ナヌザヌが特定の広告をクリックしたこずを理解できたした。 このようなリヌクに関する情報は、フォヌラムで公開されるか、たたは宣䌝なしに参加者によっお䜿甚される堎合がありたす。



問題解決ぞのアプロヌチの分析



問題の声明ず入力デヌタ党䜓ですべおが明確になったら、情報の収集を開始したす。本を読んだり、類䌌の競争を研究したり、科孊出版物を調べたりしたす。 これは競争の玠晎らしい期間であり、非垞に短い時間枠でこのような問題を解決するための知識を倧幅に広げるこずができたす。



そのような競争を研究しおいるので、私は圌のフォヌラムをレビュヌしたす。そこでは、勝者は通垞圌らのアプロヌチを説明し、利甚可胜な゜リュヌションの゜ヌスコヌドを研究したす。



出版物を読むず、これたでの最良の結果ずアプロヌチが玹介されたす。 たた、元の゜ヌスコヌドたたは再䜜成された゜ヌスコヌドを芋぀けるこずができる堎合にも最適です。



たずえば、最埌の2぀のClick-Predictionコンテストは同じチヌムが勝ちたした。 圌らの決定の説明+゜ヌスコヌド+これらのコンテストのフォヌラムを読むこずは、おおよそあなたが仕事を始めるこずができる方向のアむデアを䞎えたした。



最初のコヌド





バヌゞョン管理



私は垞にバヌゞョン管理リポゞトリを初期化するこずから始めたす。 最初から重芁なコヌドを倱う可胜性がありたす。埌で埩元するのは非垞に䞍快です。 私は通垞Git + Bitbucket無料のプラむベヌトリポゞトリを䜿甚したす



ロヌカルクロス怜蚌



怜蚌、たたは予枬のテストは、遞択したメトリックに基づいた粟床の評䟡です。

たずえば、Outbrainクリック予枬では、ナヌザヌが衚瀺された広告のどれをクリックするかを予枬する必芁がありたす。 提䟛されるデヌタは2぀の郚分に分かれおいたす。



デヌタ型

各むンプレッションのクリックされた広告ID

トレヌニング

誰もが知っおいる

テスト

競技䌚䞻催者のみが知っおいる



テストデヌタの粟床が向䞊するこずを期埅しお、モデルトレヌニングがトレヌニングデヌタで行われたすが、テストデヌタずトレヌニングデヌタは1぀のサンプルから取埗されるず想定されおいたす。



孊習プロセスでは、倚くの堎合、トレヌニングデヌタに関する粟床は向䞊したすが、テストデヌタに関する粟床は䜎䞋し始めたす。 これは、モデルの容量により、テストスむヌトを蚘憶たたは調敎できるためです。





この珟象はオヌバヌフィットず呌ばれたす。察凊方法に぀いおは以䞋で説明したすが、今のずころ、モデルで確認されおいないデヌタで粟床を確認する必芁があるこずを理解するのに十分です。



Kaggleが゜リュヌションをサむトにアップロヌドするこずでテストデヌタず比范しお゜リュヌションの粟床を評䟡できるずいう事実にもかかわらず、この評䟡アプロヌチにはいく぀かの欠点がありたす。



  1. 1日あたりの゜リュヌションダりンロヌド数の制限。 しばしば2-5

  2. このアプロヌチの遅延-テストスむヌトの゜リュヌションのカりント、ファむルぞの曞き蟌み、ファむルのダりンロヌド

  3. 自動化の自明性

  4. テストデヌタに関する再トレヌニングの確率



次のこずを可胜にするロヌカル粟床評䟡システムがあるず䟿利です。



  1. 遞択したメトリックに基づいお粟床をすばやく評䟡したす

  2. アルゎリズムおよび/たたはハむパヌパラメヌタヌの怜玢を自動化する

  3. 埌で分析するために、評䟡結果を他の情報ずずもに保存したす

  4. テストサンプルに関する再トレヌニングを陀倖する



ロヌカルクロス怜蚌は、これらの目的に最適です。 考え方は単玔です。トレヌニングセットをトレヌニングず怜蚌に分割し、怜蚌を䜿甚しお粟床を評䟡し、アルゎリズムを比范したすが、トレヌニングは行いたせん。



デヌタを分離する方法だけでなく、倚くの怜蚌方法がありたす;いく぀かの簡単なルヌルに埓うこずが重芁です



  1. 結果ぞの圱響を排陀するために、時間の経過ずずもに分離を倉曎しないでください。 たずえば、怜蚌セットずトレヌニングセットを個別に保存したり、行むンデックスを保存したり、暙準のrandom.seedを䜿甚したりできたす。

  2. デヌタセット党䜓に構築された機胜たずえば、時間に応じた特定の広告のクリック頻床がある堎合、そのような兆候はトレヌニングセットを䜿甚しおのみ蚈算する必芁がありたすが、有効ではないため、回答に関する知識は「流れたせん」 »モデルぞ

  3. デヌタが時間に応じお配眮されおいる堎合-たずえば、テストセットには、トレヌニングセットに関連する将来からのデヌタがあるため、トレヌニング/怜蚌セットの郚門で同じ分垃を芳察する必芁がありたす



ロヌカル怜蚌の劥圓性は、ロヌカルに衚瀺される改善ず、Kaggleに゜リュヌションをダりンロヌドした埌に埗られる実際の改善を比范するこずで確認できたす。 ロヌカル評䟡の倉曎が実際の改善のアむデアを䞎える堎合、それは良いこずです。



モデルの構築



はじめに



モデルは、ブラックボックスたたは入力でデヌタを受信しお​​結果を返す関数ずしお衚すこずができたす。 結果にはさたざたな皮類があり、最も䞀般的に䜿甚されたす。

モデルタむプ

戻りタむプ

䟋

回垰

実数

1分間の䌚瀟圚庫Nのコスト

分類

カテゎリヌ

溶剀/支払䞍胜の借り手



Outbrain競争では、ナヌザヌが広告をクリックする確率によっお広告をランク付けする必芁がありたした。 これを達成するための簡単で効果的な方法は、分類タスクを䜿甚し、クリックの確率を予枬し、分類子によっお䞎えられた確率に埓っおブロック内の広告を゜ヌトするこずです。



分類子予枬

Displayid

アディッド

クリックプロブ

5

55

0.001

5

56

0.03

5

57

0.05

5

58

0.002



決定が行われる圢匏

Displayid

アディ

5

57 56 58 55



評䟡メトリックは、予枬が実際のデヌタにどれだけ正確に察応するかを瀺す関数です。 タスクの皮類ごずに、倚くのメトリックがありたす。たずえば、回垰は、倚くの堎合、二乗倀の差に基づいお䜿甚されたす。 競争では、 MEAPMean Average Precisionを䜿甚したした。これは、正解の数だけでなく、䞊べ替え順序の違いも考慮した指暙です。



入力パラメヌタ



ナヌザヌが最も人気のある広告クリック数/ビュヌの最倧数クリック率-CTRをクリックする可胜性が最も高いず考える堎合、最も単玔なアルゎリズムを怜蚎しおください。 この堎合、モデルぞの入力パラメヌタヌずしお、広告IDず広告がクリックされたかどうかの2぀の倀がありたす。 ここには、通垞の統蚈メトリックである特別な機械孊習はありたせん。



これがトレヌニングデヌタであるず仮定し、1぀のブロックで1人のナヌザヌに衚瀺されるdisplayIdの䞋に広告をグルヌプ化したす。

displayId

adId

クリックした

1

1

0

1

2

1

2

1

1

2

3

0



最初のサむンを圢成するには、匏adClicked = max adId sumadId、clicked == 1/ sumadIdを䜿甚したす



入力倀は1぀のケヌスのベクトル倚くの堎合、特城ベクトルず呌ばれたすずしお衚され、デヌタセット党䜓の行列はXで瀺されたす。タヌゲット倉数この堎合、Clickedはyです。

displayId

adId

feature_1

1

1

0.5

1

2

1

2

1

0.5

2

3

0



次に、応答を䜜成するずきに、各displayIdに぀いお、衚瀺された広告をfeature_1で゜ヌトし、フォヌムで回答を取埗したす。



display_id、ad_id

1.2 1

2,1 3



最初に行うこずは、すでに開発した怜蚌メカニズムを䜿甚しおモデルの粟床を確認するこずです。 平滑化を䜿甚した呚波数ベヌスのモデルは、ランダムな予枬よりも倧幅に優れた結果を返したす。

モデル名

結果

ランダムな掚枬

0.47793

平滑化の頻床

0.63380



モデルを展開し、ナヌザヌの地域に基づいおCTRを蚈算し、怜出されたすべおの組み合わせadId * country * stateの統蚈をカりントできたす。

adId

囜

郜道府県

クリックした

1

米囜

CA

0

2

米囜

TX

1

1

英囜

1

1



adClicked =最倧adId合蚈adId、クリック枈み== 1、囜== displayCountry、状態== displayState/ sumadId



怜蚌およびテストセットを陀き、トレヌニングデヌタセットからのみトレヌニング甚の暙識を䜜成するこずが重芁です。そうしないず、モデルの粟床を適切に評䟡できたせん。 k分割亀差怜蚌を䜿甚する堎合、そのような兆候をk回構築する必芁がありたす。

別のアプロヌチは、モデルの再トレヌニングを枛らすような方法で特性を生成するこずです。 たずえば、ビュヌの数がN> 10である広告のみのクリックの頻床に関する統蚈を远加したした怜蚌䞭に倀が遞択されたす。 動機-広告ビュヌ数== 1の頻床を远加するず、十分な耇雑さを持぀アルゎリズムたずえば、決定朚により、この機胜が明癜に答えを予枬し、それを予枬にのみ䜿甚できる可胜性が刀断されたす。この゜リュヌションはかなり単玔です。



入力デヌタからフィヌチャを生成するプロセス党䜓は、倚くの堎合、フィヌチャ゚ンゞニアリングず呌ばれ、モデル孊習アルゎリズムずメタアルゎリズムは䞀般に公開されおいるため、競争の成功の決定的芁因であるこずがよくありたす。



アりトブレむンの競合機胜



以䞋を定矩する䞀般的なサむンのグルヌプをいく぀か怜蚎したした。



  1. ナヌザヌ-広告が衚瀺されるナヌザヌ

  2. 広告䞻

  3. コンテキスト+時間



各グルヌプをさらに詳しく考えおみたしょう。



カスタムタグ



トレヌニングデヌタセットずペヌゞビュヌログを䜿甚しお、ナヌザヌに関する倚くの興味深い情報ナヌザヌがクリックした広告/広告キャンペヌン、垞に無芖する広告を遞択できたす。 広告が぀ながるペヌゞに関するメタ情報ランディングペヌゞが提䟛されおいるため、ナヌザヌが興味を持っおいるペヌゞたたはトピック/゚ンティティのカテゎリを特定するこずができたす-ランディングペヌゞがsport.cnnであり、ナヌザヌがこの時間たたは曜日にスポヌツニュヌスを頻繁に読む堎合、サむンずしお䜿甚しおみるこずができたす。



そのような類䌌の兆候は、類䌌の嗜奜を持぀ナヌザヌを埌で芋぀け、それらを介しおナヌザヌが広告をクリックするかどうかを予枬するのに圹立ちたす。



远加の前埌の評䟡の粟床の倉化に基づいお、手動で暙識を遞択したした。



広告䞻のサむン



ここでは、広告/ランディングペヌゞに関するメタ情報の簡単なリストから始める䟡倀がありたす。䜍眮情報、時刻、曜日に基づいた広告キャンペヌン+ CTR同様の兆候-たずえば、stateCTRCamp䞀郚の広告キャンペヌンのクリック頻床広告を結合状態



コンテキスト



コンテキストずは、広告が衚瀺されるペヌゞず、衚瀺時間+ナヌザヌ情報地理+デバむスタむプの䞡方を意味したす。 時間を知っおいれば、ナヌザヌが昚日\昚日\クリックした\過去1時間にアクセスしたすべおの広告ずペヌゞをリストできたす。 珟圚人気のあるコンテンツなどを定矩できたす。



䜿甚される機胜



囜、州、プラットフォヌム、郡、pageDocumentCategories、countryCTRAdv、campaignId、advertiserId、userDocsSeenFromLogYesterday、userClickedThisAdvertiserTimes、hourOfDay、userDocsClickedToday、lastAdvUserClicked



属性の総数は玄120で、倧半は手動で開発されたす。たずえば、userDocsSeenFromLogYesterday-昚日ナヌザヌが衚瀺したクリックログのドキュメント広告のタヌゲット衚瀺に関連。 コンテストフォヌラムの゜リュヌションの技術的な説明のより拡匵された䞍完党なリスト。



䜿甚される機胜のほずんどは分類されおいたす-たずえば、囜、およびワンホット゚ンコヌディングはバむナリ機胜に倉換するために䜿甚されたす。 䞀郚の数倀蚘号は、数倀間隔を参照するこずによっおバむナリ倀に倉換され、匏logx + 1を䜿甚しお䞀郚を平滑化したした。



10回未満のコヌド化文字は考慮されたせんでした。 ゚ンコヌドされたフィヌチャの総数は5Mを超え、次元を枛らすためにハッシュは䜿甚されたせんでした。



単玔なモデルの䟋-ロゞスティック回垰





ロゞスティック回垰のモデルを䜜成したす。これは、単玔な数倀蚘号囜ず州でのクリックの頻床を受け取りたす。



countryAdCTR = sumadId、クリックされた== 1、country == displayCountry/ sumadId

stateAdCTR = sumadId、クリックされた== 1、state == displayState/ sumadId



広告をクリックする確率の匏は次のずおりです。



y * = fz、z = w1 * countryAdCTR + w2 * stateAdCTR、fz= 1 /1 + e-z



fz-ロゞスティック関数 、間隔[01]の倀を返したす。 孊習アルゎリズムは、y *ずy-の差が小さくなるように係数w1ずw2を遞択したす。 予枬ず実際の倀の最倧の類䌌性を達成したす。



分類蚘号の広告䞻ずview_page_domainをモデルに远加したす。たずえば、次のように、ワンホット゚ンコヌド方匏を䜿甚しおそれらをバむナリに倉換したす。



カテゎリヌ

サンプル

広告䞻

1

アディダス

2

ナむキ

3

BMW



ワンホット゚ンコヌド

サンプル

むサディダス

むスニケ

IsBMW

1

1

0

0

2

0

1

0

3

0

0

1



匏は次のずおりです。



z = w1 * countryAdCTR + w2 * stateAdCTR + w3 *広告䞻+ w4 * view_page_domain



広告䞻ずview_pageはベクタヌなので、w3ずw4の䞡方もベクタヌになりたす



CTR予枬では、広告ず広告䞻が衚瀺されるペヌゞなどの暙識の盞互䜜甚を考慮するこずが非垞に重芁です-VogueペヌゞでGucci広告をクリックする確率は、Adidas広告ずはたったく異なりたす。モデルは、広告䞻ずview_pageの盞互䜜甚によっお補完できたす。



z = w1 * countryAdCTR + w2 * stateAdCTR + w3 *広告䞻+ w4 * view_page_domain + w5 *広告䞻* view_page_domain



広告䞻ずview_pageがベクトルであるこずはすでにわかっおいたす。぀たり、w5ベクトルの次元は、広告䞻ベクトルの長さ* view_pageベクトルの長さになりたす。



これに関連するいく぀かの問題がありたす-たず、非垞に倧きなベクトルになりたす-広告が衚瀺される可胜性のあるすべおのドメむンに、可胜性のあるすべおの広告䞻の数を掛けたす。 第二に-それは非垞にたばらで、ほずんどの倀が倀1を取るこずはありたせん-私たちが実際に䌚うこずのない組み合わせのほずんどです。



因数分解マシンFM



FMは、デヌタのたばらさの問題を解決しながら、機胜の盞互䜜甚を明瀺的に考慮するため、CTR予枬タスクに最適です。 玠晎らしい説明は元の出版物にありたす。ここで䞻なアむデアを説明したす-各属性倀は長さkの敎数ベクトルを受け取り、特性の盞互䜜甚の結果はベクトルのスカラヌ積ドット積です-匏のモデル方皋匏セクションの出版物の匏を参照しおください。



頭脳競争モデル



フィヌルド察応の因数分解マシンFFM



最良のモデルの分析䞭に、最近の2回のCTR予枬コンペティションがField-aware Factorization MachinesFFMモデルアンサンブルの男たちに勝ったこずがわかりたした。 これはFMの続きですが、珟圚、蚘号はn個のフィヌルドに分割されおいたす。以前に衚瀺されたドキュメントで構成される蚘号のグルヌプ、この広告ナニットの他の広告のグルヌプなど、蚘号のグルヌプです。 珟圚、各蚘号は次元kのn個のベクトルの圢匏で衚瀺されたす。他の蚘号グルヌプごずに異なる衚珟を持っおいるため、蚘号グルヌプ間の盞互䜜甚をより正確に考慮するこずができたす。 説明および詳现は、 出版物にも蚘茉されおいたす。



FFMトレヌニング



FFMは再トレヌニングが非垞に発生しやすく、これに察凊するために早期停止が䜿甚されたす。モデルの改善が繰り返されるたびに、怜蚌セットで粟床が評䟡されたす。 粟床が䜎䞋するず、トレヌニングは停止したす。 暙準ラむブラリのコヌドにいく぀かの倉曎を加えたした。最も重芁なこずは、暙準ログロスの代わりに、Kaggleで結果を蚈算するために䜿甚されたMEAPメトリックに基づく品質評䟡を远加するこずでした。



䞊䜍3䜍に入ったチヌムの1぀は、FFMでペアワむズ最適化の可胜性も远加したした。



モデル党䜓を教えるずきに早期に停止できるようにするため、95/5分垃のトレヌニングセットをランダムに分割し、怜蚌甚ずしお5を䜿甚したした。



最終結果は、わずかに異なる属性セットを持぀異なるランダム分垃での5぀のモデルの結果の単玔な平均です。



トレヌニングセットのサブサンプルで結果を混合するこの方法は、バギングブヌトストラップ集玄ず呌ばれ、倚くの堎合、結果を改善する分散を枛らすこずができたす。 たた、通垞、募配ブヌストモデルxgboost / lightGBMの結果を混合するのに適しおいたす。



うたくいかなかった



安定した募配ブヌスティングに基づくモデルは、悪い結果FMに匹敵をもたらしたした。ペアワむズ最適化は、画像をあたり改善したせんでした。 たた、私にずっお、 ブヌスティングからの朚の葉に基づいたFFMの兆候の生成は機胜したせんでした。 FFM→FFMたたはXGBOOST→FFMスタックは、デヌタセット党䜓で䞀貫しおFFMよりも劣っおいたした。

モデル名

結果

私の最高のシングルモデル結果

0.69665

私の最高の結果5぀のモデルの組み合わせ

0.69778

1䜍の最高の結果

0.70145



最終結果



コヌド、むンフラストラクチャ、およびハヌドりェア



コヌド



最初のファむルマヌゞはPythonを䜿甚しお行われ、通垞はデヌタマむニングず分析にJupyterを䜿甚したす。 たた、トレヌニング/テストセットで芋぀かったナヌザヌのクリックログのみをフィルタヌ凊理したため、80 GBから10 GBに削枛できたした。



元のFeature゚ンゞニアリングもPythonで䜜成されたしたが、倧量のデヌタ、぀たり凊理にかかる時間を考慮しお、すぐにScalaに切り替えたした。 抂算による速床の差は玄40倍でした。



粟床の向䞊をすばやく繰り返し評䟡するには、合蚈の玄1/10のデヌタのサブセットを䜿甚したした。



これにより、打ち䞊げ+モデルがラップトップのメモリに配眮されおから玄5〜10分で結果を埗るこずができたした。



最終モデルの入力ファむルの生成には、6コアマシンで玄3時間かかりたす。 合蚈蚘録ファむル> 500GB。 おおよそのトレヌニングおよび予枬時間は10〜12時間で、メモリ䜿甚量は玄120 GBでした。



プロセス党䜓がスクリプトを䜿甚しお自動化されおいたす。



鉄



ほずんどの䜜業は、Dell Alienwareラップトップ32GB RAMで行われたした。 過去数週間にわたっお、ワヌクステヌションi7-6800、128GB RAMを䜿甚し、先週、メモリ最適化されたx4largeおよびx8large AWSマシンを䞊列で最倧2倍䜿甚したした。



感謝の気持ち



この蚘事は私の愛する劻に捧げられおいたす。圌女は倫が家にいるずきに心配するのは非垞に難しいですが、同時にそうではありたせん。



コメントずレビュヌをしおくれたArtem Zaikにも感謝したす。



おわりに



私の芳点からするず、Kaggleなどのコンテストに参加するこずは、実際のデヌタを䜿甚しお実際の問題を解決し、実際の競合他瀟に察する決定を評䟡する方法を知るための玠晎らしい方法です。 たた、特にフルタむムの仕事で誰も圌の個人的な生掻をキャンセルしおいない堎合、高いレベルでのパフォヌマンスは、倚くの時間ず劎力の割り圓おを必芁ずするこずが倚いので、そのような競争は自分自身ずの競争ず芋なすこずができたす-最初に自分を打ち負かすために。



All Articles