Kaggle怜玢ク゚リの関連性を予枬する方法を孊び、3䜍にランクむン

kaggle-monster2



プレビュヌ



こんにちは、Habr 2016幎4月25日、3か月間の激しい競争であったHome Depot Product Search Relevanceが終了し、チュヌリングテストチヌム Igor Buinyi 、 Kostiantyn Omelianchuk 、 Chenglong Chen が自然蚀語凊理ずMLをうたく凊理できただけでなく、3 2125チヌム䞭7䜍。 ゜リュヌションずコヌドの詳现な説明はこちら 、短いむンタビュヌはこちら 、この出版物の目的は、そのような結果をもたらした゜リュヌションだけでなく、競技䞭に経隓しなければならない困難や経隓に぀いおも話すこずです。



Kaggleに぀いお䞀蚀



ほずんどの読者はおそらくKaggleに粟通しおいるでしょう。 残りに぀いおは、珟時点では、これがデヌタサむ゚ンストピックに関するかなりの数のコンテストが垞に開催されおいる䞖界最倧のプラットフォヌムであり、数千人の参加者の集合的な粟神が実際の応甚問題に察する倚数の゜リュヌションを生成するこずに泚意しおください。 その結果、競合他瀟は知識ず経隓を受け取り受賞者も賞品を受け取りたす、オヌガナむザヌは実践に圹立぀アむデアを受け取りたす。



問題の声明



-修理ツヌルず建築材料を販売するりェブサむトがあり、より倚くの特定の商品を芋぀けるこずができたす

-怜玢機胜を䜿甚しお、興味のある補品を芋぀けようずしおいるナヌザヌがいたす

-数十䞇の「怜玢ク゚リ」/「衚瀺された補品」の䞀臎がありたす。 補品情報は、名前、説明、倚くの属性ブランドや色などなどの耇数のテキストフィヌルドで構成されたす。

-そのような通信の䞀郚に぀いお、評䟡者からの関連性の平均評䟡がある

-タスクは、評䟡者が残りの芁求/補品のペアに察しお行う関連性の掚定倀を適切に予枬するアルゎリズムを構築するこずです



なぜこれが必芁ですか



「芁求」/「補品」の䞀臎を遞択する怜玢アルゎリズムを最適化する堎合、関連性の評䟡が必芁です。

評䟡者はそのような評䟡を行うこずができたすが、動䜜は遅く、時間は高䟡たたは自動です。評䟡者を節玄し、フィヌドバックの速床を倧幅に䞊げるこずができたす。 ただし、評䟡の品質は同じレベルに維持する必芁がありたす。



評䟡者は間違っおいる可胜性のある人々です



私たちはモデルに、評点を付けた人の行動を暡倣するように教えたしたそれ以䞊のものはありたせん。 圌らの評䟡が「真の関連性」にどのように察応するかずいう質問ぞの答えは、垞に特定の仕事から哲孊の起源ぞず導きたす。



モデルの品質はどのように評䟡されたしたか



メトリックずしお、RMSEが䜿甚されたした。これは、他の2次メトリックず同様に、ほずんどすべおの倧きな゚ラヌに察凊したす。

rmse4



゜ヌスデヌタは䜕でしたか



デヌタは、「怜玢語」/「補品」のペア補品タむトル、補品の説明、属性の3぀の郚分で構成されるず平均関連スコア䞀郚の小数を含む1〜3の倀をずるで構成されたした。

列車/テストの内蚳は、74 067/166 693の割合で行われ、ランダムではありたせんでしたテストのみたたは列車のみに存圚するリク゚ストが倚く、それらの分垃は正芏ずは蚀えたせん。

デヌタがかなり汚れおいたク゚リの文法゚ラヌが倚数



私たちに぀いお少し



5/6コンテスト䞭の私たちのチヌムは、2人Igor BuinyiずKonstantin Omelyanchukで構成されおいたした。 私たちは䞡方ずもりクラむナのブラりザゲヌム䌚瀟で働いおいる分析の同僚です。 このコンペティションの開始前、私たちの背埌には倚くのコヌスがあり、kaggle.comにはたった1぀のコンペティションがありたした。 むゎヌルは、NLPを䜿甚したプロゞェクトを1぀終えたばかりで、このコンテストに参加するように私を招埅したした。



私たちの目暙



最初の目暙は次のずおりです。

-実際のデヌタを操䜜する実践的なスキルを身に付ける

-NLPをより深く扱う

-プログラミングスキルを匷化する

-䞊䜍10に入る

しかし、ご存知のずおり、食欲は食事に䌎うものであり、競争の終わりに近づくに぀れお、私たちの目暙はより野心的な目暙に向かっお修正されたす。



最初のステップ



前述のように、決定の詳现な説明は他の堎所で公開されおいたす 。この蚘事では、行動の幎衚に぀いおお話ししたいず思いたす。したがっお、䞻な結果ず発芋をそれらが達成された順に瀺したす。



ステヌゞ1



最も簡単な開始方法から始めたした-フォヌラムで垞に芋぀かる既補のスクリプトを芋぀けたした。 「蚈算された倉数」がないため、生成する必芁がありたした。 最初の倉数他の倚くの参加者ず同様は、ク゚リずドキュメント間の単語の䞀臎数などの数倀倉数でした。 最初のワヌドプロセッシングは、各単語からそのルヌトを残したステマヌの䜿甚でした。 これらの機胜のxgboostモデルは、ステマヌでテキストを凊理した埌、玄0.49のRMSEを䞎えたした。



ステヌゞ2



次に、3぀の方向に移動し始めたした。

-新しい単玔倉数の生成

-モデルパラメヌタヌの近䌌

-テキスト内の最も䞀般的な゚ラヌの修正ず、同じ意味の単語の単䞀フォヌマットぞの瞮小。

これら3぀の方向に埐々に移動しお、 RMSEを0.48に近づけ 、3番目の方向が他の方向ず比范しお最倧の改善をもたらしたずいう結論に達したした。 この段階で、2぀の重芁な発芋がなされたした。

1.゚ラヌ修正プロセスを䜕らかの方法で自動化するずいうアむデアが生たれたした。Damerau-Levenshtein距離を䜿甚しお、マッチングだけでなく類䌌の単語を考慮する解決策が芋぀かりたした。 この距離は、ある行を別の行に倉換するために必芁な文字の挿入/眮換/削陀/転眮操䜜の数を瀺したした。 この距離がmin3、maxlenword1-3,1より小さい堎合、2぀の単語word1、word2は同じであるず考えたした。 この基準を䜿甚しお蚈算された新しい倉数は、 RMSEを0.478に改善し、ワヌドプロセッシングがこの競争で非垞に重芁であるずいう考えをさらに確認したした。

2.単玔倉数のリストに、䞀臎する単語の文字数を考慮した倉数を远加したした。 奇劙なこずに、これらは非垞に匷力な倉数であるこずが刀明したため、 RMSEを0.474に改善したした 。



ステヌゞ3



いく぀かの単玔なキヌワヌドマッチ倉数ず、より耇雑な倉数を䜿甚する必芁があるこずはできないこずが明らかになりたした。 この問題の叀兞的な倉数はtf / idf倉数で、特定のドキュメントおよびドキュメントのコレクション党䜓での頻床に応じお、䞀臎する各単語の重みを考慮したす。 これらの倉数を远加する最初の詊みは、RMSEで.468をもたらしたした。

これず䞊行しお、ドキュメントの属性の䞭から有甚な情報を探し始めたした。 ブランド倉数ず材料倉数を含めるず、 RMSEが0.464に増加したした 。



ステヌゞ4



次のステップは、単語間のセマンティックな぀ながりを䜕らかの圢で考慮する倉数の生成でした。 NLTKラむブラリのWordNetパッケヌゞは、このタスクに圹立ちたした。 単語間の類䌌性を異なる方法で考慮する組み蟌み関数を䜿甚しお、以前は䜿甚されおいなかった根本的に新しい情報を持぀倉数の別のカテゎリを取埗したした。

単語がどのスピヌチの䞀郚に属するかを考慮した倉数も蚈算されたしたNLTK POSタガヌが䜿甚されたした。 これに䌎い、ワヌドプロセッシングず゚ラヌ修正が倧幅に進歩したした。 これらすべおにより、 RMSEを0.454に改善し、䞊䜍10チヌムに入るこずができたした。 進行状況グラフの泚1



ステヌゞ5



進むに぀れお、RMSEを改善するこずがたすたす困難になり、望たしい結果をもたらさない詊みに察する成功したアクションの比率が、私たちの方向に傟かなくなりたした。 これは、アンサンブルの構築を開始する時期であるこずを瀺唆しおいたす。 アンサンブルを構築する最初の詊みは成功したせんでしたが、私たちはこの方向で働き続けたした

次の飛躍を可胜にした䞻なアクションは次のずおりです。

-テキスト凊理ず゚ラヌ修正。

-ロヌカルtf / idf倉数。特定の各怜玢ク゚リに関連するドキュメントのレベルで考慮されたした。

-word2vec倉数。予枬の品質を倧幅に向䞊させたした。

したがっお、別のモデル単䞀モデルでRMSEを0.445にし、競技開始から1か月半埌に珟圚の評䟡でトップになりたした。 進行状況グラフの泚2



プロット1

描画。 結果進捗グラフ



朜圚的な勝者のその他の問題



最初の堎所に到達する前に、私たちはこの競争をトレヌニングのプラットフォヌムず考えたしたが、珟時点では、少なくずもtop10に䟵入する可胜性があるこずに気付きたしたtop10の元の目暙の代わりに。 3぀の堎所。 しかし、賞品を獲埗するには、さらに2぀の問題を解決する必芁がありたした。



再珟可胜な゜リュヌション



コンテストの受賞者は、最終決定を再珟できる適切な文曞ずコヌドを提䟛する必芁がありたす。 倚少の倉曎はコヌドに察しお垞に行われ、叀いバヌゞョンのコヌドは保存されず、䞭間蚈算結果が倚数のファむルに曞き蟌たれたため、控えめに蚀っおも、゜リュヌションはこの芁件を満たしたせんでした。 コヌドのバヌゞョンず倉数を含む特定のファむルずの正確な察応を確立するこずが䞍可胜であるずいう事実に加えお、手動モヌドでの完党な再蚈算には、マシンで1週間以䞊の蚈算時間が必芁でした。



すべおのサヌドパヌティの倖郚デヌタを共有する



2番目の重芁なポむントは、どのワヌドプロセッシングが受け入れられ、どのワヌドプロセッシングが受け入れられないかに関するフォヌラムでの議論でした。 この議論により、ナヌザヌスクリプトsteubkが発生したした 。これは 、Googleを介しおすべおの怜玢ク゚リを巧劙に実行し、Googleによっお修正されたテキストを取埗したした。 コンテスト管理者は、最初にこのアルゎリズムの䜿甚に反察し、テキストの゚ラヌの「手動修正」手でのラベリングに反察したした。 しかし、「手動修正」ず私たちの刀断に基づく䞀般化されたルヌル機胜゚ンゞニアリングずの間に明確な区別がなかったため、結果ずしお修正蟞曞の䜿甚が蚱可されたした。 唯䞀の条件は、この蟞曞をコンテスト終了の1週間前にフォヌラムに投皿するこずでした合䜵の締め切り。 ワヌドプロセッシングの重芁性を理解し、非垞に優れた蟞曞を䜜成したず信じお、私たちはそれをフォヌラムに公開したくなく、ほずんどのワヌドプロセッシングを自動化する方法を探したした。 このような自動化は結果の悪化を招き、テキストを凊理しないずすべおの倉数の再集蚈を開始できなかったため、さらなる䜜業を停止したした。



難しいですか



合蚈で、玄1か月を費やしおコヌド党䜓を単䞀の圢匏で曞き盎し、倉数を再カりントしたしたこれは、競争の自由時間の䞍足ず䞀臎したした。 進行状況グラフの泚3を参照 。 アンサンブルの構築からいく぀かの進歩がありたした。 アンサンブルの䞀般的な考え方は、デヌタの䞀郚に぀いお、さたざたなパラメヌタヌずさたざたな倉数のセットを䜿甚しお、レベル1モデルを構築し、これらのモデルの予枬に基づいおレベル2モデルを構築するこずです。 このアプロヌチは、トレヌニングずモデル怜蚌のためにデヌタを正しく分割した堎合にうたく機胜したす。 私たちの堎合、これはtrainずtestのデヌタの構造が異なるずいう事実によっお耇雑になりたした。 StratifiedKFoldを䜿甚するずデヌタのモデルK-1の郚分をK回蚓緎し、残りの郚分の予枬を収集する、亀差怜蚌亀差怜蚌の結果ず珟圚の評䟡公開リヌダヌボヌドのギャップが倧きくなりたした。 それにもかかわらず、アンサンブルを構築するためのこのようなスキヌムに同意したした。第1レベルの新しいモデルを远加したため、珟圚のレヌティングの結果が改善され続けたためです。



このように、コンペティション終了の3週間前に、 RMSEを0.44に匕き䞊げたしたが、私たちの困難のほずんどが背埌にあり、最終的なブレヌクスルヌに向けおほんの少しのプッシュが残っおいるず信じおいたした。 そしお、チヌムの統合が始たりたした。



マヌゞするかしないか



関連付けが必芁な理由



最初にチヌムを結合するず、アンサンブルに新しいレベルを远加するのず同様の効果が埗られたす。 結合前のチヌム決定の特定の線圢結合は、これらの決定が互いに非垞に異なるずいう事実のために、単䞀の決定よりも優れおいたすそれらは盞関係数が䜎く、たずえば0.9。 私たちの競争では、この違いは、ワヌドプロセッシングず倉数生成ぞのアプロヌチの違いによっお倧きく保蚌されたした。

組合の2番目のプラスは、お互いから孊び、いく぀かのアむデアを借り、経隓を共有する機䌚です原則ずしおKaggleが存圚したす。



どうした



合䜵の締め切りに近づくず、合䜵プロセスがより集䞭的に進むこずを理解したしたが、発生した芏暡を明らかに過小評䟡したした。 競技終了の3週間前に、トップ10に少数のチヌムが2人以䞊しかいなかった堎合、すべおが終わった埌、トップ10に3人未満のチヌムはありたせんでしたトップ10チヌムの平均参加者数は4.6人でした 。

圓初は、賞品を獲埗するチャンスが十分にあるにもかかわらず、誰ずでも団結する぀もりはありたせんでした。欲望からではなく、レベルを明確に理解したいずいう願望から。 しかし、ア゜シ゚ヌションの締め切りの玄1週間前に、私たちは4〜5䜍に戻され、トップ10の2人の参加者からなるほが唯䞀のチヌムのたたでしたその時点で1人しかいなかった。 私たちは再び珟圚の状況に぀いお話し合い、圌を団結させようずするこずにしたした。 私たちは圌の同意を期埅しおいたせんでしたこの男Chenglong Chenは以前の同様のCrowdFlower Search Relevanceコンテストで単独で勝ちたした。チヌムの誰かず。 圌はそれたで䞀人で競い続けおいるので、誰ずも団結したくないず考えたした。 2時間埌、私たちの申し出に応えお、フレンドリヌで簡朔な答えを芋぀けたずき、私たちは非垞に驚き、喜んでいたした。

「確かに チヌムマヌゞリク゚ストを送っおください:)詳现に぀いおは埌で説明したす。

皮肉なこずに、私たちが利甚できる唯䞀の通信チャネルは、評䟡が500を超える参加者が利甚できるKaggleの内郚メッセヌゞングシステムでした。それたでは1぀のコンテストにのみ真剣に参加しおいたため、メッセヌゞを送信できたせん。 私たちの他の人が数ヶ月前に別のコンテストに数時間を費やしたこずは幞いな偶然でした。圌はトップ90で、この玠晎らしい結果はメッセヌゞを送信する機䌚を埗るのに十分でした。 この事実がなかったら、この蚘事が存圚しなかったように、私たちの城韍ずの連合は存圚しなかったでしょう。



それは私たちに䜕を䞎えたしたか



たず、合䜵埌、私たちは最良の゜リュヌションの盞関を評䟡したした。Kaggleの基準では、0.87ず非垞に䜎いこずがわかりたした。 2぀の゜リュヌションの単玔な平均によりRMSE 0.435が埗 られ、LBで2䜍に戻りたした。 進行状況グラフの泚4

第二に、私たちは信じられないほど才胜があり、気持が良く、謙虚な男に出䌚いたした。



仕䞊げ



2週間しか残っおおらず、互いに5぀のタむムゟヌンの距離にありたした。 したがっお、圌らは私たちにずっお最適な戊略はアむデア、倉数、コヌドを亀換するこずであるず刀断したしたが、独自の決定を完了するこずに焊点を合わせ、単玔な蚈量ブレンドで結合したす。 その結果、Chenglongは倉数の䞀郚を䜿甚しおより良い゜リュヌションを埗たしたが、゜リュヌション間の盞関は0.94に増加したした。 したがっお、党䜓的な結果の改善は、私たちが望むほど倧きくありたせんでした。



適切な盞互怜蚌の重芁性



䞊蚘のように、アンサンブルを構築するずきの盞互怜蚌のために、最初にデヌタの2/3でモデルを調べ、デヌタの残りの1/3でチェックしたした。 この競争のためのこのアプロヌチは、CVずLBの間の拡倧するギャップに぀ながったため、成功ずは蚀えたせん。

コンテストの終了の玄1か月前に、トレヌニングに1/3のデヌタを䜿甚し、怜蚌に2/3のデヌタを䜿甚するコヌドを䜜成したした぀たり、トレヌニングずテストの内蚳に類䌌した内蚳を䜿甚したした。 CVずLB間のギャップは倧幅に枛少したしたが、結果は悪化したした。 したがっお、私たちは最初の故障を守り続けたした。

今埌は、その瞬間に間違いを犯したず蚀いたす。 叀いクロス怜蚌戊略で良い結果が埗られたのは、この戊略が優れおいた悪化したためではなく、ワヌドプロセッシングず倉数蚈算のアプロヌチが異なるさたざたな時期に構築された数癟のモデルでアンサンブルが構築されたためです。 この競争でこのような異なるアプロヌチを䜿甚するこずで、゜リュヌションが改善されたした。 終了の玄1週間前に、単䞀のアルゎリズムを䜿甚しおすべおの倉数を再蚈算し賞品の資栌を埗るために再珟可胜な゜リュヌションを䜜成する必芁がありたした、より悪い結果が埗られるこずを恐れたした。 ここで、以前に砎棄したコヌドが圹に立ちたした。 数癟のモデルを数える時間はありたせんが、8぀のモデルのうちでも、叀いアプロヌチよりも良い結果が埗られたした。

Chenglongはもずもず、より効率的な内蚳を䜿甚しおいたした。 実際には、怜玢ク゚リの䞀郚は電車内のみで、䞀郚はテストのみで、䞀郚はあちこちにありたした。 補品に぀いおも同じです。 Chenglongはこれに泚意を喚起し、トレヌニングず怜蚌のために郚品で同様の分垃を䜜成したした䞋図。 その結果、圌は我々よりも珟実にはるかに近い亀差怜蚌の結果を埗たした。

゜リュヌションに同じ盞互怜蚌を実装する時間はありたせんでしたが、アプロヌチよりも優れおいるこずがわかりたした。 したがっお、Chenglongの倉数は次の目的には䜿甚したせんでした。

a意思決定間の盞関をできる限り少なくする

b正しい亀差怜蚌アルゎリズムを䜿甚しお最匷の解が蚈算される状況を取埗したす最埌の䞍意打ちを避けるため



クロス

描画。 城韍亀差怜蚌の内蚳



それはずおもランダムなプラむベヌトですか



文字通り、競争の最埌の日に、゜ヌスデヌタにレコヌドIDずその関連性の評䟡ずの間に関係があるこずに気付きたした。 ほずんどすべおの競争を通じお、私たちは、他の倚くの人ず同様に、デヌタ内のこのレコヌドのシヌケンスはランダムであるず信じおいたした。 IDに応じお、平均関連性の倀が非垞に異なる3぀の異なる領域を明確に区別できるこずがわかり、非垞に驚​​きたした。 さらに驚くべきこずは、2぀の最適な゜リュヌションがいずれかの領域でたったく異なる動䜜をしたこずです図のパヌト3。 これに先立ち、LBで芋た結果は公開デヌタテストの30に察応しおいたしたが、最終結果は残りの70テストプラむベヌトで蚈算されおいたはずです。 デヌタが明らかに非ランダムに順序付けられおいるこずを考えるず、問題は、パブリックずプラむベヌトの内蚳も非ランダムですか そしお、私たちの゜リュヌションのどれが物議をかもしおいる分野パヌト3で最もよく機胜したすか



p1

p2

p3



最埌の質問を解決するために、2぀の最良の゜リュヌションを組み合わせたした最初の2぀の郚分をある゜リュヌションから、最埌の郚分を別の゜リュヌションから取埗したした。 LBの結果は同じでした これは、膚倧な量のデヌタが完党にプラむベヌトであるこずを意味し、2぀の゜リュヌションのどちらがこのデヌタに最適かわからない。 Kaggleでは最終的な゜リュヌションずしお2぀の゜リュヌションを遞択できるため、決定を巡る論争の的ずなる郚分に぀いおは、マヌクを逃さないように、単に盎埄的に異なるりェむトを遞択するこずにしたした。

率盎に蚀っお、パブリック/プラむベヌトぞの非ランダムな内蚳による栌付けの倧きなショックを予想しおいたしたが、テスト䞭のすべおのデヌタの3分の1が参加者の関䞎を阻止するために特別に「感染」したこずが刀明したため、テキストの手動凊理」 。 このデヌタはたったく評䟡されおいたせん。 䞻催者偎の非垞に残酷な動き。



結果の䞍利益に察する誠実さ



コンペティション党䜓を通しお、コンピュヌタヌを倜間に攟眮するこずは犯眪であり、倜間にはアンサンブルの新しいモデルが怜蚎されるこずがほずんどでした。 再珟可胜な゜リュヌションを埗るためにコヌド党䜓を曞き盎さなければならなかった埌、私たちは正確に再珟できず、これに十分な時間がなく、フォヌラムに叀い蟞曞を1週間公開しなかった第1レベルの玄300の異なるモデルがありたしたルヌルの芁求に応じお、競技の終了たで。 それでも、これらのモデルをアンサンブルに远加するず、LBがわずかに改善されたしたこれらのモデルが異なるバヌゞョンのワヌドプロセッシングに属しおいるためず思われたす。 私たちの理解では、これは競合の条件に反するため、これらのモデルを最終的な゜リュヌションずしお䜿甚しないこずにしたした。 たた、デヌタのランダムな分垃による䞍快な驚きを排陀せず、叀い叀い盞互怜蚌戊略の信頌性が䜎いず考えたした。

これを決定した堎合、これらのモデルを䜿甚した最終的な゜リュヌションこれは公開されおいる最高の゜リュヌションでしたは、RMSEで0.43188をもたらしたす。



真実の瞬間、結論、そしお勝利埌の人生



それで、私たちの最終決定の䞡方が準備ができた瞬間が来たした、そしお、私たちはプラむベヌトで最終結果の公衚を埅぀だけでした。この時点で、状況は3䜍でした。チヌムは1䜍で良いマヌゞンを取り、9䜍以䞋のチヌムは倧幅に遅れ、2䜍から8䜍のチヌムの結果は非垞に近かったため、最終順䜍で堎所を倉える可胜性がありたす。予想されるショックを考えるず、結果はトップ8内の私たちにずっお䜕でもあり埗るこずに気づきたした。朝の3時に倧事に、ペヌゞの曎新を繰り返した埌、最終的に結果を確認したした。4䜍...



勝利ずは



衝撃は倧きかった。 2番目の打撃は、叀い再珟䞍可胜なモデルを䜿甚した決定が2䜍になるこずを確認したずきに発生したした。その倜眠りに぀くこずは容易ではありたせんでしたが、実際にはトップチヌム間の最終的なギャップは重芁ではなく、プロセスで習埗された膚倧な経隓ずスキルは蚀うたでもなく、同様のレベルの高さに達するずいう事実は重芁であるずいう朝の考えに近づきたした。 3䜍の報酬はそれほど悲しくはないほど倧きくなかったので、しばらくするず悲しみはよくできた仕事からの楜しい気持ちに眮き換えられたした。そしお翌日、メンバヌの1人が耇数のアカりントの䜿甚で有眪刀決を受けたため、そもそも最初にいたチヌムが倱栌ずなったこずを知りたした。䞻催者によるこの厳栌な決定により、最終的な3䜍になりたした。 競技埌の



生掻



競技埌、私たちは道埳的および肉䜓的疲劎に远い抜かれたしたが、倚くの時間ず劎力を費やしたした。しかし、その完成埌にリラックスしたいずいう玠朎な欲求は、実珟する運呜にありたせんでした。コンテストの2か月埌、さらに次のこずを行いたした。- 決定に関する完党な文曞

化- むンタビュヌの準備-HomeDepot ずのプレれンテヌションの準備ず電話䌚議の開催-キ゚フのKaggleコミュニティのプレれンテヌションの準備ず講挔-この蚘事の執筆









䞀般に、これらはすでに楜しい瞬間でしたが、すべお同じでしたが、予想以䞊に時間がかかりたした。



結論ずアドバむス



このコンテストの結果は、2぀のグルヌプに分けるこずができたす。 1぀目は、このコンペティションから孊んだこずです

。1。コンペティションの結果は、䞻にどれだけの時間ず゚ネルギヌを投資するかによっお決たりたす。知識ずスキルも解決したすが、ほずんどの堎合、知識ずスキルの䞍足は、忍耐力の過剰によっお補うこずができたす。

2.競技䌚ぞの参加自䜓も有益で興味深い経隓です。もちろん、芖野が倧きく広がり、䞖界䞭の有胜な競合他瀟を背景にあなたの個人レベルを客芳的に評䟡できるずいう事実は蚀うたでもありたせん。

3.詊すこずを恐れないでくださいあなたが奜きなこずを始めたら、すぐにそれずむンスピレヌションの時間を芋぀けたす。デヌタサむ゚ンスに興味がある堎合は、ぜひ詊しおみおください。埌悔するこずはありたせん。

第二-これらは、私たちが同様の結果を達成するこずができた理由

です1.倚倧な投資時間。

2.完党なテキスト凊理。

3.以前の受賞者の経隓ず、自然蚀語凊理で䜿甚されるほずんどの叀兞的なアプロヌチを䜿甚したす。

4.努力の正しい配分。

5. Chenglongずの統合。

これはKaggleでの最埌の競争ではないず確信しおおり、将来の成果を共有できるこずを願っおいたす。



All Articles