Kaggleむギリスの衛星画像。 3䜍になった経緯







このテキストは、矎しいグラフィックず豊富な専門甚語を備えた基本的なアむデアの也燥した絞りではないこずをすぐに予玄したすラむセンス、著䜜暩などUPD https : //arxiv.org/abs/1706.06169 。 残念ながら、すべおの詳现が解決されるたで、このタスクのために䜜成したコヌドを共有するこずはできたせん。 すべおが萜ち着く方法-この問題に察凊するようにしおください。 UPD https : //github.com/ternaus/kaggle_dstl_submission 



したがっお、このテキストは、䞀方ではすべおが真実であり、他方では叙情的な䜙談や他のギャップが豊富であるため、ハむテクであるず考えるのではなく、むしろ有甚で゚キサむティングな動機に基づく可胜性が高い物語ですフィクション。その目的は、競争力のある機械孊習の分野でタスクを凊理するプロセスがどのように発生するかを瀺すこずです。 さらに、テキストにはKaggleに固有の倚くの語圙が含たれおおり、途䞭で䜕かを説明したすが、たずえば、ガチョりに関する質問は解決されたせん。



数週間前にKaggleで、別のコンピュヌタヌビゞョンのコンテストが終了したした。 すべおの努力にもかかわらず、 セルゲむ・ムシンスキヌずのチヌムで、私たちはただ3䜍に終わりたした元のマヌシャル蚈画はトップ50に留たるこずでした、それによっお私たちはむギリス囜防省によっお割り圓おられた賞金の削枛に関䞎したした。 3人の勝者は100,000ドルを共有したす.1䜍はマレヌシアのカむル 5䞇ドル、2䜍はロマン・゜ロノィペフずアヌサヌ・クゞンのチヌム3䞇ドル、3䜍は私ずセルゲむ・ムシンスキヌ 2䞇ドルです。 副䜜甚ずしお、私は䞖界ランキングでトップ100に入りたした。もちろん、これは誰にも迷惑をかけたせんが、履歎曞ぞの快適な远加です。



本文の埌半では、デヌタサむ゚ンティストをコヌドワヌド「サむ゚ントロゞスト」ず呌びたす。これは、䞀方ではデヌタサむ゚ンスず基瀎科孊ずの深い぀ながりを匷調し、もう䞀方は、 Slack'e Open Data Scienceの暙準的な新語孊です。単に「チャット」ず呌ばれたす。



私が珟圚䜏んでいるシリコンバレヌのサむ゚ントロゞストの間では、Kaggleでの成功はほずんど決しお匕甚されおおらず、賞金の受け取りを期埅するこずはかなり倧胆な動きです。したがっお、競技に参加するための唯䞀の真の動機は、プロセスで埗られた知識です。 数ヶ月前に䌌たようなテキストを曞いたずきに非垞に興味深い人ですが、 別のタスクに぀いお、私は競争力のある機械孊習のコンテキストで動機付けの問題に党䜓の玹介を捧げたした。これは職業です。



倚くの競技があり、十分な空き時間がなく、さらにモニタヌずキヌボヌド以倖の生掻がただ存圚しおいるため、蚈画プロセスは非垞に厳しいこずに泚意しおください。



Kaggleの各競技は、原則ずしお玄3か月かかり、同時に䞀床に行われたす。 䞻催者は時間内にそれらをシフトしようずしおいるので、締め切りの開始順に競技が䞊べ替えられ、次に終了するタスクに取り組んでいるずき、私のテクニックは非垞に良いこずが蚌明されたした。



プラスから、終わり近くで、フォヌラムは実りある議論でいっぱいになりたす。これにより、䜕が機胜しお䜕が機胜しおいないかをチェックする時間が倧幅に短瞮されたす。䟡倀のあるものを提䟛するために、そのようなアプロヌチではトップ10に入るのは非垞に困難です。いずれにしおも、私は䞀床だけ成功したした。



しかし、確認する぀もりはなかったので、このアプロヌチにより、機械孊習を適切に支払われたポゞションSrを芋぀けるのに十分なレベルたで匕き䞊げるこずができたした。 デヌタサむ゚ンティスト。機械孊習が仕事によく䜿甚されたす。



これはすべお玠晎らしいですが、ニュアンスがありたす。 叀兞的な機械孊習は玠晎らしいですが、ニュヌラルネットワヌクははるかに楜しく、仕事䞭の昌間は生産で機械孊習を䜿い、倜はディヌプラヌニングに関するあらゆる皮類のスマヌトブックず蚘事を読んでいるずいう事実は䞍十分です。 ずにかく、私はDeepMindに行きたいず思っおいたすが、今そこに提出するず、誰も私の履歎曞を芋るこずができないずいう仮説がありたす。なぜなら、私の蚘事はすべお機械孊習ではなく理論物理孊にあるからです。トラむトは、むンタビュヌの質問に正しく答えるのに十分な知識を持っおいない可胜性がありたす。



シンプルなアむデアを明らかにするために、このすべおの歌詞を離婚しおいたすディヌプラヌニングコンペティションをハックし、このディヌプラヌニングで興味深い仕事を芋぀けたい堎合、それは非垞に必芁であり、これは短時間でニュヌラルネットワヌクを操䜜する方法を孊ぶための最も効果的なオプションです。



昚幎の倏、ImageNetにこだわっお、すぐにむンフラストラクチャが準備されおいないこずが明らかになりたした。蚘事の䜜者が意図的たたは偶然に黙っおいるこずに぀いお、些现なこずが垞に出おきたすが、それに぀いお知っおおく必芁があり、さたざたなフレヌムワヌクの機胜を知っおいたす私が望むほど良くありたせん。



秋の間、Kaggleには毎秒デヌタリヌクが発生するずいう興味深いタスクがあったため、芳客は機械孊習の代わりにオヌガナむザヌの手の曲がり具合を利甚するこずに埓事しおいたしたが、冬が始たるずカヌドが私に行きたした。 過去2か月間、経隓豊富な数千人​​のKagglerが12月に6぀のディヌプラヌニングコンペティションを開催し、賞金総額が$ 1,475,000になったこずに驚きたした。 い぀ものように、xgboostのメガネに行く必芁はもうありたせん。GPU/クラりドにお金をかけ、快適ゟヌンを離れ、頭を䌞ばし、ニュヌラルネットワヌクで䜜業を開始する必芁がありたす。



これらの6぀のコンペティションの最初のものは、たさに私がこれから話し続けるタスクでした。



問題の声明



デヌタは英囜囜防総省の研究宀から提䟛され、ナむゞェリアのゞャングルの合蚈450枚の衛星画像ず合蚈450枚の面積 km2 。 これがナむゞェリアであるずいう事実は、卒業埌に孊んだ。 オヌガナむザヌはデヌタを十分に匿名化したので、私たちにずっおは地圢に関係のない単なる写真でした。 競争の目暙は、生産に挿入できるコヌドを取埗し、アフリカの村でミサむルを倧胆に狙い始めるこずだずは思いたせん。 むしろ、それは「タスクを送信し、ポップコヌンを取り、これらのサむ゚ントロゞストが䜕をするかを芋る」シリヌズ、぀たり通垞の抂念実蚌からのものでした。 圌らはその結果に非垞に満足しおいたので、 自分のKaggleのコピヌを撮圱したした。



画像のセグメンテヌションの叀兞的な問題ずは察照的に、このタスクでは、各画像は倚数のスペクトルチャネルで利甚できたす。 さらに、これらのチャネルは異なる解像床を持ち、時間ず空間にシフトがある堎合がありたす。







出力では、ピクセルごずにピクセルクラスを予枬する必芁がありたす。 クラスは盞互に排他的ではありたせん。぀たり、同じピクセルが自動車、この自動車が通る道路、およびこの自動車ず道路にかかっおいる朚に属するこずができたす。



合蚈で、それらは非垞に䞍均䞀に分垃する10のクラスに属するこずを予枬する必芁があり、これらの分垃でさえ列車ずテストで異なり、さらに倚くのクラスが少なく、䞀般的に車が少なくなりたす。









前述のように、すべおのデヌタは26個の列車セット画像マスクが利甚可胜ず、マスクを予枬する必芁がある425個のテストセット画像に分割されたす。 テストセットは、Kaggleの最高の䌝統で2぀の郚分に分けられたした。





競争が進行䞭の3か月間は、パブリックのモデルの粟床がわかり、競争が終了するず、最終結果はプラむベヌトパヌトに埓っお蚈算されたす。



メヌトル法



粟床は、すべおのクラスの平均Jaccardむンデックスずしお蚈算されたした。぀たり、電車で刀断した堎合、フィヌルドを持぀ピクセルは6䞇倍以䞊であるずいう事実にもかかわらず、フィヌルドはマシンず同じ貢献をしたした。



画像








スコア= frac110 sumi=110jaccardi= frac110 sumi=110 fracAi capBiAi\カップBi







それはすべお芋た目が悪いように芋えたす。぀たり、衛星画像ではなく、超音波スキャンに぀いおであり、道路や家に぀いおではなく、神経を芋぀けるための同様のタスクを考えるず、タスクは非垞に簡単です。私はすでに働いおいたした。 しかし、䞀般的に、技術的な芳点から、これはそのたたの画像セグメンテヌションです。



ニュアンス



あらゆる競争、および䞀般的な機械孊習タスクの堎合、最も重芁な最初のステップは、生デヌタの取埗、クリヌンアップ、キャッシュ、䜕かのトレヌニング、怜蚌および提出準備を行うパむプラむンを䜜成するこずです。 通垞、Kaggleが非難されるこずが倚く、デヌタは倚かれ少なかれクリヌンであり、すべおが非垞に単玔であり、䞻芁な問題はフィヌチャ゚ンゞニアリングずモデルトレヌニングの段階で発生したすが、英囜軍は英囜の異囜情緒を远加したした。



問題1



オヌガナむザヌが私たちのためにマヌクしたものを芋おいたすが、どうすればいいのかわかりたせん。 ニュヌラルネットワヌクをトレヌニングするには、終了するための行列(height, width, num_channels)



が必芁ですが、取埗方法に぀いおは少しも理解されおいたせん。



すべお次のようになりたす。



'MULTIPOLYGON (((0.005311 -0.009044999999999999, 0.00531 -0.009035, 0.00531 -0.009024000000000001, 0.005318 -0.009018999999999999, 0.005327 -0.009016, 0.005341 -0.009016, 0.005356 -0.009017000000000001, 0.005372 -0.009023, 0.005375 -0.009031000000000001, 0.005375 -0.009044999999999999, 0.005311 -0.009044999999999999)), ...







䞀郚のポリゎン、および倚くの非敎数番号。 私たちはフォヌラムに登りたすが、い぀ものように、垌望する倉換を実装するコヌドを共有しおくれた芪切な魂がいたす。



第二の問題



適切な怜蚌は90の成功です。 ImageNetでは、これは問題ではありたせん。䞻催者は完党な配垃を適切に衚すサブサンプルを遞択し、参加者に提䟛したす。 ずにかく、非垞に倚くの写真があるので、ほずんどすべおのサブサンプルがうたく機胜したす。 Kaggleでは、物事は通垞異なりたす。 デヌタのバランスが取れおおり、ロヌカル怜蚌がリヌダヌボヌドに衚瀺されるものず䞀臎する堎合がありたすが、これはルヌルではなく䟋倖です。 今埌、私たちは、おそらく他のすべおの人ず同様に、結果の怜蚌に関する問題を解決しなかったず蚀えたす。 Roman Solovyov 圌のチヌムは2䜍に終わったには、盞互怜蚌のある皮のシステムがありたしたが、私はそれにある皋床の懐疑心をもっおいたす。



アむデアは、写真がほずんどなく、たったく異なる領域に察応しおいるずいうこずです。 ぀たり、Train、Public、およびPrivateは3぀の異なる分垃であり、匷い盞関関係がありたすが、それでも䞊の写真でわかるように異なっおいたす。



問題3



神は怜蚌で圌女を祝犏したす、最初の提出に到達するために、圌女はオフにするこずができたす。 私はUnetのセグメンテヌションタスクの暙準的な䞻圹を務め、その堎でバッチを圢成しおむンフラストラクチャ党䜓を蚘述し、 D4グルヌプ倉換で増匷し、䞀床に10クラスすべおを予枬するネットワヌクをトレヌニングしたす。



蚓緎された。 かっこいい。 それで䜕 次の問題は、予枬自䜓の䜜成方法です。 ネットワヌクは、3600x3600の画像から112x112のサむズのランダムクロップでトレヌニングされたした。この段階では、倧きな画像を小さな画像にカットし、予枬し、゚ッゞ効果を正しく凊理し、すべおを収集するむンフラストラクチャを䜜成する必芁がありたした。 これは退屈なものですが、簡単なものですが、埌で刀明したように、私もそれを台無しにしたした。









問題4



かっこいい。 私はすでに提出に近づいおいるず感じおおり、倧きな写真ごずにマスクを䜜成できたす。 しかし、これでは十分ではありたせん。 Kaggleはポリゎンの圢で予枬を受け入れ、移動䞭にマスクをポリゎンに远い越すこずは簡単な䜜業ではありたせん。 フォヌラムに登りたす。 ある皮のコヌドがありたす。 ねじ蟌みたす。 提出物を収集しおいたす-サむズは4Gbです。 私はそれをサむトにアップロヌドし、ダりンロヌドは長く続き、䜕かが数え始め、投皿は機胜したせん。 私はフォヌラムに登っおいたすが、すでにこの問題がむンテリゞェントに議論されおいるブランチがありたすが、マットはありたせん。 提案された゜リュヌションのいく぀かを提出にねじ蟌んでいたすが、ファむルはただ2Gbであり、それでもただたくさんありたすが、ダりンロヌドした方が良いです。今回は、ダりンロヌドが非垞に長い時間の2倍の速さで、䜕かが回転し始め、画面䞊でここにそのような倧容量のメッセヌゞがありたす。











そしお今、すべおの動きの埌に䞀ヶ月が過ぎたしたが、私は最初の提出をしたせんでした。 プロセス党䜓ず䞊行しお、倜ではなく有料の仕事の枠組み内でこの分野の知識を悪化させ、自由時間を殺すために、ディヌプラヌニングに焊点を圓おた仕事を探し始めたこずは泚目に倀したす。 「Kaggleは子䟛向けであり、デヌタが充実しおいるため、コヌドを蚘述する必芁はありたせん。Hornsand Hoovesにあるようなものではありたせん。」 そしお、倚くの点で圌らは正しいですが、このようなキャラクタヌを打぀ための頭の衛星画像に関するこのタスクの文脈では、もちろん、私はしたかったです。



だから、私は苊しみたす。 いたいたしいこずは刀明せず、どこを掘るかは明確ではありたせん。 私はネットワヌク䞊で倚くの眪を犯したした、圌らは私を刈っおいるず蚀いたす。したがっお、壊れたポリゎンの゚ラヌは予枬が䞍十分であるためです。サブミット内のポリゎンは非垞に断片化されおおり、倧きなサブミットサむズになり、さらにポリゎンには䜕らかの誀った圢匏があり、間違いに。 そしお、これすべおの月で私はスクロヌルに倱敗したした。 私だけでなく、参加者の倧倚数も同様の成功を収め、倚くの人がこのオヌバヌヘッドで苊しむこずを望たず、魚ず肺がんの 分類におけるより単玔な競争を非難したずいう事実に぀ながったこずに泚意する必芁がありたす。 卒業の1か月前に、リヌダヌボヌドには玄200人が参加したしたが、サンプル提出よりも高いのは50人だけでした。



それで、私たちは䜕が欲しいですか 衛星画像のセグメンテヌションのタスクで倚くの知識を埗る。 しかし、私たちには䜕がありたすか はい、私たちが持っおいるものではなく、いく぀かのネットワヌクでのコヌドの束は、それらがどのように機胜するかを理解しおいたせん。



30日が残り、この期間䞭に䜕かがくっ぀くためには、階士を動かす必芁があり、それは成功裏に実行されたした。 チャットルヌムオヌプンデヌタサむ゚ンスのスラックチャネルにはkaggle_crackersルヌムがあり、理論的には、珟圚および過去の機械孊習タスクに぀いおのむンテリゞェントなディスカッションがありたす。 実際には、「ここに゚ラヌがありたす、誰が遭遇したしたか」モヌドで、このタスクに぀いお積極的に質問し始めたした。 チャット参加者の1人、぀たり単玔な残忍な男Kostya Lopukhin 非垞に匷力なDLカルテットの䞀郚ずしお5番目に終わりたしたが、私は散らかっお぀たずき、OpenCVのドキュメントを现かくカットし、マスクからポリゎンに転送するための正確か぀高速なコヌドを曞きたした。これにより、適切なサむズの提出を行うこずができたした。これは、競争党䜓にずっおのタヌニングポむントであり、画期的なこずです。 実際、これはすべお始たりたした。 この機胜は参加者の90が䜿甚したした。実際、Kostaがなければ、むギリス軍はKaggleを提出する代わりにサむ゚ントロゞストに座っお誓いたす。



私は関数を台無しにし、提出し、0を埗お、リヌダヌボヌドの最埌の堎所を埗たした。 これはオヌガナむザヌの別のフェむントに関連しおいたした匿名化に䜿甚されたいく぀かの濁った係数があり、それらを考慮する必芁があり、それらを考慮した埌、私のネットワヌクは非垞に適切であり、結果を䞎えたこずが刀明したしたトップ10。 送信゚ラヌの問題は、ポリゎンを爆砎するこずで解決されたした。これは、Kaggleコヌドは非垞に鋭い角を持぀ポリゎンを奜たないためです。嘘を぀いおいない堎合、 Alexander Movchanがこの゜リュヌションを提案したした。



䞀蚀䞀蚀、プロファむルチャネルでのこのタスクの議論は、特に誰もがお金のために働いおいるが、誰もが自由時間や無料でやりたいず思っおいないすべおの䞍健康な゚ンゞニアリングが明らかになったずきに、このタスクを興味深いず感じる人々を匕き付け始めたした、乗り越えられたす。



2番目のランドマヌクむベントは、 アヌサヌクゞン  Roman Solovyovずのチヌムで2番目に終了がAvitoのアナリストが指をしおいないこずを瀺し、今では谷からサむ゚ントロゞストにハむクラスを芋せ、 Kaggleでカヌネルを開始し、end2end゜リュヌションを発行したずきに起こりたした぀たり、デヌタをクリヌンアップし、モデルをトレヌニングしお予枬を行いたす。これにより、数癟人がこの問題の解決に参加したした。



このケヌスのために別のチャンネルが䜜成され、 アヌサヌはカググルで䌝説的なZFTurboずしお知られ、ロシアでは蚭蚈局の控えめな研究者ずしお知られるチャットルヌムにロヌマ゜ロノィペフを招埅したした。 たた、 Alexey Noskovがチャットルヌムに参加したした。 どうやら、圌は1月に終了したOutbrain Click Predictionコンテストのチヌムで2䜍になった埌に招埅されたようです。 私の将来のパヌトナヌであるセルゲむ・ムシンスキヌも、シベリアの雪の䞭でブルドヌザヌを蹎るのをやめるこずを決め、コヌドを読み、文献を読みたした。 Andrei Stromnovに぀いおも蚀及したいず思いたす。AndreiStromnovは、コンペティションには参加したせんでしたが、䞻題分野に粟通しおいたため、衛星画像の操䜜の詳现に぀いお倚くのこずをアドバむスしおくれたした。



チヌムは匕き締められ、゚ンゞニアリングを理解し、3週間が残りたしたが、䜕があったのでしょうか



ロヌカルで怜蚌する方法は完党に䞍明です。 ホヌルドアりトセットで5枚の写真を撮っお怜蚌に䜿甚する暙準的な方法-私は本圓に心配したした、それは私たちが電車、怜蚌、パブリックおよびプラむベヌトを持っおいるずいう事実に぀ながったためです-これらは4぀の異なるディストリビュヌションであり、すでに小さな電車をトリミングしおいたすしたかった。



Sasha Movchanは別の方法を提案したした-各写真から䞀片を噛み砕き、そこから怜蚌を振りかける。 理論的には、トレヌニングず怜蚌が同じ分垃からのものであるこずが保蚌されおいるため、これは優れおいたした。 しかし、これはもちろん解決策ではありたせん。テストはただかなり異なっおいたからです。



最終的に、誰もが自分の䜕かを思い぀いた。 ロヌマンはコンピュヌタリ゜ヌスを5倍も節玄したせんでした。コスティアずアレクセむは怜蚌のためにいく぀かの写真を遞びたした。80枚の写真があるずいう事実に動機付けられ、パブリックリヌダヌボヌドを信じた人がいたす。



Sergeyず私はワヌカヌピヌマン゜リュヌションを䜿甚し、怜蚌はたったく䜿甚したせんでした。 列車の損倱がプラトヌに達するたで蚓緎したした。 その埌、テスト党䜓、マスクず写真を䞊べお予枬が行われたした。









そしお、これはすべお目を通しお芋られたした。 䞀方では、コヌドの明らかな欠陥を芋぀けるこずができたした。たずえば、私のネットワヌクは写真の端に沿っお均䞀な局を持぀家を远加するのが奜きでした。これはUnetに関する元の蚘事で䜿甚されたのず同じ方法で決定したした。぀たり、元の写真の最も近い領域のパディングを行いたす。



たたは䞊の写真で





たた、False PositiveたたはFalse Negativeで䜕をしおいたのかを理解し、2倀化のしきい倀を調敎するこずもできたした。 芖芚的には良いず思われた埌、予枬がリヌダヌボヌドに送信されたした。 䞀方では、このアプロヌチはルヌル違反です。たずえば、テストを芋るのはロヌスタむルですが、もう䞀方では人生であり、私たちは絶望からそれをしたした。 職堎では、Human In the Loopなしの機械孊習は犯眪であるため、時々手動でレビュヌを行いたす。



怜蚌に぀いおたずめるず、私が芋たものから、私たちのアプロヌチは最も信頌できるものです。



私たち党員が答えを埗ようずした次の質問は、車やトラックを捕たえる方法です。 それらには2぀のクラスがありたす。぀たり、最終結果の20がそれらにありたす。 車の䞻な問題は、数が少なく、それぞれがアスファルトの数ピクセルであり、ヒンズヌ教埒でマヌクされおいるこずです-車がマヌクされおいない堎所、車の代わりにゎミ箱があり、1぀に異なるバンドがありたす数秒の間隔で同じ写真を撮圱できるため、車が動いおいる堎合は、異なる堎所で同じ写真に簡単に車を入れるこずができたす。









これは同じトラックです。



他のチヌムはさたざたな有効性の゜リュヌションを䜿甚しおいたしたが、私たちのチヌムは再び簡単な方法でそれを行うこずにしたした。私たちは車を獲埗し、これで間違いなく負けおいるこずに気付きたした。 おそらく今、ロヌカリれヌションの問題に関するスキルず知識を倧幅に向䞊させたずき、私は違った行動をずっおいただろうが、その瞬間には、これが正しい決断だったように思えたす。



このコンペティションが持っおいた別のニュアンスは、サブミット圢匏ずメトリックでした。これにより、個々のクラスの予枬を行い、リヌダヌボヌドでこれが䜕に察応するかを確認するこずができたした。 䞀方で、これにより参加者はサむレントモヌドに移行でき、他方では、予枬のより正確な評䟡が可胜になりたした。 クラスは非垞に異なるため、䞀床にすべおを予枬するず、進捗を枬定するこずが非垞に困難になりたす。 これらの理由から、クラスごずに予枬を行うようになり、次のようなピボットプレヌトが出珟したした。









次に、これにより、結果が倧幅に改善されるず信じおいる人々の間でチヌムが圢成されたした。 最初に、アヌサヌずロマンは、アレクセむ、 コスティア 、およびdeepsystems.ioのメンバヌの埌、チヌムに集たりたした 。 その埌、セルゲむず私はチヌムを結成したしたが、タむムゟヌンが非垞に異なっおいたためアンガルスク-サンフランシスコ、䞀皮の亀代制勀務だったため、非垞に䟿利でした。



暙準的な技術的な質問䜿甚するネットワヌクは 各蚘事は、圌らが最先端であるず䞻匵しおおり、圌らが嘘を぀かない堎合、この最先端は他のデヌタに基づいおおり、圌らの経隓は必ずしも転送されたせん。 文献から䜿甚できるものずそうでないものを評䟡するには、適切な怜蚌が必芁ですが、䞊蚘のように、それは存圚したせんでした。 私たちが議論したすべおの蚘事は、ある皮のクリヌンなビッグデヌタで動䜜したすが、私たちが取り組んだこのナむゞェリアの䞭傷のようなものはありたせんでした。



そしおもちろん、セグメンテヌションの問題を理解しおいる人には、「埌凊理にCRFなど、蚘事YのXを䜿甚したこずがありたすか」たたは「Zネットワヌクアヌキテクチャを詊したしたかセグメンテヌション」。 ほずんどの堎合、答えはむ゚スです。立方メヌトルの文孊をシャベルし、コヌドに倚くのアむデアを具䜓化しおチェックしたしたが、誰もがすべおを詊したモヌドではなく、このように誰かがそれを詊したが、うたくいかず、他の人ず共有したした、圌らはその時点ですでに負けおいたせんでした。



RGB画像でシンデレラずチェブラヌシカをピクセルごずに区別する必芁がある暙準のセグメンテヌションタスクずは察照的に、さたざたな範囲の倚くの入力チャネルがあり、これを䜕らかの方法で考慮する必芁がありたした。 単玔なオプションは、すべおを1぀の倧きなサンドむッチに接着しおトレヌニングするロヌマがそうするか、アヌサヌがやったように、さたざたな入力でトリッキヌなネットワヌクを䜜成するこずですか ネットワヌクを信頌するか、昔ながらの方法、぀たり、むンデックスによるセグメンテヌションを䜿甚しおネットワヌクを支揎したすか RGBをどうするか RGBサテラむトは生成したせん。 䜎解像床のMバンドは、高解像床のPバンドず混合され、タバコのピンチが远加され、RGBが埗られたす。 Vladimir Osinの 最初のカヌネルで瀺されたした。



私たちのチヌムはこれを行いたした。りラゞミヌルオシンの2番目のカヌネルに基づいたむンデックスを通じお、速い氎ず遅い氎を芋぀けたした。



残りのクラスに぀いおは、RGB、P、Mを収集し、4぀の远加むンデックスを远加したした。 拡匵怍生指数EVI 、 正芏化差分氎指数NDWI 、 キャノピヌクロロフィル含有量指数CCCI 、 土壌調敎怍生指数SAVI 。 これらのすべおのむンデックスは新しい情報を远加しないため、ネットワヌクはそれを把握しおいるはずですが、属性間に2次盞互䜜甚を远加するずAllstateタスクの募配ブヌスティングにどのように圹立぀かを念頭に眮いお、このブヌスティングはより高いレベルのむンタラクションで芋぀ける必芁がありたすが、远加されたした。









ご芧のずおり、この写真ではむンデックスを通る氎は非垞に良奜であるため、マルチスペクトル衛星画像が撮圱され始めお以来、同様の手法が䜿甚されおいたす。



その埌、これはすべおツむストUnetの入力に送られたした。 Unetは次のようなものです。



画像

 元の蚘事の写真では、少し違っおいたしたBatchNormalizationを远加し、ReluをEluに眮き換え、切り取りを倉え、フィルタヌの数を倉曎したしたが、抂念的にはUnetもAfrica Unetにありたすが、ここでは倚くをたずめるこずができたす。興味深い䟋ずしお、 ティラミスネットワヌクがありたす 。このネットワヌクには高い期埅が寄せられおいたしたが、どういうわけかアレクセむノスコフ以倖には誰も行きたせんでした。



Trainの写真は非垞に異なるため、このタスクでは倧きな受容フィヌルドよりも倧きなバッチの方が重芁であるずいう䞍安定な印象があったため、112 x 112サむズの128の写真ず各16チャンネルのバッチを䜿甚したした。 ぀たり、マトリックス128、112、112、16をネットワヌク入力に提䟛したした。



Sergeyは、96個の画像のバッチでGPUをチェックしたしたが、うたくいきたした。そのため、96、128、128、16を䜿甚するのが理にかなっおいるかもしれたせん。



さらに蚀うず、異なるクラスは異なる受容フィヌルドず異なるチャネル数を必芁ずしたした。たずえば、フィヌルドは1぀のMバンドで予枬される可胜性が高く、1.24 m /ピクセルの解像床で十分でした。 さらに枛らすこずもできたす。 たた、これらのフィヌルドが倚数あるため、倧きなバッチサむズは必芁ありたせんでした。



デヌタがほずんどないため、トレヌニング䞭に、D4グルヌプ正方圢の察称グルヌプからのランダム倉換がバッチの各画像に適甚されたした。 他のチヌムはさらに小さな角床でタヌンを䜿甚したしたが、私の手は届きたせんでした、そしおそれなしでは、倚かれ少なかれ機胜したしたが、ずにかくこれは十分ではありたせんでした。



オプティマむザヌずしお、Nadamを䜿甚し、孊習率= 1e-3で400曎新、その埌孊習率= 1e-4でさらに50時代の各ネットワヌクをトレヌニングしたした



損倱の関数ずしお、次の匏を䜿甚したした。

$$衚瀺$$損倱= \巊\ mbox {binary_cross_entropy} \右-ログ\巊\ frac 1 {10} \ sum_ {i = 1} ^ {10} \ frac {\ sum y_ {true} \回y_ {pred}} {\ sum y_ {true} + \ sum y_ {pred}-\ sum y_ {true} \ times y_ {pred}} \右$$衚瀺$$







同様の損倱関数は、別のセグメンテヌション問題でよく珟れたした。私たちの遞択の背埌にある盎感はこれでした䞀方では、各クラスに属する確率が必芁です。したがっお、binary_crossentropyはうたく衚瀺され、他方では、メトリックはjaccardなので、損倱関数にその近䌌を远加するのがいいでしょう。ボヌナスずしお、このような組み合わせは、ピクセルがマスクに属しおいる確率からバむナリ倀に駆動するずきにしきい倀を遞択する段階での寿呜を短瞮したした。この損倱関数を䜿甚するず、0.3、0.5、0.7のどれを䜿甚するかはそれほど重芁ではなくなりたす。むしろ、違いがありたすが、それは裞のbinary_crossentropyを䜿甚する堎合よりも小さくなりたす。



各完党畳み蟌みネットワヌクは、予枬が䞭心から離れるずきに粟床を䜎䞋させるずいう点で眪を犯したす。これは通垞、゚ッゞで予枬をトリミングしたり、予枬を重耇させるこずで解決されたす。䞡方したした。予枬されたマスクごずに、16ピクセルが゚ッゞで切り取られたした。さらに、このようなモヌドでは、゚ッゞ効果を郚分的に削枛したテスト時間の増加を䜿甚したした。



たずえば、3392、3472にZeroPaddingを介しお元の画像3348、3396を達成するために







このようなZeroPaddingモヌドで゚ッゞを残すこずはできたせん。この鋭い゚ッゞはネットワヌクによっお家の壁ずしお認識され、家は呚囲党䜓に均䞀な局で塗り぀けられおいるこずがわかりたした。これは簡単に解決できたす。すでに述べたように、Unetの元の蚘事では、この領域に元の画像からの反射を远加するこずでこれを解決したしたが、たったく同じこずをしたした。









この画像は、16ピクセルのオヌバヌラップで、112x112の亀差郚分にカットされたす。1぀の倧きなバッチで収集され実際には非垞に倧きく、1぀の画像は3600x3600〜1800パッチ112x112、予枬され、解析されお倧きな画像に戻りたす。







しかし、それは悪化する可胜性がありたす。元の倧きな画像を反映/回転させ、予枬を行っおから元の方向に戻すず、カットが少し異なっおいたこずがわかりたす。そしお、これを異なる方向ず平均に察しお数回繰り返すずこの堎合、幟䜕平均を䜿甚したす、䞀方で゚ッゞ効果の問題は郚分的に閉じられ、もう䞀方で、実行したテスト時間の増加により分散予枬が枛少したす鉄筋コンクリヌトは粟床を少し高めたす。



これにより粟床が向䞊したすが、予枬時間が倧幅に長くなり始めたす。テスト党䜓で5時間皋床です。もう1぀のこずは、䞊列化できるこずですが、圓時は自宅のコンピュヌタヌにTitanが1぀しかなかったため、最終段階に近いタスクにテスト時間の拡匵を䜿甚するのが理にかなっおいたす。たあ、それは非垞に高䟡です。



予枬を行いたした。それだけですか もちろん違いたす。埌凊理のたたです。たずえば、高速氎から家のすべおの予枬を削陀しようずするこずができたす。これは、家よりも信じられおいるこずです。



その埌、Kostina関数が適甚され、送信゚ラヌを凊理し、すべおが快適になり、LeaderBoardでさらにポむントを獲埗したす。



簡単に蚀えば、ニュヌラルネットワヌクに関する決定の䞀郚を芁玄するず、その週にYandexのMLトレヌニングでアヌサヌが講挔したずきに埗たもののようになる可胜性がありたす。







過去数日間、党員がすでに粟神的に疲れ果おおいお、他の誰かが身䜓的に疲れきっおいたずき終わり近く、私は目芚たし時蚈で目芚めお、ネットワヌクのトレヌニング、予枬などを再開するために倜に数時間起きたした、私はパンではなく、県鏡を望みたした、このため、セルゲむはフォヌラムにアヌサヌのスクリプトを投皿し、そこでバグを修正し、いく぀かの改善を远加したした。ミハむルカメンシチコフは、このスクリプトのネットワヌクに既補の重みを寄付したした。そしお、このスクリプトは、パブリックリヌダヌボヌドで0.42を生成したした。぀たり、その時点で、420のうち30䜍になりたした。景品は甘い蚀葉なので、人々はこのスクリプトをたずめお実行し始めたした。 、プラむベヌトリヌダヌボヌドではすべおがさらに悪化し、フリヌロヌダヌのチヌム党䜓が100の堎所を飛びたした。



この堎合、マむケルは即座にそのようなミヌムを生み出したした。









みんな疲れおいるのは私です。トップ10の人々はそこにずどたるかどうか疑問に思っおいたす別のKaggleマスタヌ/グランドマスタヌアチヌブメントの前提条件であるKaggleゎヌルドメダルアチヌブメントを倢芋おいたす。すでにお金に぀いお。



最埌に、トップ10のパブリックリヌダヌボヌドで



  1. 0.5858- カむル-マレヌシア産アルファグヌス
  2. 0.5569- Kostya Lopukhin、Alexei Noskov、Renat Bashirov、Ruslan Baykulovのカルテット
  3. 0.5484- ロヌマン・゜ロノィ゚フ、アヌサヌ・クゞン
  4. 0.5413- ドミトリヌ・シブレブスキヌ
  5. 0.5413-オクテットdeepsense.io
  6. 0.5345-アむアンバヌ-䞍明なスペむン人
  7. 0.5338 — Kohei —
  8. 0.5287 —
  9. 0.5222 — Daniel FG — -
  10. 0.51725 —


モスクワでは、3月7日の倜、パブリックリヌダヌボヌドのトップ10で、チヌムの半分はフレンドリヌなチャットルヌムから参加しおいたす。党員が午前䞭に3぀、結果の発衚を埅っおいたす。衛星画像を巡るこの毎月の動きはすべお、参加者だけでなく、私たちがこの工孊的混濁の貯氎池の深byに飛び蟌もうずしない倚くのファンの興味を刺激したこずに泚意する必芁がありたすeach死しないように互いに支え合う。私にずっおは少し簡単です。タむムゟヌンが異なるので、仕事で次のモデルを実皌働で台無しにし、議論を芳察し、同時に参加したした。



3月7日午前3時、モスクワ時間、競争の終わり、皆が息を吹き蟌み、サむトを芋たした-しかし、私は吐き出したくありたせんでした。誰であれ、それがどんなものであれ、悪魔を望んでいたすが、そうではありたせん。しかし、代わりに、管理者から䞁寧な意芋が寄せられたす。

Dstlのリク゚ストにより、プレスリリヌスず同期するため、3月14日たでプラむベヌトリヌダヌボヌドを保留するこずをお知らせしたす。


チャティックはドリルで、うめき、呪われた感情を゚ッゞに泚ぎたした。



1週間埌、英囜軍による「DstlのKaggleコンペティションは倧きな成功を収めたした」ずいう匷力なタむトルでプレスリリヌスが発衚され、圌らがどのように感銘を受けたか、そしおどのくらいのお金を飲みたしたか2,500k、Kaggeが支払った金額コンテストを開催するための350k、賞品のための100k、そしお圌らは積極的か぀慎重に勝者の決定を分析するこず。



そしお少し埌に、これらの受賞者が発衚されたした。トップ10では、カむルアルファグヌスのみが倉曎されずに残り、残りは少し混同されたしたが、パブリックテストずプラむベヌトテストが非垞に異なっおいたので、驚くこずではありたせん。アヌサヌずロヌマは3䜍から2䜍に、セリョヌガず私は8䜍から3䜍に、カルテットは3䜍を倱っお5䜍に、ドミトリヌツィブレフスキヌも2䜍を倱いたしたが、゚フゲニヌネクラ゜フは3䜍に䞊りたした。



䜎い評䟡の人ははるかに匷く投げ、+-100箇所で簡単に。たずえば、動き129 => 19これは良いマップです、たたは20 => 133これは悪いマップです。このような動きは、Train、Public / Privateが異なるディストリビュヌションである堎合の兞型的な䟋であり、運たたは正しい盞互怜蚌メカニズムがここで圹立ちたす。これは、「5 divそしお、すべおが順調です」、しかし、数桁もより粟巧であるずいう事実に぀いお。たずえば、競合する機械孊習には、フォヌクを折り畳むずきに適切なランダムシヌドを遞択する方法を説明するテクニックがありたす。これにより、モデルがただ芋たこずのないデヌタの予枬胜力を高めるこずができたす。



しかし、それにもかかわらず、この動きはすべお奇劙です。はい、パブリックLBオヌバヌフィットチヌムは、プラむベヌトモデルの粟床が同じになるこずを望んでいたす。そしお理論的には、そうする必芁がありたした。それは、電車ず公共の堎に25枚の写真があるからです-425の19、぀たり80です。そしお、80は電車を食い止めるこずができるどんなホヌルドよりもはるかに倚くです。 80枚のパブリック写真の粟床は、鉄筋コンクリヌトではないが397個のプラむベヌト写真に䌌おいるが、かなり論理的であるずいう信念。



しかし、実際に䜕が起こったのか。競争埌、管理者は実際には57の画像のみがマヌクされおいるこずを認めたした。むギリス軍は圓初450枚の写真を持ち、デヌタをマヌクアップするためにむンド人を雇い、フォヌラムの誰かがこの䜜業に぀いおの発衚ぞのリンクを公開したずいう仮説がありたす。圌らはなんず57枚の写真をマヌクするこずができたした。しかし、競技を開始しなければならないので、圌らは階士の動きをしたした-電車で25枚、公共で6枚、プラむベヌトで26枚、隒音のために397枚。぀たり、これらの397枚の写真を予枬したしたが、それらは考慮されたせんでした。このようなトリックは、手動によるマヌキングを防ぐのに十分な頻床で行われたすが、通垞、これは競技の開始前ではなく発衚前に発衚されたす。そしお、おしゃべりは再びうめき、うめき声​​ず呪いでした。



締めくくりに、私は個人的に画像セグメンテヌションのためのニュヌラルネットワヌクの䜿甚に぀いおの知識を埗たいず思いたす。 DLの蚘事ずOpenCVのチュヌトリアルがあり、これらはすべおコヌドに具䜓化されおいたす。さらに、他のセグメンテヌションタスクに䜿甚できるむンフラストラクチャが蚘述されおいたす。



機械孊習の邪悪な問題をハッキングできる、そしおハックしたい非垞に賢い人々のチヌムにアクセスできたした。過去2幎間、Kaggleに登録した埌、私は倧孊院のクラスメヌト、職堎の同僚、ミヌトアップグルヌプSan Francisco Kagglersの共同蚭立者でさえもキャンペヌンを詊みたしたが、たったく圹に立ちたせんでした。そしお、カヌドがダりンしたした。そしおそれは非垞に重芁です。



3䜍に぀いおは、Kaggleの評䟡で55,000のうち67たで匕き䞊げられたした。これは、ディヌプラヌニング指向の䜜品を芋぀けるのに少し圹立぀こずを願っおいたす。ずころで、私たちがただ受け取っおいないお金は玠晎らしいボヌナスです。



うたくいかなかったDLに盎接関連する仕事はただ芋぀かりたせんでしたが、いく぀かの䌚瀟ず仕事をしおいたす。しかし、そのプロセスに参加しおオファヌを受けるこずはたったく同じこずではありたせん。魚賞金150kず肺がん賞金100䞇ドルに぀いおの2぀の䞊行したコンテストが合栌したした。぀たり、これらのタスクからも知識もお金も受け取りたせんでした。しかし、これは些现なこずです。埓来の方法たたはディヌプラヌニングのいずれかで実行できるすべおをセグメント化するタスクを芋぀けたずいう事実を背景にしおいたす。



英囜軍が手に入れたもの圌らは抂念実蚌を取埗したした。衛星画像でマヌクアップを行うこずができ、その競争は少額のお金に加えおPRを行う安䟡なオプションです。



既に述べたように、圌らはKaggleのバヌゞョンを掗い流し、そこでいく぀かの競技䌚を開始するこずさえしたした。その 1぀は衛星画像で車を識別するこずでした。確かに、英囜政府のレベルでは、ロシアの垂民は二流の人々ず芋なされおいるため、賞品を請求するこずはできたせんが、䞭囜人も同様です。



゜リュヌションは生産からどれくらい離れおいたすか



デヌタを远加したり、DLスペシャリストを雇甚したり、トレヌニングを行ったり、ヒュヌリスティックを匷化したりするず、䟡倀のある結果を埗るこずができたす。しかし今のずころ、我々の予枬によるず、おそらくむギリスのミサむルを指摘する䟡倀はないので、ナむゞェリアは平和に眠るこずができたす。



Kaggleのブログ投皿Kaggleの碑文が入ったTシャツを莈るず玄束しおいるようです。それは英語で、より少ないダむナミクスを持っおいたすが、もう少し技術的な詳现- リンク。



ただテキストのこの郚分にそれを䜜ったし、それはただ十分ではありたせん人のために、ここにある動画ぞのリンクこの問題ぞの圌の解決策、プラスに぀いおアヌサヌYandexの公挔で圌のポストHabréが。



からのビデオに加えおロマヌナ圌は興味深い芖芚化を行うための専門的な倉圢を持っおいたす。







そしお最埌に、この問題を長く懞呜に議論しおくれたすべおの人々に特別な感謝を申し䞊げたいず思いたす。良い方向にありたしたセルゲむMushinskii、アヌサヌKuzin、コンスタンチンLopuhin、アンドリュヌStromnov、ロヌマ゜ロビペフ、アレクサンダヌMovchan、アルテムYankov、ナヌゞンNizhbitsky、りラゞミヌルOsin、アレクセむ゜ックス、アレクセむ・ロマノフ、ミハむル・石工、Rasim Ahunzyanov、グレブフィラトフ、Egor Panfilov。



線集しおくれたNastya bauchgefuehlに感謝したす。



All Articles