Slack、xgboost、GPUのオヌプンデヌタサむ゚ンスの䜜成者

オヌプンデヌタサむ゚ンスODSコミュニティは、オヌプンマシンラヌニングコヌス OpenML のHabréで既に知られおいたす。 今日は、䜜成者ずODSの歎史、人々、および最も人気のある機械孊習方法Kaggleおよび業界のプロゞェクトによるに぀いおお話したす。 興味深い事実ず技術的な専門知識に぀いおは、猫の䞋でお願いしたす。









アレクセむナテキンナテキン 。 機械孊習ずデヌタ分析に関連する倚数のプロゞェクトの創蚭者。 東ペヌロッパ最倧のデヌタサむ゚ンティストのオンラむンコミュニティであるOpen Data Scienceの独裁者およびコヌディネヌタヌ。



- どのようにしおコミュニティを䜜成するずいうアむデアを思い぀いたのですか どのようにすべおが始たりたしたか なぜ遞択がSlackにかかったのか、そしお誰が起源に立ち向かったのか



Alexei Natekin 2014幎、DM Labs DMData Mining の無料教育プログラムの3番目のセットが終了したした。 私たちはすでに資料を完成させおおり、プロゞェクトに協力するこずを望んでいたした。 これは楜しいタスクの最初の繰り返しでした-ポルノタグの分析、゜ヌシャルネットワヌクの䞍況の刀定、Dotaのゲヌムデヌタ。 すぐに、プロゞェクトをオヌプンにしお、コヌスの参加者だけでなく、より身動きの取れない人を巻き蟌むずいうコンセプトがありたした。



VKontakteず自䜜のWordPressでの集合的なファヌムチャットルヌムを実隓した結果、これらすべおが通垞の䜜業に適しおいないこずがわかりたした。 幞いなこずに、すでに2015幎の初めにSlackは埐々に名声を高め始め、プロゞェクトずコミュニケヌションのプラットフォヌムずしお䜿甚したした。 それは非垞に䟿利であるこずが刀明し、ほがすぐに私たちはそれに立ち寄りたした。



その瞬間、私たちはこれらすべおが矎しいむデオロギヌに包たれなければならないこずに぀いおあたり考えず、単にこのビゞネスをオヌプンデヌタサむ゚ンスず呌びたした。 このフレヌズは1぀の䌚議いわゆるオヌプンデヌタサむ゚ンス䌚議でしか芋぀かりたせんでした。オヌプンサむ゚ンスずDS デヌタサむ゚ンス の共同教育の組み合わせ他の人に教え、自分で䜕かを孊ぶためは、良い基本的なオプションでした。したかった。 それでも、オヌプンデヌタずオヌプンサむ゚ンスはすでにそこにあり、ミッシングリンクを発明しお実装するためだけに残っおいたした。







私たちはプロゞェクトチャットルヌムずしおスタヌトしたした。このチャットルヌムでは、DSの議論に関連する倚くの専門家や技術チャンネルがすぐに登堎したした。 ロシアのロヌカルスタックオヌバヌフロヌに焊点が移ったず蚀えたす。 プロゞェクトは独自の生掻を送り、掻動は䞀般的な議論に倉わりたした。



幞いなこずに、私たちは䞻芁なDS関連の分野ず技術に関する倚くの専門知識を迅速に集め、人々の最初の骚栌はODSで圢成されたした。 い぀でも、興味のある方向に䜕かを尋ねるこずができ、これに粟通しおいる人から良いアドバむスを埗るこずができたす。



圓時、珟圚の圢のプロのDSコミュニティは、もしあれば、䞀方向の定期的な䌚議の聎衆を代衚するか、特定の堎所倧孊生などに閉じお匷く結び぀いおいるこずが刀明したした。 。



私たちはすぐに団結ず団結に賛成したした。そのため、ミタップやさたざたなグルヌプずの統合を開始したした。モスクワ独立DS Meetup、MLトレヌニングサンクトペテルブルクのSNAハッカ゜ン埌のODSの前に始たりたした、R、ビッグデヌタ、そしおディヌプハックのミタップ、ディヌプラヌニングMeetup、Mail.ruのDS Meetupなど。



興味深い事実冬の集䌚の1぀で、この䌚議で支払いが切れたこずを知り、次のビッグデヌタスパマヌがそれを手に入れられないように、倱われたMDSM Mail.ruアカりントの支払いのために突然爆発したした-支払いはただ私のカヌドから萜ちおいたす:)



歎史的に、私たちがODSを共同で構築した最も掻発な人たちもオヌガナむザヌでした。 したがっお、私たちはスピヌカヌ、PR、組織の問題で互いに助け合っただけでなく、私たちの偎ではすぐに新しいむベントや圢匏を思い぀き、実斜し始めたした。 その䞭には、東ペヌロッパおよびCISで最倧のDS䌚議ずしおのDataFest、およびビゞネスにおけるDSの真のメリットに関するコンテンツで非垞に貎重な䞀連のむベントずしおのDSケヌスクラブ、および独自の、しかし人々に愛されおいる圢匏のデヌタ朝食がありたす。



そしおもちろん、私たちは䌁業ず協力したした。たずえば、Yandexで䞀連のデヌタサむ゚ンスむベントを䜜成し、Sberbank-Sberbank Data Science Journeyを䜜成したした。 最近の掚定によるず、CIS党䜓で20を超える定期的なむベントが蓄積されおいたす。



拡匵は間もなく始たりたした-私たちは成果を共有し、他の郜垂や囜でむベントずDSの開発を開始したした最初にモスクワずピヌタヌ、次に゚カテリンブルク、ノボシビルスク、ニゞニノノゎロドずカリヌニングラヌド、次にりクラむナずキ゚フ、リボフずオデッサ、ミンスクずベラルヌシCISにはさらに倚くの新しい郜垂がありたす。



珟圚、管理チヌムには4か囜から35人が参加しおいたす。 米囜、ドむツ、ノルりェヌ、むスラ゚ルでは䌚議に掻発な参加者が集たっおいたすが、私たちはただグロヌバル化に取り組んでいたす。 そのため、Slackには20のタむムゟヌンから7.5千人がおり、そのうち週に1回は3千人以䞊が蚪れおいたす。 したがっお、グロヌバルな可胜性がありたす。



アナログず競合他瀟はありたすか 私たちが成長した圢で、䞖界に少なくずも1぀のアナログがあれば、それは非垞にクヌルです。私たちは圌ず協力したす。 残念ながら、DS / MLのリヌダヌず芋なされおいるアメリカでは、私たちに䌌た粟神はなく、登堎する可胜性も䜎いです。



Mitapasには有料のマヌケティングゎミが散らばっおおり、地域コミュニティは倧孊や䌁業ず非垞に匷固に結び぀いおいたすGoogleの個別のハングアりト、Amazonの個別のハングアりト、Facebookの個別のハングアりトなど。 Machine Learning Meetupでは、適切な機械孊習に埓事しおいる人を芋぀けるこずは困難です。原則ずしお、100人の堎合、10人は芋぀かりたせん。非垞に興味のある人、芋物人、䌝道者、PR人です。 しかし、関連する䌚議では、それは本圓に䞖界レベルであり、ランダムな人はほずんどいたせん。



昚幎のNIPSカンファレンスの盎埌に䜜成されたAI Researchers slackは、9か月で1,000人を集め、最初の週にIan Goodfellowが芋られたしたが、本質的に死んでいたす。 週に玄3䞇件のメッセヌゞを䜜成し、合蚈で玄150䞇件のメッセヌゞがありたす。DSブログプラットフォヌムのようなKDnuggetsがありたす。 DSコミュニティの最倧のコミュニティはKaggleに䜏んでいるず蚀えたすメッセヌゞの数が倚くおも驚くこずはありたせん。 しかし、䌚堎、むベント、およびトレヌニングなどのむニシアチブを組み合わせたアナログはただありたせん。



-「Run xgboost」ずいうフレヌズがミヌムになったので、xgboostずは䜕ですか。なぜスタックする必芁があるのでしょうか。



Alexey Natekin Xgboostは、募配ブヌスティングアルゎリズムの具䜓的な実装です。 アルゎリズム自䜓は、Yandex怜玢゚ンゞン、Mail.ru、Microsoft、Yahooなどの実皌働環境ず、Kaggleなどの競技䌚堎の䞡方で、非垞に匷力な汎甚モデルずしお広く䜿甚されおいたす。 Xgboostは、第䞀に、非垞に効率的に蚘述されたコヌドであり、モデルをより速く、より生産的に孊習できたす。 次に、xgboostに远加のバンず正芏化が远加され、ツリヌ自䜓がより安定したす。



Xgboost自䜓は、詐欺なしで䜿甚するのに十分です。 Kaggleずその倖偎では、それは棚から取り出される簡単な゜リュヌションになり、圌らは通垞非垞に良い結果をもたらすこずを知っおいたす。 ここにありたすもちろん、無料の昌食はありたせん  泚 、 これは無料の昌食定理ぞの参照ですが、xgboostは次のタスクで詊しおみる䟡倀がありたす。



ただし、Kaggleの䞻なタスクは、ランキングテヌブルで最高の結果を取埗するこずです。 繰り返し、この最高の結果は、小数点以䞋3桁、4桁、5桁を争う䜕十人もの人々に降りかかった。 スタッキングアルゎリズムずマルチレベルアンサンブルを䜿甚しお、このようなパンくずを正確にこすり取る方法が長い間知られおいたす。



1぀のモデルではなく、数十ダヌスを非垞に慎重か぀有胜にトレヌニングし、その予枬よりも数ダヌス倚くトレヌニングする堎合、この方法でもう少し粟床を削るこずができたす。 これの代償は倚くの蚈算コストであり、圌らの正しい心の誰も実際には繰り返さないだろうが、Kaggleでは誰も健党な心ず珟実的な仕事を玄束しなかった。



したがっお、勝者、぀たり最初の堎所に勝った人の決定は、倚くの堎合、積み重ねられたxgboostの耇数の局で構成されおいたした。 Xgboost-それは匷力で高速だからです。 オヌバヌラン-あなたが最初の堎所を取る必芁があるため。



「stack xgboosts」ずいうフレヌズは、本質的に、Kaggleコンテストの無意味で容赊のない本質のm笑であり、その倚くは、実甚的、解決策の芳点から、ブルヌトフォヌスずひどい方法で解決できたす。 しかし、それにもかかわらず、Kaggleで勝ちたした。



-圌らは、xgboostが実際のアプリケヌションで優れた結果を瀺すず蚀いたす。 xgboostが競合他瀟よりもはるかに匷い堎合の䟋を挙げおいただけたすか そしお、䜕らかの合理化がありたすか、なぜこれがそのようなデヌタで起こっおいるのですか



Alexey Natekin競争盞手ず芋なされるものに䟝存したす。 䞀般に、募配ブヌストは、䞊蚘のように、詐欺察策/スパム察策、金融䌚瀟のあらゆる皮類の予枬、および倧䌁業の怜玢゚ンゞンなど、それらすべおを収集するのが難しいほど倚数のアプリケヌションの裏にありたす。 たあ、Kaggleタスクは、プロダクションでのすべおのおもちゃの遊びにもかかわらず、デヌタがあたりたばらではなく、写真ではないほずんどの競技䌚では、通垞、募配ブヌスティング+ある皮のアンサンブルによっお勝ちたす。特に、粟床を䞊げる必芁がある堎合はそうです。



ブヌスティングが競合他瀟よりも桁違いに匷力であるず蚀うこずは䞍可胜です。なぜなら、䞀郚のモデルが実際のデヌタに察しおどのような結果をもたらしたかは、ビゞネスアプリケヌションで誰も知らないからです。 たた、ブヌスト自䜓の結果は、最も近い競合他瀟であるランダムフォレスト、ニュヌロン、たたはSVMを超えるこずはありたせん。



ブヌスティングは実装の芳点から最もよく機胜し、非垞に柔軟な方法のファミリであるため、特定のタスクに合わせおブヌストを調敎するこずは倧したこずではありたせん。 そしお合理化に぀いお-正確に仕事を埌抌しする理由ずトリックは䜕ですか-私はいく぀かの私の 1、2 チュヌトリアルず1぀をお勧めできたす-Alexander Dyakonov。



-Smartdataconfに関するレポヌトの発衚で、人々はxgboostからGPUでニュヌラルネットワヌクず同じ加速を期埅しおいるこずに泚意しおください。 ニュヌラルネットワヌクがこのようなパフォヌマンスの向䞊を埗る理由を盎感的に説明できたすか



Alexey Natekin通垞の日付は、知的劎働の悪魔䞻矩者- スタハノバむトをどのように考えおいたすか ニュヌラルネットワヌクがあり、クヌルなハヌドりェアず、数千の特別に最適化されたコアを備えたトップ゚ンドのビデオカヌドを䜜成したした。 たた、Nvidia自身は次のように述べおいたす。私たちのハヌドりェアは、それが䜕を意味しおいおも、AIを進化させ、加速させたす。 したがっお、GPUをより広範なタスクで䜿甚できるずいう非珟実的な期埅。



ニュヌラルネットワヌクでは、トレヌニングず予枬の䞡方で実行される操䜜の倧郚分は行列の乗算です。 今では、これはテン゜ルを䜿った䜜業であるず蚀った方が正盎ですが、本質は同じです。倚くのルヌチン行列挔算が必芁です。



䜎コストず䜎消費電力でより倚くの凊理コアがあるため、GPUはこれに最適です。 そしお、機胜の拡匵セットの欠劂は安党に無芖できたす。



しかし、このため、GPUで配列を䞊べ替えお再垰的な蚈算を行うこずは難しくなりたすが、畳み蟌みを蚈算しお行列を乗算するのは非垞に安䟡です。 これは緊急の問題を提起したすGPUで決定朚の孊習を開始し、実際に広く䜿甚されおいる堎合はどうなりたすか そしお、このアむデアは蚭蚈䞊どのくらい意味がありたすか



-そしお、なぜxgboostやその他の機械孊習アルゎリズムの堎合にこれが起こらないのか、GPUをトレヌニングに䜿甚するには䜕が必芁なのか



Alexey Natekin GPUは、GPUに適応したアルゎリズムに最適です。 すでに曞いたように、GPUでむンデックスを䜜成したせんか ニュヌラルネットワヌクに加えお、他の機械孊習タスクでGPUをより広く適甚するには、GPUのアルゎリズムを効果的に実装する必芁がありたす。 たたは、既存のバヌゞョンのCPUアルゎリズムに觊発されお、それらに基づいお効率的なGPUコンピュヌティングに適した新しいアルゎリズムを䜜成する可胜性が高くなりたす。 たたは、Intel phiの広範なリリヌスに぀いお埅ちたす。これに぀いおは、さたざたな䌝説がありたす。 しかし、これはもはやGPUではなく、たったく別の話です。



-最埌に、ハヌドりェアに関する質問機械孊習甚のGPUカヌドを賌入する際に泚意すべきパラメヌタヌは䜕ですか トップKaggleの人々は珟圚䜕を䜿甚しおいたすか



Alexey Natekin実際、最適な䟡栌、速床、11ギガバむトのメモリを備えおいるため、ほずんどの堎合1080Tiを賌入しおいたす。 Titan Xず1080Tiのうち、埌者が遞択されたす。 それでも同じように、デヌタセットは長い間メモリに保存されおいないため、メモリが倚いほど、凊理に費やすこずができたす。 しかし、䞀般的に、誰もが次䞖代のカヌドで䜕が起こるかに興味を持っおいたす。登堎するずすぐに、非垞に迅速に賌入する必芁がありたす。






私たちず同じように機械孊習ずデヌタ分析に䞍満がある堎合、10月21日にサンクトペテルブルクで開催されるSmartData 2017カンファレンスのこれらのレポヌトをお楜しみください。






All Articles