ビッグデヌタず機械孊習 HighLoad ++に぀いお





ほずんどの普通の人が持っおいる名前ず第䞀印象に反しお、「ビッグデヌタ」は単なる「ビッグデヌタ」ではなく、すべおのアレむを無制限のたたは絶えず曎新および拡匵するデヌタず組み合わせるこずさえしたせん。



実際、「ビッグデヌタ」は䞻に、デヌタを盎接凊理するアプロヌチ、ツヌル、および方法です。 これは、ほずんどの堎合、構造化されおおらず、倚様で䞍均䞀です。



そしお、最も重芁なこずは、「ビッグデヌタ」は、 HighLoad ++プログラム内の2015幎の新しいセクションであり、最初にスピヌカヌ䌚議で提案されたものです。 最初の、個​​別のレポヌトは、前の幎に登堎したした。















ちなみに、銀河のむラストはこの蚘事のタむトルに登堎したした。理由は、倩文孊は顧客ずしお、珟圚Web開発で広く䜿甚されおいるいく぀かのデヌタベヌスの゜ヌスでした。



そしお今幎、プログラム委員䌚はビッグデヌタのトピックを個別のセクションに分割するこずを決定したしたが、結局は無駄ではありたせんでした。 ビッグデヌタず機械孊習のセクションには既に12のアプリケヌションが登録されおいたす。スピヌカヌを玹介したす。



スマヌトな顔



基調講挔は間違いなく、 Toprater.comの科孊郚長Pavel Velikhov の基調講挔です。



カリフォルニア倧孊サンディ゚ゎ校で2000幎にコンピュヌタヌサむ゚ンスの修士号を取埗したした。 倧孊院では、統蚈蚀語孊を含むデヌタベヌス技術ず機械孊習に埓事しおいたした。 それ以来、DBMS、機械孊習、自然蚀語凊理の分野で開発を続けおいたす。



修士論文に䟝存した最初のスタヌトアップは、XMLずXQueryを䜿甚したデヌタ統合テクノロゞヌでした。 2003幎、BEA Systemsはこのスタヌトアップを買収し、珟圚はOracleの䞀郚ずなっおいたす。 2004幎、Pavelはロシアに戻りたした。圌の倢は、ハむテクスタヌトアップを私たちず䞀緒に䜜るこずでした。



最初に、ポヌルはシステムプログラミング研究所でSedna DBMSの開発を支揎したした。 たた、非垞に匷力なチヌムによっお䜜成されたXML DBMSでもありたした。 それを宣䌝するのが非垞に難しいこずに気付いた人たちは、それを売るずいう考えが生たれたした。 オラクルは関心を瀺しおいたすが、残念ながら、知的財産ずMAに関連する困難のために取匕は行われたせんでした。 その埌、Pavelはセマンティックテクノロゞに取り組んで、Texterraシステムを䜜成したした。 たた、2008幎にMichael StonebreakerのSciDBプロゞェクトに参加し、LHCやLSSTなどのプロゞェクトで䜜業するための倧芏暡な䞊列DBMSを䜜成したした。 チヌムはSciDBで倧量の数孊ず機械孊習を構築したした。Pavelは、この分野により密接に関䞎するずいうアむデアを埗たした。 SciDBの埌、圌はしばらくの間、News360スタヌトアップの科孊郚長ずしお働いおおり、そこでは䞻に掚薊システムに関䞎しおいたした。



Pavelにいく぀か質問をしたしたが、圌はそれらに答える時間を芋぀けるのにずおも芪切でした。



-パベル、なぜあなたは自分の仕事を始め、続けたのですか



-私がキャリアを始めた圓初から、ただ倧孊院にいたずき、デヌタベヌスず人工知胜ずいう2぀の䞻な関心事をたずめるこずを倢芋おいたした。 その埌、AIずいう甚語はこの分野での次の誇倧宣䌝の埌の虐埅的な蚀葉であり、長い間DBMSの内郚に取り組んでいたした。 Toprater.comプロゞェクトでは、゜ヌシャル倚基準遞択のためのプラットフォヌムを䜜成しおいたす。 ぀たり、倚くの分野で、私たちはテクノロゞヌの助けを借りお人々の意芋を凊理し、これを基準のシステムに倉えおいたす。 私たちは、意芋を理解するための技術の開発に倚倧な努力を泚ぎ、その品質は珟圚、䞖界レベルにありたす。 それで、このプロゞェクトで私の科孊的および工孊的関心が぀いに泚目されたした。 たあ、あなたはあなた自身のシステム、䟋えば怜玢゚ンゞンも開発しなければなりたせん。
-仕事で解決しなければならない興味深いタスクは䜕ですか



-珟圚、スタヌトアップの開発で最も興味深い時期があり、B2C垂堎ぞの参入を準備しおいるず同時に、B2B圢匏の倧手eコマヌス䌁業ず協力しおいたす。 そしお、䞀方では、テキストを理解する際の耇雑な研究​​問題を解決し、テラバむトのデヌタを迅速に凊理するためにクラスタヌを展開し、゚ンドツヌ゚ンドのデヌタバヌゞョン管理のためのシステムを䜜成したした。 䞀方、次の領域をすばやく起動したり、次のパヌトナヌのデヌタを統合したりするために、デヌタのクリヌニングず比范のタスクを非垞に短い時間で解決するこずもありたす。 私たちは最倧限に機械孊習ツヌルを䜿甚しおおり、そのような問題を解決するために瀟内ハッカ゜ンを配眮する䌝統をすでに開始しおいたす。



たた、システムのすべおの機胜をAPIの䞋に隠し、チヌムだけでなくサヌドパヌティの開発者もその䞊で補品を開発できるようにしたす。 これは私たちの戊略の䞀郚です-私たちは積極的にサヌドパヌティのチヌムをプロゞェクトに招埅したす。 しかし、高品質のAPIを䜜成するこずも困難な䜜業であり、できるだけシンプルで最小限であり、優れたドキュメントず、絶え間ない新しい芁件が耇雑なモンスタヌに倉わる恐れがありたす。 ここでは、垞にバランスず劥協点を探しおいたす。
AvitoのMikhail Trofimov氏も同様の質問をし、回答を埗たした。デヌタのスポヌツ分析に぀いおもお話ししたす。



䞀方、ミハむルはロストフ地域シャフティ垂で生たれ、研究され、地域数孊オリンピアヌドの受賞者であり、物理孊ず数孊の䜓育通を優等で卒業し、2010幎にモスクワ物理技術研究所、経営数孊ず応甚数孊の孊郚に入りたした。 3幎目からデヌタ分析に興味を持ち、1幎埌にはKaggleでの最初のコンテストに優勝したした。 2014幎以来、MikhailはAvitoで働いおいたす。



-ミハむル、あなたはどの倧䌚に参加したしたか



-倚くの競技に参加し、倖芋的には次のように策定されたした



倖郚の「モトリング」にもかかわらず、これらのタスクはほが同じ方法で解決されたす。
-Kaggleのコンテストに぀いお話しおいるのは正しいですか もう



-Kaggleは唯䞀のプラットフォヌムそしお最も叀いプラットフォヌムではなく、間違いなく珟時点で最も「ラむブ」なプラットフォヌムです。

基本的に、はい、私はKaggleに参加しおいたすが、䟋倖ずしお-オフラむンハッカ゜ンず他のプラットフォヌムのコンテストに参加したした。
-なぜあなたは自分の仕事を始め、続けたのですか



-数幎前、チヌムずずもに、私はビゞネスケヌスコンペティションに参加したしたが、デヌタ分析のタスクがありたした。

私の同志も私もそのような経隓はありたせんでした。したがっお、手動のルヌルずヒュヌリスティックに基づいた非垞に簡単な゜リュヌションを思い付きたした。 倚くの時間を費やし、最終的に4䜍になりたした。 そしお、優勝チヌムは機械孊習方法の1぀を適甚したした。



iPadは賞品であり、私は本圓に自分でそれをやりたかったので、勝者が䜕をしたかずいう事実に泚意を払うこずにしたした。 その瞬間、機械孊習の私の知り合いが始たり、それが埌に本圓の情熱ず論文に成長したした。 ちなみに、私はiPadを手に入れたしたが、別の競争で:)



私にずっお、コンテストは新しいこずを孊び、機知ず芳察力を䌞ばす機䌚です。 工倫の倉化-倚くの堎合、デヌタ分析ずタスクの非暙準ビュヌであり、機械孊習アルゎリズムではなく、決定的な圹割を果たしたす。 私は芖野を広げ、新鮮なアむデアやツヌルに遅れないようにするために、このようなコンテストに参加し続けおいたす。
-いく぀か話をするこずはできたすか たずえば、タスクは䜕でしたか、それを解決するのはどれほど困難でしたか



-私が参加した最初の競技の1぀は倚次元時系列を予枬するこずでした。 たくさんのオプションを詊しおみたしたが、「最埌の倀に定数を掛ける」よりも良い解決策を䜜るこずができず、この定数を3桁目たで遞択したした。 同じコンペティションに参加した私の友人は4぀のポゞションにいたした-圌が4桁目ず同じ䞀定の正確さを遞んだからです。 このコンペティションは、コンペティションの解決策が垞に耇雑なモデルやクレむゞヌな数匏からほど遠いこずを教えおくれたした。 そしお、その蚈算粟床は時々非垞に重芁です。



チヌムがMicrosoft Malware Classification Challengeを決定したずき、別の面癜い事件がさほど前に起こりたせんでした。 競争の秘trickの1぀は、デヌタが400 GBのデヌタであったこずです。 そしお今、終わりの前日、私たちは品質を絞っお䞊䜍10に入るようにしようずしお、バむト10グラムを数えるこずにしたした぀たり、10バむトのすべおのシヌケンスの発生頻床を蚈算する必芁がありたした。 そのようなシヌケンスの数は256 ^ 10であるず簡単に掚定できたす。 圌らは問題を数えたすが、遞択するこずは行いたせん。 しかし、いく぀かのテクニカルチップを䜿甚しお、それらを蚈算しお遞択し、モデルに远加する勇気がありたした。 閉じる前の最埌の15秒間に決定を送信したす。 結果ずしお、圌らは離陞した15番目のポゞションから3番目のポゞションに成功したした。 忘れられない
-仕事で解決しなければならない興味深いタスクは䜕ですか



-倚くのタスクがあり、タスクは異なり、それぞれが独自の方法で䞀意です。 耇雑さ=関心は、デヌタ量非垞に倚い堎合も非垞に少ない堎合もありたすにある堎合もあれば、ステヌトメント自䜓にある堎合もありたす。 鮮やかな印象の1぀は、車の䟡栌を決定するタスクです。 本質的に、これは最も類䌌したスラむスを取埗するためにデヌタベヌスぞのク゚リを修正するタスクですが、少なくずも特定の数のオブゞェクトを含みたす-そしお、IvanGuzず私は非垞に矎しい解決策を考え出すこずができたした。


残り-結局のずころ、「3」が矎しい数字である理由を説明する必芁はないので、もう1぀の「実甚的な」スピヌカヌであるQRator LabsのKonstantin Ignatovず話をしたした。GranbitDDoS攻撃に備えお機械孊習を行っおいたす。



コンスタンチン-MSTUを卒業。 バりマン情報孊および管理、自動制埡システムおよび高等経枈孊郚ビゞネス情報孊、䌁業情報システム、Qrator Labsの研究郚門の開発゚ンゞニア。 HighLoad ++に関するKonstantinのレポヌトでは、機械孊習の抂芁を玹介し、リストされおいるすべおのタむプのタスク、それらの盞互関係、それらを解決するために䜿甚される原則、最終的にトレヌニングず予枬に必芁な時間を説明したす。



たず、セキュリティ䌚瀟であるこずを匷調したいず思いたす。 ぀たり、むンタヌネット䞊の顧客リ゜ヌスの可甚性を確保するずいう目暙がありたす。 しかし、䟵入者がいたす。圌らの目暙は、少なくずもしばらくの間、クラむアントがアクセスできないようにするこずです。 その結果、私たちは絶え間ない闘争を繰り広げおおり、䞀方の過ちはおそらくもう䞀方によっお䜿われるでしょう。



い぀ものように、「犯眪者のように考える」ずいう原則、぀たり攻撃者を止めるためには、圌らがどのように行動するかを理解する必芁がありたす。



たずえば、ナヌザヌがサむト内を歩き回り、マりスでクリックし、フォヌムに䜕かを入力するず、ブラりザヌがリク゚ストを送信したす。 ブラりザはこれらのリク゚ストの䞀郚をほが独自の自由意志で行いたずえば、静的をロヌドしたす、それらの䞀郚はナヌザヌアクションに盎接関連しおいたす。 これらのリク゚ストの䞀郚は、 GET /search?q=...



など、他のリク゚ストよりも長く凊理できたすGET /search?q=...



攻撃者はこれに気づき、「通垞の」リク゚ストを凊理するために必芁なリ゜ヌスを䜿い果たしおサむトにそのようなリク゚ストを倧量に送信しようずする可胜性がありたす。



これに察応しお、たずえば、応答キャッシュを入力できたすが、攻撃者は単にq=...



パラメヌタヌにさたざたな倀を远加したすq=...



この堎合、1぀のIPから1秒あたりの怜玢数ぞの芁求数に制限を入力できたすが、攻撃者は倚くのIPアドレスの䜿甚を開始したすボットネットを賌入するずしたしょう。 応答ずしお、たずえば、最初のリク゚ストずしおGET /search



を犁止するこずができたす。 サむトの他のペヌゞからCookieをむンストヌルする必芁がありたすが、攻撃者はすぐにチップを理解し、ペアでリク゚ストを開始したす...



制限では、このような盞互䜜甚は、戊略的および戊術的な2぀の芳点から考えるこずができたす。



戊略的には、最も倚くのお金を費やしたのは単玔に重芁です。攻撃者が少なくずもある皋床の有意矩な成功のために予算を必芁ずする堎合、それは持っおいなくおもありたす。 ここでの「動き」は、攻撃者に最も高䟡な機噚の䜿甚を匷制するこずであり、おそらくより重芁なのは、手䜜業による高床な知的䜜業です。保護するリ゜ヌスごずに個別に攻撃したいです。 私たちはできるだけ行動を自動化し、高䟡な機噚を合理的に䜿甚したす。



戊術的に、䞊蚘のタスクは次のようになりたす。

  1. 私たちにずっお奇劙な振る舞いをしおいるサむト蚪問者を怜玢するず同時に、かなりの負荷をかけたす。
  2. 攻撃者の堎合実際のナヌザヌに非垞によく䌌せながら、同時にサむトを「ノックアりト」するようなボットを䜜成する。


先ほど觊れたように、タスクを可胜な限り自動化したいので、機械孊習を䜿甚したす。 この堎合、すべおのタむプのMLに盎面したす。

  • 負荷を予枬する必芁がある堎合たずえば、理解するため。バック゚ンドがどのような条件䞋で「萜䞋」するか。 回垰あり;
  • 攻撃がたったく発生するのか、誰かが倚くの正圓なナヌザヌを匕き付けたのか、぀たり、 分類あり;
  • このプロパティたたはそのプロパティを持぀蚪問者のグルヌプを探す必芁がある堎合、぀たり クラスタリングたたは異垞の怜玢のいずれか。


そしおもちろん、リストは完党ではありたせん。
さお、あなたはあなた自身がどこでい぀知っおいる「完党なリスト」なので、すぐに䌚いたしょう

最埌に 、Habrahabrナヌザヌの堎合、カンファレンスでは15の特別割匕が提䟛されたす。チケットの予玄時にIAmHabrコヌドを䜿甚するだけです。



All Articles