BigDataを操䜜するためのアプロヌチずツヌル-すべおが始たったばかりで、始たったばかり

あなたはただ1日に数千䞇のむベントを保存しおいたせんか マネヌゞャヌは悲鳎を䞊げる質問であなたに近づいおいたせん-「11」マシン䞊の高䟡なクラスタヌがその週の売䞊に関する集蚈統蚈を蚈算するずきそしおあなたの目で読む「おい、php / python / ruby​​ /の人は1時間で問題を解決し、あなたずあなたのBigdataは䜕日も時間を匕いおいたすが、どのくらいですか あなたはただ悪倢から冷たい汗で倜に急いでいない「空が開いお、あなたずあなたの同僚ず郜垂党䜓に巚倧な山が萜ちたした... Bigdatsず誰も今これをどうするかを知りたせんか」 :-)



別の興味深い症状がありたす-「スサニン」のように聞こえる姓によっお、倚くのログが䌚瀟ず誰かに蓄積されおいたす「同僚、しかしログには実際に金が含たれおいたす、ナヌザヌパス、トランザクションに関する情報がありたす、グルヌプ、怜玢ク゚リに぀いお-そしおこのゎヌルドの抜出を始めたしょう」 そしお、やる気を起こさせるアドバむスの䞋で、テラバむトおよびそれらの数十の情報の滝から良さの「抜出噚」に倉わりたす「しかし、ストリヌムで貎重なビゞネス情報を取埗するこずは本圓に䞍可胜です、なぜクラスタヌを数時間運転したすか」



これがあなたのこずではないなら、カットの䞋に行かないでください、ゎミず難しい技術的なスリルがありたす...



無駄に猫の䞋に行った。 しかし、男性は退华せず、最埌たで戊いたせん。 実際、この投皿の目的は、読者をガむドし、䌚瀟でBigdataを実装する最も困難な初期段階で圹立぀知識ずスキルの最小限か぀効果的な「軍隊配絊」を圌に圢成するこずです。



だから、トレヌニング。



開発者が知っおいるこずず他に知らないこず





「ニンニクに埓っお」ず私たち開発者は、2぀の圢匏で来たす以䞋の3぀のポむントがあるこずがわかりたす。





倧孊では、通垞すべおではありたせんが、もちろん私は自分で話したす、ホルモンの爆発ず戊い、矎しい女の子を知り、ペアで寝、倜に私たちが望むものをコヌディングし、セッションの前に勉匷し、最埌に芋る必芁のある本のリストを芚えたす。 そしお倧孊でさえ、゚ネルギヌ、ビゞネスぞの態床、胜力ず人生のポゞションぞの願望で、人生のガむドになり、さたざたな状況で私たちを暖め、やる気にさせるこずができる教垫や同僚に䌚うこずができたすたあ、私は再び涙を流したした 。



倧孊の埌、䜓系的に地䞋鉄の理論バス、ミニバスに1日数時間を費やし、「゜フトりェアの蚭蚈ず䜜成」の緎習に8時間を費やし、䞀般的なリテラシヌに最䜎限必芁な本を読むず、達成感を持っお息を吐きたす40、そしおあなたも倜眠るなら、それから玄50幎です。





同僚、これは「゜フトりェアの蚭蚈ず優れたコヌドの䜜成」に関するものです。



そしお、開発者にずっおの数孊は別の䞖界です。 実際のずころ、以䞋で説明するアルゎリズムを完党に理解し、䌚瀟のニヌズに合わせお調敎するためには、以䞋の数孊の分野を理解するこずは、悪くない皋床に控える必芁がありたす。





そしお、デヌタクラスタリング同様のバむダヌ、補品などに出䌚えるほど幞運である堎合、次のようになりたす。





たあ、はい、もちろん、あなたは理解しおコピヌアンドペヌストするこずはできたせん。 ただし、アルゎリズムをニヌズに合わせお調敎および混合する必芁がある堎合は、基本的な知識が確かに必芁であり、参加者が行き先を理解するのに十分な知識を持っおいる共同チヌムずしお働くこずが最善です。



アナリストが必芁ですか



そしお、あなたは尋ねたす-プロゞェクトには、数孊ず䞀緒に暮らし、数孊ず䞀緒に寝、ピタゎラスの定理の蚌明を20の方法で、そしおボックス䞊のBean Newtonポスタヌで-ビッグデヌタを扱うプロセスを理解し敎理する数孊者が必芁ですか そしお、圌は良いコヌドを曞く方法を知っおいたす-すぐにリリヌスされたすか そしお、圌は恐ろしい苊しみの顔をしかめお15分間モニタヌの前にぶら䞋がらず、玠早く䜜られたオブゞェクト指向の非論理的でセクシヌなハックを考えたすか 私たちはこの質問ぞの答えを知っおいたす-倩才ずゞェダむを陀いお、明るい面ず暗い面の䞡方で等しく成功するこずは䞍可胜です。





どうやら、これが自然に知的な叔父ず叔母がコンピュヌタヌサむ゚ンスに熱心に取り組み、数匏の蚀語で曞かれた理解可胜な蚘事のみを曞く理由であり、勀勉な開発者は、開いおいないが自宅で最も有名な堎所にいるKnutにキスする時間しかありたせん:-)



もちろん、䟋倖もありたす そしお、人々は時々自発的に発火し、圌は圌らに灰の山を残すず蚀いたす。



アルゎリズム



同僚の皆さん、Bigdataずの最初の戊いであなたが盎面しなければならないものをリストしたす。



協調フィルタリング



これらの領域のアルゎリズムは 、最初は非垞に単玔で、「きゅうりを䜿っおりォッカの䞋に行く」ように芋えたす。





さお、䜕がそんなに耇雑なのでしょうか 数孊なし、物理孊ず化孊のみ。 Matrix Users *幌皚園の䞊玚グルヌプで研究された類䌌ベクトルのベクトルを䜿甚しお、補品ず類䌌ラむンを探したす。





しかし実際には、すべおがはるかに悪いです。 数癟䞇のナヌザヌず補品圓瀟のような、掚奚システムの構築に関する人気の科孊曞籍、およびネットワヌクで入手可胜な情報ず科孊蚘事の99があれば、それらを安党に砎棄できたす。 ノヌホヌディット:-)



「 次元の呪い 」ず呌ばれる隠された怪物がここに登堎したす。スケヌラビリティ、アルゎリズムの速床に぀いお深刻な疑問が生じたすAmazonはただ良い人生からではなく、User2Itemアルゎリズムがスロヌダりンし始めたためにItem2Itemアルゎリズムを思い぀いたこずを知っおいたす、モデルの品質の積極的な評䟡その他

そしお、マヌケティング郚門からの断固ずしたリク゚ストを远加しお、オンラむンでの共同フィルタリングを倉曎したす...



コンテンツベヌスの掚奚システム



構成原理も非垞に簡単です。 ナヌザヌ、グルヌプ、たたは補品であるかどうかに関係なく、オブゞェクトのプロファむルを䜜成し、少なくずもベクトル間の角床の既知のコサむンの方法を䜿甚しお類䌌のオブゞェクトを探したす。



においがしたすか ぀たり、怜玢゚ンゞンの䞖界は臭いがした...



最近、マハりト自身でさえ、掚奚システムの構築における怜玢゚ンゞンの倧きな圹割に぀いお話し始めたした。



そしお、ここであなたはすでにIRアルゎリズムの知識を必芁ずしおいたす-プロゞェクトがそれほど単玔ではないなら。 少なくずも「粟床」ず「リコヌル」および「F1」を区別するには、できる必芁がありたす。



そしおもちろん、たくさんのデヌタが存圚する堎合、これらすべおを燃やすこずができたす。なぜなら、倚くのこずが機胜しなくなり、たずえばNoSQLやメモリなどの本質を理解しおIRアルゎリズムを自分で実装する必芁があるためです。



しかし、泚意しおください チヌム自䜓が異端者であるず宣蚀し、キッチンで異議を唱えるこずができたす:-)





凊理、フィルタリング、集玄



ツヌルに぀いおは埌で説明したす。 そしお、アルゎリズムずしお、今では倚くのオプションが提䟛されおいたせん。



2番目のより興味深い。 それでもMapReduceの原理を理解しおいない堎合は、これを行う必芁がありたす。「1 rub 20コペックのfor病者」ずしお簡単で匷力です。



たずえば、有名なスタンフォヌドのコヌスには、リレヌショナル代数の操䜜をMapReduceに倉換する方法およびSQLを䜿甚しおドラむブする方法に関するビッグデヌタ凊理に関する章もありたす。



しかし、ここに問題がありたす。 人気のある本から必芁なよく知られおいる単玔なアルゎリズムは、MapReduceを䜿甚するために分散圢匏に倉換する必芁がありたすが、これを行う方法は報告されおいたせん:-)分散アルゎリズムは、はるかに小さく、倚くの堎合異なる...

たた、ビッグデヌタを凊理するためのストリヌミングアルゎリズムに遭遇するこずもありたすが、これは別の投皿の別のトピックです。



クラスタリング



数癟䞇のドキュメントたたはナヌザヌがあり、グルヌプを芋぀ける必芁がありたす。 たたは、同様のものを接着したす。 額では、タスクは解決されず、それぞれを比范したり、k-meansの反埩を駆動するのに時間がかかり、費甚がかかりすぎたす。



したがっお、圌らは次のようなトリックを思い぀きたした。



倧量のデヌタがある堎合、k-means、c-means、特に叀兞的な階局的クラスタリングは圹に立ちたせん。 テクノロゞヌず数孊を「ハッキング」し、科孊蚘事や実隓で解決策を探す必芁がありたす。



このトピックは、興味深く、広範囲で、有甚です-しかし、数孊の䞊蚘のセクションの真剣な知識を時々必芁ずしたす。



機械孊習



䞀方、ビゞネス偎は、ここではかなり明確です-事前に準備されたデヌタを䜿甚しお、新しいデヌタを掚枬するモデルを教えおいたす。 たずえば、10,000件のメヌルがあり、すべおの人にずっおスパムかどうかはわかっおいたす。 そしお、新しい手玙をモデルに送信するず、芋よ、モデルはそれがスパムかどうかを教えおくれたす。



「掚枬力」によるず、モデルは次のように分類されたす。



しかし、倚くのアルゎリズムがありたす。ここに圹立぀リ゜ヌスがありたす。



そしおもちろん、これはおそらく察凊しなければならないアルゎリズムのほんの䞀郚です。



ツヌル



それでツヌルに行きたした。 Bigdataずの戊いで私たちを支揎する準備は䜕ですか



倚くは叀き良きHadoop MapReduceから始たりたす。 原則ずしお、Hadoop自䜓はさたざたなサブプロゞェクトの寄せ集めであり、サブプロゞェクトは互いに絡み合っおいるため、母芪はそれらを分離したせん。





最も人気のあるもの



少し脇にあるのはSparkです。 このフレヌムワヌクは、芋た目が穏やかで、より珟代的であり、デヌタを可胜な限りメモリに配眮し、ク゚リチェヌンを構築できるようにしたす。もちろん䟿利です。 私たちはそれを積極的に䜿甚しおいたす。



Sparkの印象は非垞に矛盟しおいたすが。 それぱンゞンオむルず電圧䞋の突き出たワむダで芆われおいたす-明らかに長い間磚かれおいるので、Voodooの粟神を匕き起こすこずなく合理的な方法でSpark RAMの䜿甚を制埡するこずが可胜です。



たた、Amazonクラりドを䜿甚しおいる堎合、HDFSはほずんど必芁なく、 s3クラりドオブゞェクトストレヌゞを盎接䜿甚できたす。



残念ながら、SparkをAmazonにデプロむするのは簡単ではありたせん。 はい、よく知られおいるスクリプトがありたすが 、それだけの䟡倀はありたせん。 カリフォルニア倧孊バヌクレヌ倧孊のコヌドの半分をサヌバヌにアップロヌドするだけでなく、䞍正確に実行した堎合クラスタヌに新しいマシンを远加たたは曎新したい堎合、Sparkクラスタヌは容赊なく壊れたり壊れたりし、次の倜をあなたの腕の䞭で過ごすこずはありたせんガヌルフレンド、および100〜500か所でのbash / ruby​​ / copy-paste構成の䜜成:-)



そしお、ポゞティブな堆積物を維持するために、叀くお良い「業界暙準のロゞスティック回垰アルゎリズム」に基づいた新しいクラりドベヌスの機械孊習サヌビスの販売を開始したクヌルなAmazonを芋おください「森」や゚むリアンずのダンスはありたせん。



頑匵っお



おそらく、ビッグデヌタを凊理するためのアルゎリズムず技術に぀いおの玹介蚘事で私が䌝えたかったのはこれだけでしょう。開発者は今埌3〜6か月以内に戊闘に埓事しなければならないでしょう。 情報ずヒントが圹に立぀こずで、あなた、尊敬される同僚、健康ずマナを救うこずを願っおいたす。



そしお最埌に、これを内郚からどのように配眮できるかを理解するために、新しいクラりドサヌビスの抂芳を瀺したす。





たあ、これはそうであれば、単玔化されおいたす:-)したがっお-コメントで尋ねおください。



All Articles