ビッグデヌタずOdnoklassnikiロシアで2番目に倚く蚪問された゜ヌシャルネットワヌクでデヌタを凊理する方法

Odnoklassnikiは䞻なものを奪うこずはできたせん-これはロシアで2番目に蚪問された゜ヌシャルネットワヌクですすべおのRunetサむトで4䜍。 そしお、䟋えば、アルメニアでは最初のものです。 䜕癟䞇人もの人々が毎日このWebサむトを蚪れ、分析可胜なテラバむトのデヌタを残しおいたす。 ゜ヌシャルネットワヌクはナヌザヌからどのようなデヌタを収集したすか どのスタックが1日に数十テラバむトのデヌタを簡単に凊理できたすか そしお、垞により倚くのデヌタがありたすか







Omitoklassnikiのビッグデヌタに぀いお語ったDmitry Bugaychenkoにむンタビュヌしたした。



ドミトリヌ・ブガむチェンコ。 圌は2004幎にサンクトペテルブルク州立倧孊を卒業し、2007幎に正匏な論理的方法で候補者を擁護したした。ほが9幎間、圌は倧孊および科孊界ずの連絡を倱うこずなく、アりト゜ヌシングで働きたした。 Odnoklassnikiでのビッグデヌタの分析は、Dmitryが理論トレヌニングず科孊的基盀を実際の人気補品の開発ず組み合わせるナニヌクな機䌚でした。







あなたに぀いお、そしおあなたが機械孊習ずビッグデヌタをどのくらい続けおいるかに぀いおのいく぀かの蚀葉。



Dmitry Bugaychenko 自分や他のビゞネスでお金のためだけにプログラミングしたくないプログラマヌのカテゎリヌに垰するこずができるず思いたすが、答えよりも質問が倚い分野に匕き寄せられ、それらを解決するために、あなたは本圓にあなたのすべおを䜿う必芁がありたす朜圚胜力ず知識。 それが、おそらく、デヌタ分析の分野に来た理由です。 「ビッグデヌタ」ず芋なされるものに関連する最初の本栌的なプロゞェクトは、2011幎の終わりに始たりたした。



ネットワヌクの毎日の芖聎者ず、ナヌザヌが生成したおおよそのデヌタ量を発声するこずは可胜ですか



Dmitry Bugaychenko 可胜です。 私たちの1日の芖聎者は4,000䞇人であり、1日のデヌタ量ダりンロヌドした写真/ビデオの量はカりントしたせんは数十テラバむト単䜍です。



収集するナヌザヌデヌタずその䜿甚方法



Dmitry Bugaychenko いい質問です。 Odnoklassnikiでは、ナヌザヌのプラむバシヌを維持するずいう問題ず、デヌタの保存ず䜿甚に関する倫理的な問題に倚くの泚意を払っおいるこずにすぐに泚目したいず思いたす。 さらに、個人デヌタの収集および䜿甚に関連する問題を芏制するロシア連邊の法埋を尊重し、遵守したす。 私たちが扱うほずんどすべおのデヌタは、Webむンタヌフェむスずモバむルアプリケヌション投皿、「クラス」、コメントなどを介しお゜ヌシャルネットワヌクの通垞のナヌザヌが䜕らかの圢で利甚でき、たずこのデヌタを䜿甚したす、ナヌザヌ゚クスペリ゚ンスを改善するために-ナヌザヌが新しい興味深いコンテンツを簡単に取埗したり、ニヌズを理解したり、ネガティブなものを枛らしたりできるようにしたす。



写真やビデオに぀いお話す堎合、そのようなデヌタからどのような有甚な情報を埗るこずができたすか



Dmitry Bugaychenko マルチメディア写真、ビデオ、音声オブゞェクトの分析には、本圓に倚くの困難が䌎いたす。 これらのデヌタは、特定の機胜重耇排陀などを実装するずき、たたは結果の80が既に「クラシック」アクティビティデヌタから絞り出され、残りの20を絞り蟌んで他のデヌタを接続する必芁がある段階で機胜したす。



デヌタ凊理に関係するツヌルは䜕ですか ビッグデヌタキッチンに぀いお教えおください。



Dmitry Bugaychenko 長い間、魅力的に話すこずができたす。これは、さたざたな䌚議、䌚議、DataFestで䜕床も行っおきたした。 ぀たり、ほずんどの堎合、䞀般的なオヌプンテクノロゞヌず分析パタヌンを䜿甚したす。 Apache Kafkaキュヌ、Hadoop + Parquetストレヌゞ、分析は、コンテキストに応じお、デヌタを収集するために䜿甚されたす叀兞的なMapReduce、Spark、Hive、Pig、Samza、Spark Streaming、scykit-learnを備えたPython、およびニュヌラルネットワヌク甚のTensorFlowおよびCaffe。 私たちは新しいテクノロゞヌずパタヌンを非垞に積極的に導入しおいたすが、その導入は「ファッショナブルだから」だけでなく、客芳的に正圓化されるこずを念頭に眮いおいたす。



䜜業䞭にあるツヌルから別のツヌルに切り替える必芁がありたしたか もしそうなら、どんな理由で ツヌルの方がわずかに優れおいるこずはありたすが、そのためにサヌバヌの負荷が高くなり、メンテナンスコストがすべおの利点を無効にしたすか



Dmitry Bugaychenko テクノロゞヌであれアルゎリズムであれ、成長の新たな機䌚を探すこずは私たちの日々の仕事の䞀郚です。 しかし、私たちは垞に代替案を合理的に評䟡しようずしたす。テクノロゞヌに関する「誇倧広告」はそれを芋る機䌚ですが、その実装に投資する䟡倀があるかどうかは、コストず朜圚的な効果を評䟡した埌に決定されたす。 さらに、新しいアプロヌチの導入に関しお、「1぀の新しい」ルヌル既知の技術/アルゎリズムの新しいタスク、たたは既知の問題の新しい技術/アルゎリズムを順守しようずしたすが、これは定説ではありたせん。



パフォヌマンスず他のプロパティ䜿いやすさ、モデルの品質の予枬などの劥協に぀いお話す堎合、決定も合理的に行われたす-朜圚的な効果が十分であれば、オヌプン゜リュヌションを改善しお、タスクに蚱容可胜なパフォヌマンスを提䟛したす。



今、すでに珟圚の経隓がある堎合、5幎前に戻っおくるずしたら、どうしたすか



Dmitry Bugaychenko 党䜓ずしお、私の意芋では、デヌタむンフラストラクチャの開発の抂芁は十分に構築されおいたすが、もちろんいく぀かの点がありたす。 たず第䞀に、SQLベヌスの゜リュヌションではなく、すぐに分析にHadoopを䜿甚したす。 むンタラクティブな分析ツヌルHive、Hueの実装を開始しおいたした。 SQLずアルゎリズムの倉曎をポストするための耇雑な手順を䜿甚するず、䜜業が倧幅に遅くなるため、これにより、はるかに迅速な開始が可胜になりたす。



䞀方、圓時の察応する技術は成熟床がはるかに䜎かったため、逆効果の可胜性もれロではありたせん。 若いテクノロゞヌを導入する堎合、積極的にパッチを適甚する必芁があるこずがよくありたす。これにより、将来の新しいバヌゞョンぞの移行が倧幅に耇雑になりたす。 したがっお、タむムマシンがあれば、それを危険にさらすこずはないず思いたす。



珟圚のデヌタ凊理システムは最適だず思いたすか そしお、䜕が改善できたすか



Dmitry Bugaychenko 誰もそれを必芁ずしない堎合にのみシステムを改善するこずはできたせん。これはデヌタ凊理システムに関するものではありたせん。 もちろん、バグ修正、アップグレヌドなど、倚くの小さな技術的な改善ではありたせんが、小さな改善がありたす。 プロセスで改善できる倚くのこずがありたすたず、内郚および倖郚の教育プログラムを開発するため。 しかし、「倧きくお明るい」䜕かに぀いお話す堎合、これはもちろん、たず第䞀に、セマンティックデヌタレむクの抂念です。この堎合、デヌタは単なるログず集蚈の倧きなダンプではなく、安定した定矩枈みのメタモデルを持぀単䞀の効果的なストレヌゞです、デヌタストレヌゞの技術的な詳现を参照せずに、サブゞェクト領域ナヌザヌ、投皿、「クラス」などの芳点からデヌタの操䜜を定匏化および実行できたす。



デヌタ分析はそれ自䜓で非垞に興味深いですが、䜕らかの方法で数字を衚明するこずは可胜ですか、それはたったく䟡倀がありたすか ナヌザヌデヌタを分析するずいう事実から、゜ヌシャルネットワヌクの「排気」ずは䜕ですか Odnoklassnikiの堎合、ビッグデヌタがどのように収益化されるのかを蚀うこずは可胜ですか



Dmitry Bugaychenko これは非垞に難しい質問で、曖昧な答えがありたす。 それはすべお、分析の実装方法ず堎所に䟝存したす。 たずえば、自分の奜みやナヌザヌの奜みに関する意芋に基づいお線集者が䜜成したコンテンツコレクションを眮き換えようずするず、デヌタ分析に基づいたコレクションを導入するこずで、ナヌザヌアクティビティが耇数増加する可胜性がありたす実際には10倍の成長もありたした。 たずえば、有胜な人々が同じコレクションをデヌタに基づいお構築しおいるが、機械孊習を䜿甚しない堎合、同じ問題を解決するアルゎリズムを導入するず、割合で枬定したより控えめな結果が埗られるこずがよくありたす。



゜ヌシャルネットワヌクがナヌザヌに適応するための最小デヌタ量はどのくらいですか たた、実質的にそれ以䞊の改善がない堎合、個人デヌタに制限はありたすか



Dmitry Bugaychenko ほずんどのシステムは、最初のクリックからナヌザヌに適応し始めたす。 さらに、「飜和」前に必芁なデヌタ量は、察象領域に倧きく䟝存したす。 そしお、はい、倚ければ倚いほど良いずは限りたせん。 受信するデヌタが倚すぎるず、システムが飜和状態になり、掚奚事項が関連しおいるが興味深いものではない堎合に、ナヌザヌに「意芋のバブル」が䜜成される可胜性がありたす。 このような「バブル」ずの戊いは、別の重芁なトピックです。



ビッグデヌタ分野の他のmail.ruプロゞェクトずの共生はありたすか あなたの決定はホヌルディング党䜓に耇補されおいたすか、逆に同僚の成功した決定を採甚しおいたすか



Dmitry Bugaychenko アむデアずデヌタの亀換は積極的に双方向に行われおいたす。 実際、倚くの人が機械孊習を実践しおいるため、2぀以䞊の偎面がありたす。 たずえば、VKontakteは、私たちの経隓に焊点を圓おお倚くの点で分析むンフラストラクチャを構築しおいたす。Search@ mail.Ruには、ツリヌトレヌニングの興味深い効果的な実装がありたす。



ダス・マガゞンのセンセヌショナルな話を芚えおいるず思いたす。トランプ米倧統領は、その掻動の分析に基づいお特定のナヌザヌに遞ばれた゜ヌシャルネットワヌクの広告を通じお勝利に぀ながったず蚀われおいたす。 専門家ずしお、この物語が珟実にどのように察応するか教えおください。 もしそうなら、そのようなタヌゲティングは-必ずしも政治的ではない-オドノクラスニキで可胜ですか



Dmitry Bugaychenko 私の意芋では、話は非垞に珟実的です。 さらに、地域の基準では、これは非垞に䞀般的な話です-パヌ゜ナラむズされたタヌゲティングは長幎ビゞネスで䜿甚されおきたしたが、それは政治広告キャンペヌンで䜿甚されただけです。 もちろん、Odnoklassnikiでのパヌ゜ナラむズされたタヌゲティングは可胜であり、既にビゞネスで䜿甚されおいたす。






10月21日、友人はSmartData䌚議の䞀環ずしお、 Dmitry Bugaychenkoが新しいレポヌト「 クリックから予枬たで、そしお戻るデヌタサむ゚ンスパむプラむンをOK 」を配信したす。 䞀緒に来お



All Articles