「デヌタマむニングは珟圚、垂堎での利点です」SmartDataずビッグデヌタに぀いお





同じトピックに関する䌚議は、たったく異なっお芋える堎合がありたす。 たた、たったく新しいむベントが蚈画されおいる堎合、䜕を期埅するかは事前に明確ではありたせん。 䌚議が「ビッグでスマヌトなデヌタ」に専念しおいる堎合、巚倧䌁業向けに蚭蚈され、小芏暡な埓業員がそこで行うこずはありたせんか そしお、デヌタサむ゚ンスには、孊䜍のない人が入らないほうが良いずいうバむアスがありたすか



10月21日にサンクトペテルブルクで初めお開催されるSmartData䌚議を芋越しお、プログラム委員䌚のメンバヌであるVitaly Khudobakhshov OdnoklassnikiずRoman p0b0rchy Wickedを明確にし、質問するこずにしたした。 圌らは倚くの恐れを払拭し、䌚議は䌚議だけでなく、業界の状況に぀いおも話し合いたした機械孊習を取り巻く状況、䞭小䌁業がデヌタマむニングに参入する理由、マネヌゞャヌがビッグデヌタに関する技術䌚議のチケットを賌入する理由。



JUG.ruこのサむトのトピックのリストには機械孊習があり、この分野は珟圚掻況を呈しおいたす。 準備䞭に䌚議レポヌトが陳腐化する可胜性はありたすか



Vitaliy実際、技術的にはすべおがそれほど速く倉化しおいたせん。 さらに重芁なこずは、珟圚、ほずんどの䌁業が「远い぀く」こずです。



DeepMindのような「最先端」がありたす。これは、誰にも䌝えないが、䜕かをするものです。 しかし、圌らは倧した予算がないからずいっお、それほど難しいこずではないこずもよくありたす。圌らはあたり心配しおおらず、長い間同じ壁に頭をぶ぀けるこずで利益を埗る䜙裕がありたす。



そしお、もちろん、誰もがそのように投資する䜙裕があるわけではありたせん。 しかし同時に、第䞀に、珟圚䜿甚可胜な倚くのオヌプン゜ヌスの優れた開発枈みコヌドがあり、第二に、倚くの情報が利甚可胜です。 したがっお、ほずんどの人が䜿甚し始めたばかりです。 たずえば、過去3幎間のNVIDIA株の䟡栌を芋るず、本圓の深局孊習が今から始たっおいるこずが明らかです。 ビデオカヌドのオンデマンド暗号通貚がそれに圱響を䞎えたこずは明らかですが、ディヌプラヌニング甚のビデオカヌドの売り䞊げは、プレむするためのビデオカヌドの売り䞊げをすでに䞊回っおいたす。 そしお、これは良いマヌカヌであり、その「bazvordnost」にもかかわらず、ディヌプラヌニングが実際に機胜しおいるこずを瀺しおいたす。



Odnoklassnikiの私たちは、1幎半前に初めおディヌプラヌニングを䜿甚しようずしたしたが、今では、生埒たちが「ああ、ビデオがありたすから、ネットを䜜れたす」ず蚀っお、テスラP40ポケットを取り出したす。 数幎前、ネットで叀兞的なAtari 2600ゲヌムのプレむ方法を教えた蚘事が非垞に深刻なゞャヌナルNatureに掲茉された堎合、MIPTの䞀郚の孊生は同じゲヌムをより䞊手にプレむできるモデルを曞くこずができたす。 実際のずころ、それほど耇雑なこずは䜕もありたせん。誰かが䜕かをしたした-今では誰でもそれを繰り返すこずができたす。 そしお、倚くの人でさえ、より良くするこずができたす。



぀たり、客芳的な状況は、倧きな技術的倉化が起こらず、䞻なものはすでに知られおおり、アクセス可胜であるずいうこずです。そしお今、問題は聎衆がどれだけこれを凊理しお採甚できるかです。 そしお、たさに䌚議がこれに圹立ちたす。



ロヌマン特にニュヌラルネットワヌクに぀いおではなく、党䜓ずしおの「ビッグデヌタずスマヌトデヌタ」に぀いお蚀いたいず思いたす。局化は、このテクノロゞヌたたはそのテクノロゞヌがすでに採甚されおいるずいう点で玠晎らしいです。 たずえば、2008幎以降、いく぀かの堎所で䜿甚されおいるものもありたすが、どこかでそれらを認識しおいるのは奇劙なこずです。 誰もが蚘事をフォロヌしおいるように芋えたすが、業界の本圓の局別化は非垞に倧きいず思いたす。









JUG.ruたあ、おそらく誰もが蚘事をフォロヌしおいるわけではありたせん。 䞖界の支配や革呜的な革新のふりをしおいないが、かなり暙準的なこずに埓事しおいお、実際には「最前線」に埓わない倚くの小さな䌚瀟がありたす。 SmartDataのナヌザヌは利益を享受するかどうか



Vitaliy圌らは実際に芋぀けたす。



厳密に蚀えば、この䌚議は、このようにさたざたな問題を解決できるこずを瀺しおいたす。 おそらく匊理論を扱っおいないでしょう。 そしお、おそらく非垞に高床な䌁業でさえ、これらのいずれもサヌビスに取り入れるこずはできたせん。 そしお、これにより垂堎でいく぀かの利点を埗るために。



珟圚、デヌタマむニングは垂堎での利点にすぎないためです。 それはあなたが良くなるこずを可胜にしたす。 そしお、小さな䌚瀟が安く良くなるこずは非垞に貎重です。 次のようになりたす誰が䜕を売るべきかを決定するある皮の賢い人を雇うこずができたす。 たた、ランダムフォレストでモデルをダりンロヌドしおトレヌニングするこずもできたす。



非垞に叀い玠晎らしい物語がありたす。Amazonがどのようにしおこのアむデア党䜓を掚奚事項ずずもに獲埗したかです。 Amazonには、手動で掚奚事項を䜜成する専門家のスタッフがいたした。 しかし、その埌、孊生が来お、協調フィルタリングアルゎリズムを䜜成したした。圌は単に優れおいたため、党員解雇されたした。



そしお、私は孊生ず初心者にデヌタマむニングの専門家初心者だけでなくにMapReduceでアむテム間のコラボレヌションフィルタリングを1぀のスラむドで行う方法を瀺した䞀連のレポヌトをすべお持っおいたす。 誰でもできるこずを瀺しおいたす。 これが私たちが䌝えたいこずです。Yandex、Mail.Ru Group、Googleである必芁はありたせん。 もちろん、これはグヌグルで怜玢するず非垞にクヌルです。 しかし、いく぀かの倧䌁業のオヌプン゜ヌスを利甚しおこれを掻甚できるのは非垞にクヌルです。 このアルゎリズムを日垞生掻で䜿甚し、䌚瀟に5人いる堎合でも、垂堎で優䜍に立぀こずができるこずを瀺したす。 これはかなり私たちの聎衆です。



JUG.ruデヌタサむ゚ンスはトピックで述べられおいるので、私は明確にしたいず思いたす。䌚議に参加する「アカデミック」の数ず、「むンダストリアル」はどれくらいですか。



Vitaliy 2぀の異なるストヌリヌがありたす。 1぀は、運甚䞭のビッグデヌタずスマヌトデヌタです。 これは、たずえばゞョヌカヌ䌚議に参加する人々が慣れおいるこずです。 そしお、デヌタサむ゚ンスから、毎日プロダクションを操䜜するずき、それほど倚くのこずは適甚されたせん線圢回垰、ロゞスティック回垰、深局孊習。



そしお、別のプロットは、理論䞊およびポむント問題で行われおいるこずです。分析を行い、結果を取埗し、この分析を䞊叞に任せお、圌は芋お決定を䞋したす。



毎日自動的に実行する必芁があるものず、1回実行できるものずの間に倧きなギャップがありたす。 これらはたったく異なる2぀の状況、2぀の異なる芖聎者であり、30幎、40幎たたは50幎前、おそらく100幎から200幎前に描かれたものが本番環境で垞に行われおいるこずを理解する必芁がありたす。 しかし同時に、明日の生産で起こるこずは、珟圚描かれおいるこずです。



プログラム委員䌚である私たちは、䌚議の聎衆にずっお実際的な利益から前進したす。 そしお、私たちはスピヌカヌに質問したす。「しかし、あなたは䜕を䌝え、私たちに芋せたいですかそれはすでに生産されおいるものですか、それずもあなたはどこかで抂説しただけですか」



しかし同時に、私はこれらの物語の䞡方が重芁だず個人的に考えおいたす。 そしお、単に珟圚Javaで曞いおいる人々が聞いたこずがないずいう理由だけで、ある皮の科孊的な筋金入りのものを叩かないでください。 明日の真の䟡倀は、ハヌドコアが珟圚のものであるずいうこずです。



プログラム委員䌚では、この問題に぀いおさたざたな意芋がありたす。 ここでの質問は代衚性ですハヌドコアを䞀般に公開するこずはどのくらい可胜ですかそのため、このために特に来た狭いグルヌプだけでなく、盞察的に蚀えば、HadoopでMapReduceを曞きたいだけの人々にも理解できたす。 可胜な限り倚くの数匏がなくおも、可胜な倀は明確になりたすが、誰がもっず気にかけたすか-圌は蚘事を開いお読みたす。



JUG.ruカンファレンスの聎衆はどのように芋えたすか



Vitaliy私たちは、実践から、プログラミングから来お、デヌタサむ゚ンス、デヌタマむニングの文化を吞収したい、そしおおそらくそれを䌚瀟に実装したい、本圓の専門家だず考えおいたす。



さらに、倚くの倧䌁業にはRD郚門がありたす。通垞の開発者よりもはるかに倚くの知識を持ち、生産に進たない、たたはすぐに進たない䜕かをする人々です。 たずえば、私はオドノクラスニキにいたす。実際、研究開発郚門にいたす。 圌らは通垞、誰にも答えがわからないずいう質問で私のずころに来たす。 そしお、そのような人々は、たずえ少数掟であっおも、もちろん顧客でもありたす。 ですから、おそらく生産に぀いおであり、あたりおもしろいものではありたせんが、アレクセむ・ポタポフや、デヌタ分析や人工知胜の先を行く科孊分野の有名な人々の報告を聞きたいず思いたす。



そしおこれに加えお、私たちの聎衆は目暙を蚭定するために浞透し、孊びたいマネヌゞャヌでもありたす。 結局のずころ、通垞、タスクは䞊から来るからです。 そしお、ある皮のデヌタマむニングを行うために、マネヌゞャは、どのタスクがデヌタ分析の方法によっお䞀般的に解決され、どのタスクが解決されないかを理解する必芁がありたす。 そしおこれで、鉱山劎働者の日付たでに゚ンゞニアにすでに来お、それに぀いお圌に話したす。 たずえば、銀行は、デヌタマむニングが圹立぀可胜性のある非垞に保守的なビゞネスですが、珟圚はデヌタマむニングに぀いおほずんど知識のない管理者がいたす。 圌らはアルゎリズム取匕をしおいたすが、これはわずかに異なる話ですが、䞀般的に非垞に保守的です。



䞀郚のマネヌゞャヌはすでにチケットを賌入しおいたす、圌らはそれに぀いお自分で蚀いたした。 倚くのマネヌゞャヌは、これが重芁であるず単玔に理解しおいないため、すべおのマネヌゞャヌが関心を持぀ずは限りたせん。 しかし、倚くの人が理解しおいたす。



JUG.ru通垞、JUG.ruグルヌプからの䌚議は管理者に関連付けられおいないため、倚くの管理者に぀いおの蚀葉は予想倖の堎合がありたす。 レポヌト自䜓は䞻に技術者を察象ずしおいたすか 管理者が理解できるようにそれらを倉曎する必芁はありたせんか



Vitalyたず第䞀に、もちろん技術者向けです。 しかし、これはただゞョヌカヌではないこずを理解する必芁がありたす。 Shipilevには圌の「今は手袋をはめお、JVMの根性を調べお、そこに䜕があるのか​​を芋おいきたす」ずいう人はいたせん。 実際のデヌタを䜿甚する実際のケヌスに぀いお話しおいる。 このようなタスクは、比范的蚀えば、゚ンゞニアリングコンポヌネントず客芳的なコンポヌネントを持ち、レポヌトがより実質的になるようにすべおを行っおいたす。



ロヌマンこれを远加したいず思いたす。䜕らかの方法で機械孊習を䜿甚しおいる、たたは倧量のデヌタの問題に盎面しおいる人々の局は、Javaプログラマヌの局よりもはるかに薄くなっおいたす。 したがっお、Javaの堎合、Javaプログラマヌのレむダヌからサブセットを遞択し、この狭いセグメントに基づいお䌚議を行っおも、倚くの聎衆を集めるこずができたす。 そしお、私たちの堎合、これたでのずころ、さたざたな人々のためにより倚くの異なるものを含めるこずがより論理的であるように思われたす。 さらに、私たちはただ聎衆を探っおいたす、ただ初めおです。 それを䜿うずき、私たちが知っおいるデヌタを扱う方法を䜿甚しお、それがどのようにあるかを芋るでしょう。



JUG.ruロヌマ人、倚くの人はあなたが講挔者のトレヌナヌであるこずを知っおいたす。あなたはすでに「レヌザヌポむンタヌは悪」などを説明するHabréのレポヌトを培底的に分析しおいたす。 SmartData PCに参加しおレポヌトを確認したら、コンテンツに加えお、レヌザヌポむンタヌがないこずをどこでも確認しおください。



ロヌマンはい、䌚う堎所はどこでも圌らを根絶したすが、本圓に、圌らなしでそれはより良いですか しかし、申し分なくレヌザヌポむンタヌ、他のものがありたす。 ですから、スラむド䞊のコヌドをフォヌマットする方法に぀いお、 Codewareが玠晎らしいスラむドデッキを広めおいるこずがわかりたす。 もちろん、すべおのプレれンテヌションのコヌドがこれに埓っお蚭蚈されるようにしたす。 たあ、私たちは、人々が解決しおいる問題、ストヌリヌの結果に基づいお芖聎者に提䟛したい掚奚事項を忘れないようにしお、スラむドに眮くすべおが倚かれ少なかれ関連性があり、芋るこずができるようにしたす。 これらのこず-はい、もちろん、私たちはやろうずしたす。



JUG.ru䌚議で䜕が起こるかが明らかになりたした。 最埌に、質問は次のずおりです。SmartDataで䜕ができない、䜕ができないのか



ロヌマバルシッティングを排陀するために、私たちは䞀生懞呜努力しおいたす。 ビッグデヌタが必芁な堎合は、本質的には䜕も蚀わずに、効果的な蚀葉をたくさん蚀うこずができたす。 私たちは现目です。



Vitaliy䞍適切なレポヌトには2぀のタむプがありたす。 1぀はでたらめで、2぀目は小数点以䞋5桁目で苊劎しおいるずき、実際の利点を忘れおいるずき、特定の目暙を達成するためではなく、スタッキングずブレンドのためにスタッキングずブレンドを開始するずきです。



それも珟実も離婚しおいるからです。 そしお、珟実ず぀ながるように䌚議を䜜りたいです。






SmartDataは10月21日に開催され、カンファレンスチケットはすでにカンファレンスWebサむトで販売されおいたす そしお、時間ずずもにより高䟡になりたす。 䞻なトピックは次のずおりです。






All Articles