EPAMのコンスタンチン・ブドニック「Apache Hadoopはコモディティフェヌズに移行したした-そこにはほずんど新しいものは珟れおいたせん。」

11月初旬、東ペヌロッパで開催されるJavaDay 2017の䞻芁なJava䌚議の1぀がキ゚フで6回開催されたす。 むベントの前にはただ十分な時間がありたすが、䌚議の講挔者の1人であるコンスタンティン・ブドニック、チヌフBigDataテクノロゞスト兌オヌプン゜ヌスフェロヌEPAMシステムずオヌプン゜ヌス、ビッグデヌタ、Hadoopの将来に぀いお話し合いたした。







Sun Microsystemsで15幎近く働いた埌、Hadoopで長い間働いおいたした。 あなたのキャリアはどのように発展したしたか



サンクトペテルブルクにオフィスを開いた瞬間、1994幎からSunで働いおいたした。埓業員6番でした。15幎間働いお、コンパむラから分散システムやクラスタヌシステムたですべおを行いたした。 オペレヌティングシステム、Javaスタックのさたざたな郚分、特にJVMチヌムで䜜業し、仮想マシンの開発に参加し、JVM開発者向けのフレヌムワヌクをいく぀か䜜成したした。



オヌプン゜ヌスを怜蚎する堎合、1994幎頃からオヌプンテクノロゞヌを䜿甚しおいたす。 特に、2000幎代半ばに、盎前に䜜成されたLinux Software FoundationにJavaを远加する手助けをしたした。 JavaはLSB-Linux Standard Baseの䞀郚になりたした。 その埌、Debian Linuxディストリビュヌションの䜜成者であるJan Murdochず少し働きたした。



2000幎代から分散システムの䜿甚を開始し、Sunでの䜜業䞭に、分散コンピュヌティングずテクノロゞヌの分野で玄15の米囜特蚱を取埗したした。



2009幎にYahooに切り替えお、Apache Hadoopの䜜業を開始したした。Apacheプロゞェクトに入るコヌドを曞きたした。 Hadoopプロゞェクトでの最初の3幎間は、圓時IBMよりも倚くのコヌドを曞きたした。 具䜓的には、HDFS、Hadoopにデヌタを保存するための配垃ファむルシステム、および分散障害泚入システムに取り組みたした。 これからしばらく経ちたしたが、1幎ほどEPAMず協力しおいたす。



そこで䜕に取り組んでいたすか



EPAMにはビッグデヌタプラクティスの郚門がありたす。 珟圚、「ビッグデヌタ」の凊理分野に玄300人の専門家がいたす。 それらの䞀郚はデヌタサむ゚ンスに埓事しおおり、別の郚分は倧量のデヌタを凊理するためのアヌキテクチャの構築です。 私はこの郚門の䞻任技術者であり、さらに、䌚瀟党䜓のオヌプン゜ヌス゜フトりェア開発の指揮も行っおいたす。 EPAMは、補品開発の問題を解決するオヌプンシステムずプラットフォヌムに基づいたオヌプン゜ヌスプロゞェクトをサポヌトするために、゚ンゞニアず積極的に連携しおいたす。



ビッグデヌタのオヌプン゜ヌス゜フトりェアのシェアが玄94〜95であるこずは泚目に倀したす。 「ビッグデヌタ」の凊理の問題を解決するために䜿甚される商甚起源の「クロヌズド」゜フトりェアはほずんどありたせん。



なぜそう



䌁業は、商甚゜フトりェアメヌカヌが意思決定の人質になる可胜性があるこずを確信しおいたす。 ある特定の技術ぞの投資は、技術基盀党䜓の柔軟性の損倱に぀ながりたす。 他のメヌカヌから远加の技術を集めお問題を解決するず、むンタヌフェむス、デヌタストレヌゞ圢匏、実装蚀語、およびその他の「症状」の非互換性が生じたす。



さらに、1぀の゜フトりェアメヌカヌに䟝存するようになったため、同瀟は「内郚独占者」になりたした。 ベンダヌは、クラむアントに盞談するこずなく、ラむセンスの䟡栌を匕き䞊げるか、゜フトりェア補品の䞀連の技術的胜力を任意に倉曎したす。 そのようなベンダヌのロックむンを取り陀くには 、新たな投資が必芁です機噚、゜フトりェアの倉曎、埓業員のロヌテヌション。



オヌプン゜ヌスの゜リュヌションを䜿甚するず、このような問題がないこずが保蚌されたす。 LinuxずRed Hatを䜿甚しおいお、これらの゜リュヌションがもはや適切でない堎合は、CentOS、Fedora、Debianを開いお無料にアップグレヌドするか、UbuntuのCanonicalサポヌトを賌入できたす。 ビゞネスの芳点からは、倧きな倉曎は発生したせん。 ビゞネスに䞍可欠なデヌタボリュヌムの凊理に関しおは、ベンダヌのロックむンからの移行が緊急の必芁になりたす。



あなたはオヌプン゜ヌスコミュニティに20幎間圚籍しおいたす。 この間、LinuxずAndroidのおかげで䞖界を倉えたした。 さらに、オヌプン゜ヌス技術は、倧䌁業の補品開発の基瀎ずなっおいたす。 それを前進させるオヌプンコミュニティの力ずは䜕ですか 倧䌁業はどのようにしおそのようなコミュニティず適切に察話できたすか



アむデアは非垞にシンプルです。 人々は、自分が興味を持っおいるこずに取り組むこずに興味がありたす。 これは、そのシンプルさにおいお玠晎らしい原則です。 オヌプン゜ヌスは、たずえ䞻な仕事で退屈なこずをしおいおも、人々が自分自身を衚珟できるようにしたす。 人はそのようなコミュニティに来お、志を同じくする人々を芋぀け、䜕かナニヌクなこずをする機䌚を埗たす。たずえば、プロゞェクト党䜓の開発の方向を必芁ず考える方向に倉えたす。 これは、創造的で技術的な人々にずっお非垞に匷力なむンセンティブです。



Linus Torvaldsをフォロヌしおください。圌は賢く、粘り匷く、生産的であり、自分の手本ず胜力で人々を魅了するので、本圓に䞖界を倉えたした。 このオヌプン゜ヌスは、いく぀かの商業的開発ず比范しお奜意的です。それは、あなたが䜕をどのように行うかを評䟡し、あなたがどれほど矎しく芋事に玄束するかではありたせん。 この原則は実力䞻矩ず呌ばれ、埓来のガバナンス構造の優れた代替手段です。 GitHubや他のいく぀かの䌁業で積極的に䜿甚されおいたす。



商甚開発ずオヌプン゜ヌスの根本的な違いを芋るず、最初は垞に顧客が賌入するものに基づいおいたす。 ビゞネスは収益性が高くなければなりたせん。 そしお、あなたがテスラの政治家でもCEOでもないなら、本圓に必芁なものを人々に提䟛するこずによっおのみお金を皌ぐこずができたす。 同時に、゚ンゞニア自身がほずんどの堎合クラむアントを「芋ない」ため、圌のニヌズを理解しおいたせん-技術マヌケティング、販売などの郚門がこれに埓事しおいたす。 この堎合、開発者はほずんどの堎合、補品の非垞に具䜓的な方向性にかなりの時間察凊したす。



オヌプン゜ヌスプロゞェクトでは、そのような制限はありたせん。 開発者自身がシステムの最初のナヌザヌであり、オヌプンな協力ず開発グルヌプ間の境界のない雰囲気で開発されおいたす。



もちろん、競争はビゞネスレベルのたたです。 オヌプン゜ヌスプロゞェクトを商業化するためのさたざたな戊略がありたす。 Hadoopプラットフォヌム垂堎には、HortonworksYahoo!のHadoopシステム開発グルヌプ、Cloudera、およびMapR非垞に小さいの3぀の䞻芁な商甚プレヌダヌがありたす。 ディストリビュヌションIBM、Intelを構築しようずした他のすべおのナヌザヌは、最初の2぀のいずれかになるか、Apache Bigtopを䜿甚しお、ApacheプロゞェクトGoogle DataProcおよびAmazon EMRの暙準コヌドから独自のプラットフォヌムを構築したした。



しかし、圌らはこれらのプラットフォヌムをさたざたな方法で顧客に販売しおいたす。 Clouderaは、クラスタ管理システムのような商甚の独自のコンポヌネントをオヌプン゜ヌスに远加しおいたす。 たずえば、MapRは独自のファむルシステムを远加し、NFSを痛烈に連想させたす。 䞀方、Hortonworksは完党にオヌプンにすべおを提䟛したす-圌らのすべおの新しい開発はApacheに行きたす。 これを行うこずにより、顧客を匕き付け、すべおが圌らず開かれおいるこずを実蚌し、クラむアントは自分でコヌドを取埗し、独自に意思決定を続けるこずができたす。



そのような良い衚珟がありたす「オヌプン゜ヌスには䞊叞はいたせん。」 唯䞀の芁件は、コミュニティがベストプラクティスを受け入れるこずです。 満たす必芁がある特定の基準がありたす。特定の技術的原則に埓っお、コヌドの品質です。 開発者がこれらの芁件を満たし始めたら、プロゞェクトのどの郚分にも参加でき、誰も圌を止めるこずはできたせん。 同時に、誰も圌の生涯にわたっおこの特定の断片に察凊するこずを圌に匷制したせん。 これにより、専門的に成長し、スキルを向䞊させ、技術的基盀を高めるこずができたす。



たた、EPAMのオヌプン゜ヌスフェロヌずしお、䌚瀟の開発者の䜕パヌセントがオヌプン゜ヌスプロゞェクトにコミットしおいるず蚀えたすか



割合を芋積もるのはかなり難しく、ただ2䞇人以䞊の開発者がいたす。 しかし、過去6か月にわたっお、興味深いプロゞェクトを立ち䞊げたした。そのフレヌムワヌク内で、意図的にApache Ignite、Apache Flink、Apache Zeppelinに密茞されたす。 理解するために-Apache Flinkの最新バヌゞョンでは、100人の貢献者のうち、10人がEPAMず協力しおいたす。 同瀟は、テストレポヌト、Webプロゞェクトの管理から、ヒトゲノムの分析、クラりドテクノロゞヌでのビッグデヌタの凊理たで、玄20〜30の補品プロゞェクトをオヌプン゜ヌスで提䟛しおいたす。 ビッグデヌタ凊理の戊略的に興味深い分野で専門知識を拡倧し、顧客向けの補品ずプラットフォヌムを開発しおいたす。 github.com/epamからプロゞェクトを芋お参加できたす。



ビッグデヌタずHadoopに戻るず、顧客にずっお興味深いテクノロゞヌを怜蚎しおいるず蚀いたした。 これは䜕を意味し、Hadoopはさらにどのように開発されたすか それでも、これはすでにかなり成熟した技術です。



Hadoop゚コシステムのコンポヌネントを長幎にわたっお開発しおきた人に期埅するこずを正確に蚀うこずはできたせんが、Hadoopは安定しおいたす。 テクノロゞヌは「倧人」になり、確立されおいたす。 圌らは倧䌁業でそれを認識し始め、内郚むンフラストラクチャ゜リュヌションにそれを䜿甚し始めたした。 しかし、アクティブな゜フトりェア開発サむクルは無限ではありたせん。 しばらくの間、開発、改善、そしおすべおが安定したす。 このフェヌズは、安定性が始たるず、 コモディティフェヌズず呌ばれたす。テクノロゞヌはすべおの人に共通しおアクセス可胜になりたす。 Hadoopはたさにこのフェヌズに入りたした。



ちなみに、Hadoopが登堎しおから11幎が経過しおも、倚くの人にずっおのマントラであるこずに倉わりはありたせん。 実際、冷静な蚈算が必芁です。倚くのタスクは、分散コンピュヌティングや倧芏暡なクラスタヌストレヌゞプラットフォヌムなしで解決されたす。 たずえば、StackOverflow Webサむト党䜓は、SSDを備えた4぀のサヌバヌ䞊に存圚したす。StackOverflow自䜓のマスタヌコピヌ、その他すべおのマスタヌコピヌ、2぀のレプリカです。 たた、1日あたり2億のリク゚ストを凊理したす。 同様の量に盎面しおいる䞖界の䌁業はいく぀ですか



技術がコモディティになるず、質的な改善が珟れなくなりたす。 Hadoopはもずもず、デヌタを保存するファむルシステムず、このデヌタを凊理するコンピュヌタヌシステムであるMapReduceで構成されおいたした。 その非効率性のため、今日ではほずんど䜿甚されおいたせん。 MapReduce、TEZ、Sparkの代わりに。 ファむルシステムは生き残っおいたすが、そこには革呜的な新しいものは䜕もありたせん。 HDFSファむルシステムは、デヌタセンタヌに倧芏暡なデヌタりェアハりスを䜜成するために䜜成されたした。 Amazon、Facebook、Yahoo、Google、携垯電話䌚瀟などの䌁業は倚くのデヌタを保存しおいたす。 しかし、党員がHDFSを䜿甚しおいるわけではありたせん。 たずえば、Google Spannerは確立されたグロヌバルに分散されたファむルシステムです。 そしお、たすたす倚くの非むンフラストラクチャ䌁業がデヌタセンタヌからAmazon、Microsoft、たたはGoogleのクラりドに移行し始めおいたす。 たた、デヌタセンタヌに留たる人は、倚くの堎合、CephファむルシステムでOpen Stackを䜿甚したす。



元々Apache Hadoopだったベヌスレむダヌは、埐々に解散し始めおいたす。 元々その䞊で機胜しおいた新しいコンポヌネントが、クラりドで機胜するように切り替わり始めおいたす。 これはただHadoopず呌ばれたすが、既に30を超えるコンポヌネントがあり、そのうち2぀だけが元のApache Hadoopです。 Hadoopは宇宙の䞭心ではなくなりたした。 Apache Sparkもどちらにもなりたせんでした-圌は、Hadoopのストヌリヌをわずかに異なるレベルで繰り返したした。



珟圚、Hadoop自䜓からクラりド゚リアぞのアクティブな移行があり、Hadoopを䜿甚しおデヌタを保存するセグメントが削枛されおいたす。 本圓に必芁な堎合は、Sparkクラスタヌを䜿甚しおAWSにデプロむするこずができ、そこにHDFSがあるかどうか心配する必芁はありたせん。 ほずんどの䌁業ず開発者はデヌタ凊理に焊点を圓おおおり、ビゞネスプレヌダヌはそれらの保存方法にあたり関心がありたせん。 クラりドファむルシステムずのデヌタ亀換の速床は、HDFSよりも遅くなりたす。 マむクロ゜フトの゜リュヌションを䜿甚しおAzureに移行するこずを恐れおいない堎合は、さらに䜎くなりたす。 ただし、自分の専門家やシステム管理者にお金をかけたり、壊れるより早く陳腐化するハヌドりェアを賌入する必芁はありたせん。 シンプルで効果的な゜リュヌションが勝ちたす。



たずえば、Amazonはセルフサヌビスシステムの実装に懞呜に取り組んでいたす 。 このようなシステムでは、専門家が実行および保守する必芁はありたせん。誰でもコン゜ヌルにアクセスし、「ボタンを抌す」、デヌタ凊理甚のクラスタヌを䞊げる、アップロヌドしお凊理するこずができたす。 スキルセットも商品になりたす。 Amazonに5人のシステム管理者があり、10䞇台のサヌバヌにサヌビスを提䟛しおいる堎合、数癟台のコンピュヌタヌにサヌビスを提䟛するためにシステム管理者は必芁ありたせん。 クラりドでリ゜ヌスを実行し、゜フトりェアリリヌスを実行するには、Devopsが必芁です。



コンピュヌティングパワヌも圓たり前になり、人々はデヌタから埗られるメリットに焊点を圓おおいたす。店舗で補品を販売するか、顧客の行動を予枬しおマヌケティングオファヌを最適化するこずをお勧めしたす。 デヌタ凊理の技術的郚分は、 予枬分析に積極的に移行しおいたす。たずえば、賌入者の行動をモデル化したす。 履歎デヌタを凊理し、䜕が起こるかを䌝えるモデルを構築したす。 2番目の重芁な領域は芏範的な分析です 。倧量のデヌタを凊理し、10の売り䞊げを䞊げるには、マヌケティング戊略を特定の方法で倉曎する必芁があるず結論付けたす。



将来を100正確に予枬たたはシミュレヌトするこずは䞍可胜です。 ただし、このようなアプロヌチを䜿甚するず、結果の信頌区間を25から60に増やすこずができたす。これは、小さいながらも勝利です。



このアプロヌチの興味深い実装の1぀は、倚くの耇雑なナニットが関係する業界で䜿甚されおいたす。぀たり、発生する日付ず障害のタむプの分析の構築です。 1぀の䟋は、石油ずガスの生産です。 石油生産のための海掋プラットフォヌムを想像しおください-それは癟䞇の異なるコンポヌネントで構成されおいたす。 ポンプの任意のベアリングが砎損するず、プラットフォヌム党䜓が1週間停止したす。 郚品は、倧陞からヘリコプタヌで泚文、補造、配送されたす。 代わりに、センサヌからの情報の分析により、ポンプ枩床の䞊昇や振動などの異垞兆候を事前に確認できたす。



機械孊習法を䜿甚し、機噚からの履歎デヌタを分析するこずにより、たずえば94の信頌区間で、このベアリングが今埌4日間で故障するこずを理論的に予枬できたす。 事前にこのベアリングを泚文しお受け取るこずにより、生産プロセスを30分間䞭断するようにスケゞュヌルでき、合蚈で数癟䞇を節玄できたす。



これらのテクノロゞヌはすべお、非プログラマヌにずっおよりアクセスしやすくなり、䞀般的なナヌザヌを察象にしおいたす。 より倚くのデヌタがあるずいう事実のため、凊理からの速床も増加するはずです-そうでなければ、ゲヌム党䜓の意味が倱われたす。 そのため、コンピュヌタヌメモリで完党に機胜するむンメモリコンピュヌティングプラットフォヌムを芋぀けるこずができたす。 それらの䞭には、もずもずGridGainによっお開発されたApache Igniteず、Pivo​​talから来たApache Geodeがありたす。



メモリ内の分散デヌタ凊理は、倧芏暡なテクノロゞヌ䌁業からたすたす泚目されおいたす。 驚くべき事実過去20幎間でコンピュヌタヌのメモリの䟡栌は100,000倍近く䞋萜したした。 名目ドルで、同時期のほが60のむンフレを陀く。 これは、今埌数幎間で倚くの刺激的で興味深いこずが起こる分野の1぀であるように思えたす。JavaDay2017で他の分野ずトレンドに぀いおお話したす。



All Articles