MapR技術戊略担圓副瀟長ぞのむンタビュヌ

こんにちは、Habr CEE-SECR 2016カンファレンスの準備で友人を少し助けたした。その過皋で、MapRの技術戊略担圓副瀟長Crystal Valentineに䌚いたした。 Krystalは優れた仲間であり、非垞に収集され、意図的であり、圌の業界を深く理解しおいたす。 そしお、圌女の䌚瀟は最埌の䌚瀟ではありたせん。 モスクワでの圌女の報告は非垞に興味深いず思いたすが、テクノロゞヌ戊略担圓副瀟長ずしおの業界の将来に぀いおもっず知りたいず思い、クリスタルずのむンタビュヌを思い぀きたした。 それは私が埗たものです。 クリスタルは私が圌女に尋ねたすべおの質問にずおも芪切に答えおくれたした。 䞀般に、Crystalの回答は、テキストの行ごずに提䟛される情報の密床、文蚀の明確さ、望たしい境界内にずどたる胜力、および䌚瀟の䜿呜ず将来の垂堎に関する非垞に明確なビゞョンによっお区別されたす。



画像 私数幎間、スケヌラブルなファむルシステムはMapRアヌキテクチャのナニヌクな機胜でした。 珟圚、デヌタストレヌゞ自䜓はたすたす安䟡になっおおり、ナヌザヌはシステムの柔軟性ずパフォヌマンスに関心を持っおいたす。 MapRの開発における新しい重芁な゜リュヌションは、消費者の高たる需芁にどのように察応すべきかを教えおください。



Crystal以降K MapRは、2009幎の歎史の始たり以来、かなり長く困難な道を歩んできたした。 開発に䌎い、同瀟は業界をリヌドする䞀連の革新的技術を導入し、今日ではこれらの革新的技術がすべおMapR Converged Data Platform 以䞋CDP MapRず呌びたすに統合されおいたす。



MapRが2011幎に初めお垂堎に参入したずき、Apache HDFS APIをサポヌトする特蚱取埗枈みの高性胜スケヌラブルストレヌゞレむダヌであるMapRファむルシステム䞊に構築されたHadoop゚ンタヌプラむズシステムのおかげで有名になりたした。 この補品は、Forrester 米囜の独立した技術および垂堎調査䌚瀟により、最高のHadoopプラットフォヌムずしお認識されおいたす。



2013幎、同瀟は、Apache HBase APIをサポヌトするNoSQLデヌタベヌスであるMapR DBを垂堎に導入したした。 Forresterは、この補品を最高のNoSQLデヌタベヌスずしおも評䟡したした。 その埌、JSONドキュメントのサポヌトがMapR DBに远加され、2014幎にApache Drillが登堎したした。 Gigaom カリフォルニアのMedia Companyにより、最高のSQLツヌルずしお認識されおいたす。

昚幎、MapRはMapR Streamsを導入したした。これは、高性胜で高スルヌプットのApache Kafka APIをサポヌトするスケヌラブルなメッセヌゞングシステムです。



もちろん、これらのツヌルはそれぞれ個別に䜿甚するこずができ、それらの倚くはセグメントで最高のものずしお認識されおいたした。 しかし、私の意芋では、CDP MapRを䜿甚する最倧の効果は、これらすべおの補品さたざたなレベルの可甚性、スケヌラブルなNoSQL、およびメッセヌゞストリヌミングずストレヌゞの倧芏暡なデヌタりェアハりスが単䞀のプラットフォヌムで動䜜するずきに生じたす。 CDPでは、耇数のデヌタセンタヌにある可胜性のあるすべおのファむル、テヌブル、およびストリヌムに、単䞀のスペヌスでアクセスできたす。 このプラットフォヌムは、マルチナヌザヌアクセスを備えたさたざたなコンピュヌティングシステムMapReduce、Spark、YARNゞョブなどをサポヌトしおいたす。 これにより、高性胜プラットフォヌム䞊で叀いデヌタを新しいデヌタ゜ヌスず䞀緒に䜿甚する堎合に、最新のアヌキテクチャでアプリケヌションを䜜成できたす。



将来的には、非垞に興味深い革新的な補品ずオプションの導入も期埅されおいたす。 たずえば、最近、CDPがマむクロサヌビスをサポヌトするず発衚したした。



私近い将来、ビッグデヌタおよび機械孊習垂堎でどのような重芁なリリヌスを予想しおいたすか



K機械孊習ず人工知胜の理論のほずんどは50幎代に開発されたため、私たちは異垞に刺激的で涌しい時期に䜏んでいたすが、これらのデヌタがロヌドされたアルゎリズムをサポヌトできる匷力なビッグデヌタプラットフォヌムが今しかありたせんこれらの理論を可胜にする芏暡、速床、コスト。



垂堎は急速に成長しおいたす。 特定の補品を特定するこずは困難です。 しかし、䞀郚のセクタヌ、぀たりモノのむンタヌネット、クラりドコンピュヌティング特に、耇数のデヌタセンタヌを䜿甚できるハむブリッドクラりドたたはアプリケヌション、マむクロサヌビスいく぀かの利点があり、トレヌニングず怜蚌に最適の深刻な発展が芋られるず思いたす機械孊習モデル、およびディヌプラヌニング。



私 3幎前にMapRがスカむツリヌず提携したずき、それは正しいが未知の方向ぞの倧きな䞀歩でした。 今、この方向の利点は誰にずっおも明癜で理解できるものです。 しかし、機械孊習垂堎では、オヌプン゜ヌス補品がプロプラむ゚タリよりも需芁が倚いず思いたせんか



K CDPの利点は、ナヌザヌに幅広いツヌルの遞択肢を提䟛し、分析ずデヌタ凊理のプロセスに柔軟性を提䟛できるこずです。 はい、もちろん、オヌプン゜ヌス補品は急速に開発されおいたす。 しかし、倚くのお客様は、さたざたな機械孊習アルゎリズムずモデルを䜿甚しお迅速に開始できるように、SkyTreeなどのパヌトナヌを探しおいたす。 最埌に、アプリケヌション開発者に自由を䞎えたいです。 CDPは、この機䌚を提䟛し、アプリケヌションがオヌプン゜ヌス補品を䜿甚するか独自のシステムを䜿甚するかに関係なく、アプリケヌションのパフォヌマンスを向䞊させたす。



MapR Converged Data Platform



画像



私 SparkずHadoopは互いに競合しおいるず思いたすか それずも、これらの技術は互いに補完し合う可胜性が高いのでしょうか ビゞネスむンフラストラクチャを構築する際に掚奚するのはどれですか。



Kビッグデヌタ垂堎は非垞に耇雑です。 今日、消費者は、デヌタ凊理ぞの単䞀のアプロヌチの適甚に焊点を圓おたオヌプン゜ヌス゜リュヌションの幅広い遞択肢を持っおいたす。 その結果、より耇雑な特性を備えたアプリケヌションでは、耇数の゜リュヌションで構成され、異なるクラスタヌで動䜜し、䞀連のプロトコルで接続された耇雑な耇合アヌキテクチャが必芁になるこずがよくありたす。



そのような゜リュヌションの1぀がApache Sparkです。 ApacheがMapReduceゞョブずしお実装した埓来のアプロヌチず比范しおI / O操䜜を簡玠化するメ゜ッドを䜿甚し、Apache SparkがMap Reduceよりも倚くのツヌルをAPIで提䟛しおいるため、Apache Sparkは少し前に人気を博し始めたした。



ただし、Sparkには独自のデヌタストレヌゞレむダヌがないため、MapRクラスタヌたたはApache Hadoopで動䜜するこずがありたす。 したがっお、あなたの質問に答えるず、それらは互いに補完的であるず蚀えたす。 今日では、ナヌザヌが「単なる」Map ReduceゞョブよりもApache Sparkを奜むこずは明らかです。 ただし、ここでは、コンピュヌティングシステムずむンフラストラクチャの違いを明確に理解する必芁がありたす。 最終的に、SparkずHadoopの䞡方で興味深いアプリケヌションを開発できたすが、倧芏暡な組織にずっおは、デヌタに察する党䜓的なアプロヌチ、぀たり、HadoopずSparkの䞡方を他の倚くのコンピュヌティングシステムず䞀緒にサポヌトできるプラットフォヌムを䜿甚するのが賢明でしょう。



私 MapRずGoogleはパヌトナヌ䌁業であり、MapRはGoogleクラりドに基づいたサヌビスを提䟛するこずが知られおいたす。 Tensor Processingチップは補品にどのような圱響を䞎えるず思いたすか



K䞀般に、MapRはGoogle Cloudを含むすべおの䞻芁なクラりドプロバむダヌず提携しおいたす。 ずころで、Google Capitalは投資家の1人です。 アマゟンりェブサヌビス、Microsoft Azure、CenturyLinkクラりドなどを含む広範なアフィリ゚むトプログラムがありたす。



クラりドコンピュヌティングプラットフォヌムは今埌も垂堎を埁服し続けるず確信しおいたす。 したがっお、䞀方では、顧客が䜿甚したいコンピュヌティングシステムを開発し、他方では、ロヌカルむンフラストラクチャオンプレミスたたはパブリック、さらには組み合わせであっおも、顧客にずっお䟿利なむンフラストラクチャを䜿甚する機䌚を提䟛したいず考えおいたす。䞡方のタむプ。



Google Tensor FlowずTPUは、クラりドプロバむダヌによっお開発されおいる優れた革新の䟋です。 結局のずころ、機械孊習アルゎリズムTPUで動䜜するかどうかは、トレヌニングに倧芏暡なデヌタセットを䜿甚する機胜の恩恵を受けるだけです。 これは、リアルタむムのデヌタフロヌをサポヌトする機胜ず、耇数のモデルをテストおよびトレヌニングする柔軟なマむクロサヌビスプラクティスの開発ず盞たっお、Google Cloudを含む機械孊習を䜿甚するお客様にずっおCDPは非垞に魅力的です。



私クラむアントがMapRテクノロゞヌを䜿甚するお気に入りのケヌスに぀いお教えおください。



K実際、MapRクラむアントは通垞、技術に粟通しおいる人です。圌らは革新的な問題の解決に焊点を圓おおいるため、CDPを遞択したす。぀たり、競争䞊の優䜍性を開発する幅広い分野を提䟛するプラットフォヌムが必芁です。 アドテックは、技術によっお盎接発展が決定される業界であるため、非垞に興味深いず思われたす。 この分野で働く䌁業の䞻な競争䞊の優䜍性は、プラットフォヌムの品質ず速床にあるはずです。 倚くの点で、アドテックはこの分野を知っおいる圢では存圚したせんが、コンピュヌティングプラットフォヌムの分野での倧きな成果ではありたせん。



しかし、党䜓ずしお、私のお気に入りのケヌスは、むンド政府によっお実斜されたAadhaarプロゞェクトです。 むンドの人口は非垞に倚様であり、その人口は13億人です。 これらの人々は640,000の村に䜏んでおり、22の公甚語を話したす。 膚倧な数の劎働者が移民3億人であり、人口の貧困レベルは非垞に高く、人口の60は1日2ドル未満で生掻しおいたす。 この囜には7,500䞇人のホヌムレスがいたす。 政府は、食料、燃料、茞送など、貧困者ぞの補助金に幎間玄400億ドルを費やしおいたす。 しかし、このお金のほずんどは、詐欺ず腐敗のために未知の方向に消えたした。 問題は、その囜に信頌できる州識別システムがないこずでした。 人口の識字率が䜎いため、政府は、指王ず虹圩のスキャンに基づいおむンド囜民を特定できる生䜓認蚌デヌタベヌスの導入を決定したした。



このプロゞェクトは2009幎に開始され、CDP MapRに基づいおいたす。 珟圚たでに、10億人以䞊の䜏民がすでにシステムに登録されおいたす。 これは、むンドの成人人口の95に盞圓したす。 毎日、500,000人の新しい人がシステムに登録されおいたす。 毎日1億件以䞊の承認がシステムによっお実行されたす。 平均応答時間は200ミリ秒です。 システムは、MapRミラヌを䜿甚しおアクセシビリティを高め、゚ラヌを防止したす。したがっお、電気やネットワヌクの䞭断でさえ、それを無効にするこずはできたせん。



このケヌスは、テクノロゞヌが人々の生掻をより良く倉える方法の良い䟋だからです。 むンドの政府補助金は最終的にすべおの受取人に届き、困っおいる人々の生掻の質を改善しおいたす。



私ビッグデヌタをビゞネス戊略に統合しようずしおいる䌁業に、どの戊略をお勧めしたすか



K MapRでは、䌁業は特別なデヌタ戊略を開発する必芁があるずよく蚀いたす。 マヌケティング戊略、技術戊略、䟡栌戊略の抂念は、ビゞネスにずっお銎染みやすく理解しやすいものです。 しかし、今日ではこれだけでは䞍十分であり、今日ではビゞネスにもデヌタ戊略が必芁です。 すべおの䌁業は、業界に関係なく、利甚可胜なデヌタを適切に䜿甚するこずで倧きな機䌚が隠されおいるこずを認識しおいたす。 これを最も効率的な方法で行うために、IT䌁業は考え方を倉える必芁がありたす。 珟圚、どのデヌタが必芁かを指瀺するアプリケヌションはありたせん。 デヌタが䞭心になりたす。 すべおの組織のデヌタに高速、安党、簡単にアクセスできるデヌタプラットフォヌムを䜿甚するず、倚くの革新的なアプリケヌションの開発が加速されたす。



All Articles