Strata + Hadoop 2016レビュヌ





昚幎、BadooはHadoop + Sparkバンドルを積極的に䜿甚し始め、Spark Streamingを䜿甚しお数千䞇のメトリックを収集および凊理する独自のシステムを構築したした。

私たちの知識を拡倧し、この分野の最新のむノベヌションに粟通するために、今幎5月末にBIビゞネスむンテリゞェンス開発者はロンドンに行き、次のHadoop + Strataシリヌズ䌚議が開催されたした。ビッグデヌタ分析。



たず、私たちが䜿甚しおいる技術スタックに興味がありたした。 Sparkに぀いおの講挔者は、Cloudera、Databricks、Hortonworks、IBMの曞籍の講挔者、クリ゚むタヌ、アクティブな「寄皿者」、著者の流れ党䜓を匷調したした。



䌚議の䞻催者は、衚玙に豪華な動物の本を出版するIT出版瀟ずしお知られるO'Reillyず、Hadoopベヌスの゜リュヌションを専門ずするIT䌚瀟のClouderaです。



今幎の䌚議の䌚堎は、巚倧なロンドンの゚クセル展瀺ホヌルでした。 そのサむズは玠晎らしいです。 DLR列車の2぀の駅の間にあり、必芁なむベントがどの郚分で行われるかわからない堎合は、15〜20分かけお建物の䞀方の端からもう䞀方の端たで移動できたす。



むベント自䜓の芏暡も同様に野心的でした。 䌚議は火曜日から金曜日たでの4日間続きたした。 最初の2日間で、入門講矩、セミナヌ、マスタヌクラスが開催され、翌日には䌚議自䜓が開催されたした。 おそらく、ビッグデヌタを扱うこずに専念する䌚議はそうであるず思われるので、そこで提瀺される情報の量は膚倧でした。 䞀連の8぀のレポヌトで始たり、その埌10を超える䞊列セクションが開き、それぞれに6時間のレポヌトがありたした。







スケゞュヌルが非垞に厳しいため、䞻催者はそれをわかりやすくする方法にもっず泚意を払う必芁がありたす。 たずえば、各セクションのトピックを瀺したり、タヌゲットオヌディ゚ンス別にレポヌトを䜜成したり぀たり、゚ンゞニア、アナリスト、およびビゞネス担圓者向けのレポヌトに分割するこずができたす。



代わりに、登録䞭に、A3シヌトが最小のフォントで曞かれたスケゞュヌルずずもに配垃されたした。 確かに、代替手段ずしお、珟圚発生しおいるむベントを远跡し、独自のスケゞュヌルを䜜成できるモバむルアプリケヌションを䜿甚するこずができたした。



䌚議の各日は䞀連の短い基調講挔で始たり、スピヌカヌは人工知胜、デヌタ分析、機械孊習、セキュリティの分野の䞻芁な傟向に぀いお10〜15分間意芋を共有したした。 これらのスピヌチの埌、レポヌトのあるセクションが開かれたした。 最も興味深いず思われたレポヌトに぀いおは、本日のレビュヌでお知らせしたす。



Spark 2.0次は䜕ですか



Apache Sparkセクションの最初は、Databricksの開発者であるTathagata Dazでした圌はすぐに誰も圌の名前を発音できないこずに気付いたので、誰もが単にTDず呌びたした。 圌のレポヌトでは、Apache Spark 2.0のリリヌスで䜕を期埅するかに぀いお話したした。

TDは、メゞャヌリリヌスは今幎6月に予定されおいるず述べたした。 この蚘事の執筆時点では、 䞍安定なプレビュヌリリヌスバヌゞョンのみがすべおのナヌザヌが利甚できたす。 スピヌカヌはたた、リリヌスの「倧郚分」にもかかわらず、1.xずの埌方互換性がほが完党に維持されるこずを保蚌したした。

次に、このリリヌスの玄束された画期的な機胜に぀いお盎接説明したす。



  1. タングステンフェヌズ2 。 Tungstenプロゞェクトは、Sparkフレヌムワヌクでの鉄のメモリず䜿甚率を改善するこずを目的ずした䞀連の最適化です。 曎新されたバヌゞョンでは、タングステンの䜜業を5〜10倍加速するこずを玄束したす。 これは、コヌド生成を最適化し、メモリアルゎリズムを改善するこずで達成されたした。 以前にいく぀かの連続した操䜜からの芁求が仮想呌び出しのチェヌンを必芁ずしおいた堎合、今では単䞀のコヌドにコンパむルされたす。

  2. 構造化ストリヌミング 。 開発者から倚くのフィヌドバックを受け取ったSparkチヌムは、ストリヌミングモデルを倧幅に䜜り盎したした。 曎新されたバヌゞョンでは、構造化ストリヌミングず呌ばれる「むンタラクティブ」ストリヌミングが䜿甚されたす。このストリヌミングでは、既存のストリヌムに察しおさたざたなク゚リを実行し、機械孊習モデルを構築するランタむムを実行できたす。 本質的に、これはSQL APIの䞊に構築された高レベルAPIです。 これにより、ストリヌミングはタングステンからすべおの最適化を受け取るはずです。



  3. デヌタセットずデヌタフレヌム 。 新しいバヌゞョンでは、DataFrame = Dataset [Row]オブゞェクトを䜜成するずきに、これら2぀のAPIがマヌゞされたす。 これにより、DatesetのDataFrameオブゞェクトでマップ、フィルタヌなどの操䜜を実行できたす。 機胜性デヌタセットは実隓的なものずしおマヌクされおおり、1.xバヌゞョンずの互換性が厩れる堎所の1぀です。









Sparkでアプリケヌションを開発しおいる堎合は、倏に新しいバヌゞョンを準備しおアップグレヌドするのに時間がかかるこずを確認しおください。 APIの改善ずパフォヌマンスの向䞊は芋事です。



Matei Zaharia、CTO Databricks、Sparkの䜜成者によるSpark Summitの非垞によく䌌たレポヌトは、 Spark 2.0で芋るこずができたす。



Sparkでのストリヌミングの未来。 構造化ストリヌミング



䌚議でのTDからの2番目のレポヌトは、Spark Streamingの方向性がどのように発展するかに぀いおのより詳现な話でした。 スピヌカヌによるず、Sparkを䜿甚しおいる開発者の半数以䞊が、Spark Streamingがシステムの最も重芁なコンポヌネントであるず考えおいたす。



開発者がストリヌミングの存圚の3幎間にわたっお行った䞻な結論このプロセスは単独で発生するべきではありたせん。 ナヌザヌは、デヌタストリヌムを取埗しお凊理し、埌で䜿甚するためにデヌタベヌスに栌玍するだけでなく、 ほずんどの堎合、監芖をこのストリヌムに接続し、機械孊習甚のデヌタを収集するなども必芁です。



この点で、開発者はより広く考え始め、䞊蚘のすべおの可胜性が远加されるフレヌムワヌク内で、ストリヌミングだけでなく継続的アプリケヌションずいう新しいプロゞェクトを呌び始めたした。



TDは、珟圚のD-Streamsモデルの䞻芁な問題領域を調査し、構造化ストリヌミングず呌ばれる新しい゜リュヌションを導入したした。

構造化ストリヌミングは、無限のテヌブルを持぀䜜品ずしおストリヌミングを芋るこずができる新しい抂念です。







このテヌブルのデヌタは、DataFrames APIを介したSQLク゚リを䜿甚しおク゚リできたす。 ナヌザヌが必芁ずするものに応じお、すべおのデヌタに察しお、および受信したデヌタのデルタに察しおのみリク゚ストを呌び出すこずができたす。

API dstreamsずDataFramesを組み合わせるこずにより、ストリヌムからのデヌタを静的セットず組み合わせる操䜜を実行できるようになりたした。

このレポヌトでは、新しいシステムが「内郚」でどのように機胜するか、最も重芁なこずずしお、フォヌルトトレランスがどのように達成されるかに぀いおも怜蚎したした。



Spark Streamingの䞊に耇雑なシステムを構築する堎合、開発者によるず、最も単玔化されたAPIで高速で耐障害性のあるストリヌミングを埗るこずができるため、新しいStructured Streamingコンセプトを必ず怜蚎する必芁がありたす。



仕様は、 構造化ストリヌミングプログラミング抜象化セマンティクスずAPIにありたす 。



同じ䜜者による、Spark Summitを䜿甚した同様のレポヌトの蚘録は、ここで芋るこずができたす 構造化されたストリヌミングの詳现



定食



報告の合間に、䞻催者は完党に暙準的なコヌヒヌブレむクを手配し、ある日、昌食が始たりたした。 倚くのIT䌚議ずは異なり、Hadoop + Strataでの昌食は远加オプションではありたせんでしたが、䌚議のスポンサヌから提䟛されたした。 たずえば、1日目はTeradataのランチは涌しくお新鮮で、2日目はボリュヌムたっぷりのIBMからでした。



Holden Karauによるシャッフルの先







圌女の銖の金属リングのチャむムの䞋にある莅沢なスピヌカヌは、Sparkの内郚に぀いお倚くの興味深いこずを語った。

Sparkタスクが実行され、シャッフルステヌゞの時が来たした... OOMキラヌ

そしお、私は幞せずシヌルが欲しいです。 猫に぀いお蚀えば、報告曞には猫がたくさんいたした。 たあ、圌女はそれらが奜きです。 重芁ではなく、「mi-mi-mi」だけで、それだけです。



では、過剰なメモリ消費ずパフォヌマンスの䜎䞋はどこから来るのでしょうか





これはすべお理解され、説明され、解決策が提案されたす。 さらなる最適化を埅぀際にどのような問題が発生する可胜性があるかが瀺されたす。

そしおもちろん、今埌のSpark 2.0の新機胜なしでは。

次は、Sparkの単䜓テストです。 そしお、手始めに-最適化できないコヌドを送信する提案。

䞀般に、実甚的でなくおも、誰もがすべおが明確であるわけではありたせんが、面癜く有益でした。

Slideshareレポヌトのスラむド



ブヌスのデモ



䌁業のスタンドでは、圌らの代衚者ず、そしお䞀郚では-補品の䜜者ず話すこずができたした。



たずえば、MapRスタンドでTed DunningがMapR-FSの仕組みを教えおくれたした。 クラスタヌをホヌムディレクトリずしおマりントし、䞀方のコン゜ヌルで定期的に珟圚の時刻をファむルに曞き蟌み始め、他方でtail -fを実行したした。 䞀般的に、クヌル ファむルを操䜜するだけで、ファむルシステム自䜓がサヌバヌ、レプリケヌション、その他すべおを凊理したす。 たた、デヌタを読み取るには、FSクラむアントにマりントされたファむルずしおだけでなく、凊理のためにHive / Sparkで䜿甚するこずもできたす。



このFSにはコミュニティバヌゞョンがありたす。 私たちはそれを䜿っおみるべきだず思いたす



実動HadoopクラスタヌでのApache Sparkの保護







SparkたたはHadoopのセキュリティを構成する必芁がある堎合は、間違いなくこのプレれンテヌションをブックマヌクに远加しおください 最初に、スピヌカヌはHadoopのセキュリティシステムの開発の歎史から少し話をしたした。どのコンポヌネントが含たれおいるかです。 䞀般的に、最初はそこにセキュリティは想定されおいたせんでしたが、すべおがずっず埌に登堎し、これはすべおがどのように配眮されるかを郚分的に説明したす。

Sparkのデヌタセキュリティは、Hadoopのデヌタセキュリティに基づいおいたす。 したがっお、ストヌリヌはKerberosから始たり、ナヌザヌを承認し、HDFS / YARNを構成したす。

したがっお、すべおを順番に保護したす。



いや、私は䜕も忘れおいないようです。 忘れた堎合、すべおがレポヌトに含たれおいたす



次に、ファむルレベル、Hiveテヌブルのレベル、行ず列のレベルで、特暩を配垃するためのオプションに぀いお説明したした。 可胜な堎合は、どのように異なりたすか。



Sparkのセキュリティの開発芋通しに぀いお話したした。



だから今、私はセキュリティに関するすべおを知っおいたす。 たあ、それは私には思えたす。

Hadoop Summitでの同様のレポヌトは、本番甚HadoopクラスタヌでのSparkの保護をご芧ください。



パンずサヌカス





レポヌトの初日の終わりに、2぀のアフタヌパヌティヌがすぐに行われたした。 最初は、䌚議のスピヌカヌず参加者のほずんどが展瀺ホヌルに行き、䞻催者はスポンサヌのスタンドにアルコヌルず゜フトドリンク、枩かいスナックを眮きたした。参加者が特定のルヌトに沿っおあるパブから別のパブに移動しお倜を過ごすずき。



日䞭、䞻催者ずボランティアは䌚議参加者に「ルヌトシヌト」を配垃したしたが、そこには4぀のロンドンのパブのチェヌンが瀺されおおり、順番に「䌑息」する必芁がありたした。 倕食のように、ビヌルやパブのスナックはスポンサヌから提䟛されたした。 䞀郚の斜蚭は倜䞭完党に賃貞されおいたしたが、他の斜蚭では、参加者が地元の利甚者を恐怖に陥れたした。







翌日の朝には、しわくちゃの顔ず賞品のパヌカヌですべおのパブを蚪れるこずができた参加者を簡単に区別できたした。



嵐の倜の埌、䌚議の2日目に党員が参加できるわけではありたせんでした。 しかし、私たちはいく぀かの興味深い報告を埗るこずができ、さらには受け取りたした。 次に、印象を共有したす。



Hadoopのゞョブが遅いのはなぜですか



Apache Ambari Hadoopクラスタヌヘルスモニタリングツヌルに関する有益なレポヌト。

Ambari Metrics Systemの䜿甚䟋、サブシステムHDFS、YARN、HBaseの暙準ダッシュボヌドが瀺されおいたす。

芳察された状況の具䜓䟋も瀺されおいたす。







HDFSおよびYARN監査ログでどのように䜕を芋぀けるこずができるか、Ambariを介しおログを操䜜する方法を瀺したす。







䟿利なツヌル これにより、クラスタヌが䜕らかの方法で動䜜する理由、タスクに十分なリ゜ヌスがあるかどうか、実行方法ず実行内容をより詳现に理解できたす。



私たちはそのようなものをどのように䜿甚すべきかを理解しようずしたしたが、これたでのずころ、公匏文曞によるずクラスタヌはAmbariを介しおデプロむする必芁があり、既にクラスタヌがありたす。 圌を殺したせんか だから私はさらに掘り䞋げたす。



プレれンテヌションスラむド .pptxファむルぞの泚意深いリンク



サむン䌚





䌚議はオラむリヌが䞻催し、もちろん展瀺ホヌルの入り口に倧きなスタンドを所有しおいたした。 ここでは、Big Booksの斬新な本を割匕䟡栌で賌入し、䌚議で著者を芋぀けお本に眲名するこずができたす。

たた、サむン䌚のスケゞュヌルはスタンドにかかっおおり、レポヌト間の長い間、著者の手から将来の本のサむン入りの早期リリヌスを莈り物ずしお受け取るこずができたした。



しかし、すべおが無料であるように、これらの初期リリヌスの本はかなり圹に立たず、堎合によっおは率盎に蚀っお広告であるこずが刀明したした。



軟膏で飛び、トリックを埌揎する



他のカンファレンスず同様に、マヌケティング担圓者はStrataに取り残されおいたせんが、パンを䞎えずに、領土党䜓にunningなsetを仕掛けるだけです。



䌚議の開始前でさえ、経隓豊富な人々は、すべおが本質的に広告のみであるため、スケゞュヌルにXのスポンサヌが付いたレポヌトにアクセスするこずに察しお譊告したした。



たた、残念ながら、聞き手に必芁な流行語が䜿甚されたずいう名前ず説明の報告がありたしたが、実際には、スピヌカヌは補品を宣䌝し、説明に蚘茉された技術に぀いおは䞀蚀も蚀えたせんでした。



各䌚議参加者は、個人甚プラスチックカヌドずむンストヌルされたRFIDタグが付いたバッゞを持ち、cなスポンサヌは、接近した人がスキャンする名前バッゞを䞎えた埌のみ、各スタンドでステッカヌ、ぬいぐるみ、その他のお土産を配りたした。 圌のすべおの登録デヌタをこのスポンサヌず共有したした。



䞀郚のスタンドでは、リスナヌに質問で答える前にバッゞをスキャンするこずができたした。

これらのトリックのために、私はすべおのスポンサヌシップのメヌル配信から退䌚するのにしばらく時間を費やさなければなりたせんでした。



結論の代わりに



Strata + Hadoopカンファレンスは、䞖界のさたざたな囜で幎5回開催されたす。 たずえば、次のむベントは8月䞊旬に北京で開催されたす。 このシリヌズの䌚議に出垭するかどうかただ決定しおいない堎合は、ここで掚奚するのはかなり困難です。



䞀方で、䞻に゚ンゞニアリングレポヌトず特定の技術に関心がある堎合は、より専門的なむベントをご芧ください。 たずえば、 Spark Summit 。 説明から刀断するず、倚くの゚ンゞニアがいお、圌ら自身の倚くは、将来の開発のために聎衆からフィヌドバックず「機胜芁求」を埗たいず思っおいたす。



䞀方、かなり倧きなBIチヌムがいる堎合、非垞に幅広いレポヌトのおかげで、すべおの人にずっお倚くの興味深いこずがあり、間違いなく時間を無駄にするこずはありたせん。 たた、むベントの非垞に専門的な組織、前向きな雰囲気、およびデヌタサむ゚ンス、機械孊習、ビゞネス分析の分野で人気のあるすべおの補品のクリ゚むタヌずチャットする機䌚も埗られたす。



BI゜フトりェア゚ンゞニアVadim Babaev

BI゜フトりェア゚ンゞニアValery Starynin



All Articles