モスクワスパーク#4のお知らせ

画像






みなさんこんにちは! 新年、新しい火花、新しいモスクワ火花! 4月19日、Attic of Rambler&Coで開催される素晴らしいイベントの新しいシーズンが始まります このフレームワークは静止していません。今回も、新しいコミュニティサイトを紹介し、海外のスターとのフォーマットを試します。



1. Spark 2.3の新機能 -NvidiaのチーフデータサイエンティストであるPavel Klemenkov氏/ BigDataTeamのData Wizard

レポートでは、私の意見では、Apache Sparkの3つの主要な機能、連続ストリーミング、ストリーミングml、ベクトル化udfを検討します。 例として、連続ストリーミングとマイクロバッチの違い、それがどれだけ速いか、それに関連する制限を検討してください。 すべての機械学習の専門家の緊急の問題を分析します。新しい統合されたストリーミングMLインターフェースを使用してモデルを製品化し、それを実行する方法です。 そして、結論として、開発者がUDFベクトル化の助けを借りてPySparkパフォーマンスの最終的な痛みをどのように克服したかを見ていきます。
2. ビッグデータのMOOC:全員にクラスターを提供し、ソリューションを確認します。 -Oleg Ivchenko、アシスタント@ MIPT / Data Wizard @ BigDataTeam、Pavel Akhtyamov、アナリスト開発者@ Vicman Development / Data Wizard @ BigDataTeam

昨年、私たちのチーム(BigDataTeam)とYandexがBig Data for Data Engineersの専門化を開始しました。 この専門分野の独自性は、学生の決定が実際のクラスターでテストされるという事実にあります。 このようなインフラストラクチャの立ち上げとCourseraとの統合は、かなり面倒で、多くの興味深いエンジニアリング上の問題を引き起こしました。 レポートでそれらについてお話します。 すなわち:



1)Dockerコンテナー内でJupyterを使用してSparkクラスターを構築する方法

2)CourseraにLTIインターフェイスを使用してパイプラインタスクの検証を埋め込む方法

3)Jupyterラップトップを運用クラスターに転送してテストする方法
3. KubernetesでのApache Sparkの簡単な方法 -Dmitry Lakhvich [KrivdaTheTriewe]、シニアリサーチエンジニア@ Tookitaki /データエンジニア@ Maksimatelekom

Apache Spark 2.3の革新の1つは、メインブランチでのKubernetesの実験的なサポートです。 このレポートでは、Kubernetes自体のアーキテクチャ、その展開、最小限の構成での基本構成、およびKubernetesでのApache Sparkアプリケーションの展開の両方を検討します。 チューニングの微妙な点と、別のスケジューラー(スケジューラー)が必要な理由と、それがもたらすメリットについて検討します。
イベントは無料で、 登録が必要です



ピザとお茶があります!



19.00から

場所:ワルシャワ高速道路、9、1ページ、入口番号5。 屋根裏のランブラー&Co



画像



必ず登録してパスポートを携帯してください。ビジネスセンターのセキュリティが守られません。



さあ、それは面白いでしょう!



All Articles