🚥 🏭 💯 モスクワスパーク＃4のお知らせ 👨🏽‍⚖️ 🤜🏽 🐠

みなさんこんにちは！新年、新しい火花、新しいモスクワ火花！ 4月19日、Attic of Rambler＆Coで開催される素晴らしいイベントの新しいシーズンが始まりますこのフレームワークは静止していません。今回も、新しいコミュニティサイトを紹介し、海外のスターとのフォーマットを試します。

1. Spark 2.3の新機能 -NvidiaのチーフデータサイエンティストであるPavel Klemenkov氏/ BigDataTeamのData Wizard

レポートでは、私の意見では、Apache Sparkの3つの主要な機能、連続ストリーミング、ストリーミングml、ベクトル化udfを検討します。 例として、連続ストリーミングとマイクロバッチの違い、それがどれだけ速いか、それに関連する制限を検討してください。 すべての機械学習の専門家の緊急の問題を分析します。新しい統合されたストリーミングMLインターフェースを使用してモデルを製品化し、それを実行する方法です。 そして、結論として、開発者がUDFベクトル化の助けを借りてPySparkパフォーマンスの最終的な痛みをどのように克服したかを見ていきます。

2. ビッグデータのMOOC：全員にクラスターを提供し、ソリューションを確認します。 -Oleg Ivchenko、アシスタント@ MIPT / Data Wizard @ BigDataTeam、Pavel Akhtyamov、アナリスト開発者@ Vicman Development / Data Wizard @ BigDataTeam

昨年、私たちのチーム（BigDataTeam）とYandexがBig Data for Data Engineersの専門化を開始しました。 この専門分野の独自性は、学生の決定が実際のクラスターでテストされるという事実にあります。 このようなインフラストラクチャの立ち上げとCourseraとの統合は、かなり面倒で、多くの興味深いエンジニアリング上の問題を引き起こしました。 レポートでそれらについてお話します。 すなわち：

1）Dockerコンテナー内でJupyterを使用してSparkクラスターを構築する方法

2）CourseraにLTIインターフェイスを使用してパイプラインタスクの検証を埋め込む方法

3）Jupyterラップトップを運用クラスターに転送してテストする方法

3. KubernetesでのApache Sparkの簡単な方法 -Dmitry Lakhvich [KrivdaTheTriewe]、シニアリサーチエンジニア@ Tookitaki /データエンジニア@ Maksimatelekom

Apache Spark 2.3の革新の1つは、メインブランチでのKubernetesの実験的なサポートです。 このレポートでは、Kubernetes自体のアーキテクチャ、その展開、最小限の構成での基本構成、およびKubernetesでのApache Sparkアプリケーションの展開の両方を検討します。 チューニングの微妙な点と、別のスケジューラー（スケジューラー）が必要な理由と、それがもたらすメリットについて検討します。

イベントは無料で、 登録が必要です 。

ピザとお茶があります！

19.00から

場所：ワルシャワ高速道路、9、1ページ、入口番号5。屋根裏のランブラー＆Co

必ず登録してパスポートを携帯してください。ビジネスセンターのセキュリティが守られません。

さあ、それは面白いでしょう！

モスクワスパーク＃4のお知らせ

More articles: