モスクワスパーク#2の発表

画像






約束どおり、イベントは定期的に行われます。モスクワスパーク#2は7月27日に開催されます! Rambler&Coグループが組織したモスクワスパーク#1は200人以上の参加者を集めました。いつかモスクワ地方で開催される暑い気候が、今回(そしてそれ以上)の参加者を集めることを妨げないことを願っています。 さらに、新しい興味深いスピーカーを見つけました。



1. 分析と特効薬について -Alexander Podsoblyaev(Rambler&Co)

私のレポートでは、Rambler / top-100の再起動方法、市場で入手可能なツール、およびデータバッチ計算のアーキテクチャからリアルタイムデータ計算への移行の経験についてお話します。 2つのソリューションのアーキテクチャとそれらのコンポーネントについて説明します。 HiveでPythonを使用したデータ処理の機能、集計の保存の基本的な問題について簡単に説明し、代替アプローチの長所と短所について簡単に検討します。 PySparkを使用して変化するイベントを処理する方法、PySparkのシステムのさまざまなコンポーネントを操作する方法、発生する問題、およびそれらの解決策を詳細に分析します。 さらに、結果、新しいシステムの速度、いくつかの落とし穴を見てみましょう。


2. Sparkに関する推奨事項のテンソル展開 -Alexey Petrov(Zvooq)

Spark.MLの推奨事項の推奨事項には、ALSアルゴリズムの実装があり、ほとんどの実際の例で非常によく機能します。 レポートでは、iTALSアルゴリズムのSparkでの実装を紹介します。これは、テンソルのマトリックス分解アルゴリズムALSの一般化です。 このようなアルゴリズムを使用すると、推奨事項のコンテキストを考慮して、より正確で柔軟なものにすることができます。 レポートでは、ALSとiTALSの比較実験の結果について説明します。


3. 触媒へのダイビング -パベル・クレメンコフ(ランブラー&Co)

データセットとデータフレームは、Sparkの優先インターフェースになりました。 これは主に、Catalystクエリオプティマイザーの積極的な開発によるものです。 レポートでは、Spark.SQLを作成する動機を検討し、PySparkが機能することが非常に重要である理由を理解します。 また、Catalystが内部からどのように配置され、その機能をどのように拡張するかについても詳細に分析します。


4. リソースの動的割り当てまたはホステルでの生活方法 -Artyom Pichugin(New Professions Lab)

Sparkでの動的なリソース割り当てを使用すると、タスクが空きプール内の追加のリソース(ある場合)を確実に受け取ることができます。 したがって、クラスターの能力を最大限に活用して、計算をより高速に実行できる場合があります。 報告書では、リソースの動的な割り当てが、研究室の仕事の締め切りに迫っている30〜40人の学生の仕事を可能にし、すべての人にとって幸福に生きることをどのように役立てたかを説明します。


イベントは無料で、登録が必要です-rambler-co-e-org.timepad.ru/event/533749

ピザとお茶があります!



19.00から

場所:ワルシャワ高速道路、9、1ページ、入口番号5。 屋根裏のランブラー&Co



画像



必ず登録してパスポートを携帯してください。ビジネスセンターのセキュリティが守られません。



さあ、それは面白いでしょう!



All Articles