ブレーキなしのMapReduce:機械学習でボトルネックを回避

MapReduceアーキテクチャを含む分散コンピューティングシステムで計算を実行する場合、単一ノード(ストラグラー)で実行が遅いまたは遅いタスクがしばしば発生します。 このようなタスクの原因は、クラスターの不均一性、ハードウェアまたはソフトウェアの問題である可能性があります。 このような遅延により、システム全体のパフォーマンスが低下します。 Hadoopの作成者は、クラスターの他のノードでスロータスクの起動を複製することでこれに対処しようとします(投機的実行)が、このアプローチでは、スロータスクをタイムリーに定義することはできません。



科学技術セミナーは9月20日Yandexのモスクワ事務所 開催され、YahooリサーチセンターのチーフエンジニアであるEduard Bortnikovが講演します!..彼のレポートの前半では、機械学習を使用してMapReduceシステムのボトルネックの問題を解決する方法を説明します。 この方法は、Hadoopテクノロジーとは異なり、特定のノードでのタスクのスローダウンを予測できます。 予測子は既存のMapReduceシステムと統合できるため、システムの効率が向上します。



レポートの2番目の部分は、Yahoo!のMapReduceモデルの新しい実装であるSailfishに当てられます。新規性は、中間データとディスクI / Oのバッチ処理を組み合わせるという原理に基づいています。 Sailfishシステムは、Yahoo!の実際のデータとタスクに関する実験に見事に合格し、真のチャンピオン結果を示しました。タスクを完了する効率は、Hadoopと比較して400%に増加しました。 さらに、Sailfishでは、ボリュームまたはデータ配布を変更するときにタスクパラメーターを自動的に構成できます。 SailfishシステムはHadoopよりも使いやすく、Hadoopでは起動ごとに骨の折れる手動設定が必要です。

セミナーは19:00からロシア語で開催されます。



セミナーに参加するには登録が必要です。



セミナーに参加できない人のために、 ビデオ放送が開催されます。



All Articles