🤜🏻 🖖 🙆🏽 HadoopKitchenへようこそ ☠️ ✡️ 🌪️

プログラマと他の多くのITスペシャリストの両方にとって興味深い新しいイニシアチブについて急いでお知らせします。来週の土曜日、9月27日、 HadoopKitchenの最初の会議がMail.Ruグループのモスクワオフィスで開催されます。なぜHadoopであり、なぜこの会議が非プログラマーにとって興味深いのか？

Hadoopはこのエコシステムの中心であり、それに関連する多数のプロジェクトとテクノロジーがあります。
多くの企業は、商用Hadoopディストリビューションに完全に依存しています。
Hadoopは、ほぼすべての主要な情報技術プロバイダーの製品ラインの一部であり、その関連性と人気を示しています。

最初のHadoopミーティングのプログラムは非常に波乱に富み、4人ものスピーカーが話します。全員が素晴らしい経験を持つ素晴らしいスペシャリストであり、聴衆と共有したいと考えています。カットの下で、イベントのプログラムとレポートの発表を読んでください。

イベントのプログラム ：

11:00登録とウェルカムコーヒー。

12:00 Alexey Filanovsky （Apache HadoopのCloudera認定開発者、Oracleシニアセールスコンサルタント）は、Hadoop v2の新しい興味深い機能について説明します。もちろん、これは簡単な説明を含むドライな列挙ではありません。Alexeyはこれらの機能を使用するためのさまざまなシナリオを分析し、同時に実践からいくつかの例を話します。

Hadoopエコシステムは飛躍的に人気を集めており、合成テストだけでなく、好奇心を満たすためだけでなく、企業の生産環境でも、Hadoopエコシステムを使用するユーザーが増えています。この事実は、製品の急速な発展を説明しています。より多くのユーザー、より多くの開発者への願い。このレポートの一部として、Hadoop v2に登場した主な機能が強調表示されます。

13:00 Nikita Makeev （データチームリード、IponWeb）は、最新のデータ形式AvroおよびParquetを使用してHadoop Streamingの機能を拡張する方法に関する特別な知識を聴衆に伝えます。

Javaを使用しないMap-Reduce、Avro、およびParquet。まあ、ほとんど。 Hadoopストリーミングは、特にHadoopをサドル化し、一般的に大量のデータをバッチ処理するための優れた方法です。 Javaを知る必要はほとんどありませんが、MapReduceの仕組みを大まかに理解するだけで、テキストの行を処理できるプログラミング言語で記述できます。 MapReduceで解決できるほとんどすべての問題は、Hadoopストリーミングでも解決できます。利点は明らかです-開発の容易さ、人員の問題なし、低エントリーコスト。

Hadoop Streamingの最も一般的な用途の1つは、テキストログまたはテキストとして表示されるその他のデータの処理です。ただし、テキストだけでなく、より複雑な形式が急速に普及しています。スクリプト言語を使用してデータを処理する機能を保持し、同時にAvroやParquetなどの最新のデータ形式が持つすべての利点を使用することは可能ですか？

一定量のJavaコードとJSONを接続リンクとして使用して、このタスクに対処します。いつものように、どこにでもニュアンス、特徴、そしてしばしば特別なユニークな「レーキ」があり、それについて議論します。

14:00 マキシム・ラパン （検索の主要プログラマー、Mail.Ru Group）は、HadoopクラスターがMail.Ru Groupでどのように管理されているかについての興味深いストーリーを語っています。スピーカーは、システムが開発および拡張されたときに開発チームの邪魔になった困難を通過しません。レポートは、過去3年間Mail.Ru Searchプロジェクトで使用されてきたHadoop / HBaseクラスターの運用の実際的な側面に焦点を当てます。この間、システムは30サーバーから400サーバー、ストレージボリュームは400TBから9PBに成長しました。対処すべきトピック：

ビッグトップを発明した方法：rpmパッケージアセンブリの構造とロジック、複数のクラスターのサポート、ユーザー作業、Hadoopコンポーネントの構成機能。
クラスターパフォーマンスの監視と分析：クラスターの動作を監視する方法、使用するメトリック。
Hadoop / HBaseの大規模なインストール管理の問題。

15:00昼食。戦争は戦争であり、昼食が予定されています。

ワールドカフェ形式の15:45から17:45まで、誰もがHadoop操作の最も差し迫った問題の共同定義と議論に参加できます。

18:00に、 Alexey Grishchenko （EMC CorporationのPivotal Enterprise Architect）が、アーキテクチャソリューションPivotal HAWQの特徴とニュアンスについて説明し、Hadoopとの対話についても話します。レポートには、次のトピックが含まれます。

HDFSのデータを操作するためのSQLインターフェイスを実装するソリューションの現在の市場での地位。最近、このトピックは非常に積極的に人気を得ており、これは主に企業部門でのHadoopの普及によるものです。このようなシステムが直面する主な既存のソリューションと基本的な問題について簡単に説明します。
Pivotal HAWQソリューションコンポーネントとHDFSとの相互作用。ここでは、DBMSがどのコンポーネントで構成されているか、クラスター上でどのように配置されているか、HDFSとどのように接続されているか、データを保存する方法について詳しく説明します
クエリ実行プロセスの詳細な分析。例として、単純な要求が与えられ、その実行のプロセスは、システムへの要求の受信からクライアントアプリケーションへのデータの返送までのステップで説明されます。また、ここでは、他のシステムと比較したHAWQのクエリ処理の特徴的な機能について簡単に説明します。
HDFSにデータを保存するためのカスタム形式、およびさまざまな外部システムへのアクセスを整理する可能性。ここでは、PXFフレームワークとそれを拡張する可能性について説明し、実装したコンポーネントの例を示します。
その他のHAWQの機会とさらなる開発の方向。 HAWQを使用してデータマイニングの問題を解決する可能性について説明するとともに、プラットフォームの開発方向と待ち望んでいる変更を強調します。

身分証明書を必ずご持参ください。厳格なセキュリティがあります。また、登録する必要があります。

HadoopKitchenへようこそ

More articles: