試験なしの修士課程へ:オリンピック「私はプロです」の新しい方向「ビッグデータ」

私たちは、独身者、修士、専門家のためのオリンピックについての話を続けています。「 私はプロです 」。 それは最強の大学によってサポートされています。 今日は、ITMO大学が監督する新しい競争の方向性、つまり「ビッグデータ」についてお話します。



ITMO大学の分野におけるオリンピアードのゼネラルパートナーは、「プログラミングとIT」、「情報とサイバーセキュリティ」、「 ビッグデータ 」-ズベルバンクです。





クリストフ・ショルツ / Flickr / CC BY-SA



「私はプロだ」というオリンピックに関する一言



オリンピアードは、さまざまな専門分野の学生を対象に開催されます。



今年、 54の指示が登録されました。数学、人工知能、ソフトウェアエンジニアリング、モノのインターネット、フォトニクスなどがあります。



参加する理由 。 受賞者試験なしでロシアの大学に入学し、オリンピックの主要パートナー企業であるYandex、Sberbank、MRGなどでインターンシップを受けることができます。 良い結果を示した生徒は冬の学校に通う機会があります。 そこで、業界の専門家に会うことができます。



参加の形式登録 -11月22日まで 11月24日から12月9日まで、オンライン予選ラウンドが開催されます。 主催者が承認したリストから少なくとも2つのオンラインコースを修了した人見逃すことがあります。 2019年2月に最終段階が開始されます。



彼らは国内の様々な大学で直接開催されます。 ITMO大学はオリンピアードの5つの分野を監督しています。 それらのいくつか、特にロボティクスについて以前に話しました。 今日、ビッグデータの方向性を想像してください。 これが今年のオリンピアードの目新しさです。



ビッグデータの方向:知っておくべきこと



世界はビッグデータに関する多くのイベントやセミナーを開催しています。



国際会議SIGMODSIGKDD、またはICMLに言及する価値があります。 私たちの国では、そのようなイベントがますます行われています。 たとえば、 DataFestRusbaseの Big Data Conference 、およびBig Dataの管理および分析技術に関する多数のmitaps。



ITMO大学もさまざまなイベントに参加し、独自のイベントを開催しています。 一連の会議YSC( Young Science Conference )、 ドイツGrefによる講演 、MRGで開催された最近の非公開ワークショップなど。 ビッグデータは、他の活動分野における新しいITシステムとソリューションの開発において重要な位置を占めています。 ITMO大学は、あらゆる分野でビッグデータテクノロジーのアプリケーションと開発に積極的に取り組んでいます。

たとえば、ITMO大学の高性能コンピューティング部門の従業員は、Exarchのセマンティック分散データウェアハウスを作成しました 。 データへの迅速なアクセスを提供し、データの処理を最適化します。 Exarchを使用すると、HDFSやCassandraなどのツールと比較して、単純なタスクを完了するのに必要な時間を半分にできます。
ビッグデータを扱う分野での大学の経験と科学的関心を考えると、プロジェクト「私はプロです」の枠組みの中でそのような方向を開く機会を逃すことはできませんでした。 アレクサンダー・ヴァレリエヴィッチ・ブハノフスキー 、技術科学博士、ITMO大学の放送情報技術の巨大学部長は、オリンピアードのこのコースを監督しています。 現在、彼と大学の大学院生を含むチームは、タスクを準備しています。



ビッグデータには、データ分析、統計、機械学習に加えて、分散コンピューティングとシステムテクノロジーが含まれています。 最初の方向は、数学と大量のデータを処理するアプローチに関連しています。 2つ目-分析プロセスの最適化を目的としたプログラミングと高性能コンピューティングを中心に構築されています。



参加者は、Yandex.Conestプラットフォームと最も一般的なプログラミング言語を使用して、ビッグデータを操作します。 これらは、Java、Scala、およびPythonです。



JavaとScalaは、 ETLとELTのデータエンジニアと呼ばれる専門家や、基本的なアルゴリズムの実装によりよく使用されます。 Pythonは、多くの場合、データサイエンティストと呼ばれる人たちのツールとして機能します。 同時に、これらの言語はすべて、現在ビッグデータを処理するための最も広く普及しているソリューションであるApache Sparkによってサポートされています。



通信段階では、プログラミングタスクは提供されないことに注意してください。 これは、Yandex.Contestサイトのいくつかの制限によるものです。処理のために実際のデータ配列を接続する方法はありません。 競技のフルタイムの段階までに、この瞬間は解決されます。



オリンピックの準備



参加者向けの特別プログラムが用意されており、専門分野の3つのウェビナーが含まれています。 講義は、主要な大学の教師によって行われ、オリンピックの課題の例を説明し、分析しています。



基本的なビッグデータの質問の1つの例を次に示します。
64ビットbmp形式のさまざまなラスター写真画像の大規模な配列は、単一のローカルネットワーク内の1000の独立したストレージノードに均等に分散されます。 これらのファイル上の顔の画像を選択するには、100個のコンピューティングノードを持つクラスターが使用されます。



すべてのノードで処理プロセスを1回開始すると、1つのノードと比較して、処理の加速はわずか52倍になります。 これは次のことを意味しますか?



  • A.クラスターが小さすぎるため、効率を上げるにはより多くのコンピューティングノードが必要です。
  • B.画像のサイズは異なります。このため、客観的には、より高い効率を達成することはできません。
  • A.ストレージとクラスター間の通信チャネルが弱すぎます。
  • G.まだ明確ではありません。 さまざまな構成で一連の追加実験を行う必要があります。


回答:D. 1つの測定に基づいて、条件によってはオプションAとBの両方が存在する可能性があるため、原因を特定することは不可能です。


Alexander Bukhanovskyによる講演:





2番目の講義は、ビッグデータ処理の技術的側面についてです。 ITMO大学NKT研究所の上級研究員であるAlexander Viseratinが実施:





一般的に、オリンピアードのタスクを解決するには、ビッグデータ処理の基本操作の根底にある典型的なメカニズムを研究する必要があります。 Apache SparkおよびApache Flinkフレームワークのパターン(シャッフルやブロードキャスト操作など)について話している。 Expectation-Maximizationなど、ビッグデータの機械学習に使用される反復アルゴリズムの作業を研究することは素晴らしいことです。 現代のCassandraまたはClickhouseストレージで使用されているデータ構造とデータストレージ組織の原則に関する知識は損なわれません。



また、ビッグデータ処理に関するYandexのコースに注意することをお勧めします。





ちなみに、これらのコースのうち2つを通過すると、「ビッグデータ」の方向に予選ラウンドを迂回して、オリンピックのフルタイムステージに直接進むことができます。



All Articles