ITMO大学ダイジェスト:データサイエンスに参加したい人のための資料

今日、私たちはあなたがデータサイエンスに精通することを可能にする最も興味深い文学的なソース、記事、ビデオコース、講義(ITMO大学の教師、学生、従業員の力によって準備されたものを含む)を収集しようとするダイジェストを用意しました。



これらの資料は、データ操作の理論的側面と、アルゴリズムの作成とプログラムの作成を目的とした実用的な側面の両方に影響します。



Flickr / Thierry Leclerc / CC



記事



データの操作は新しい科学です

科学データの量は驚くべき速度で増加しているため、新しい数学的方法と分析方法が必要です。 同時に、膨大な量の情報を収集して保存するだけでは不十分であり、適切に整理する必要があり、このためには特別な構造が必要です。 この記事は、科学者がデータを扱うための重要なアプローチをどのように実装するかについて説明しています。


機械学習リソースのリスト。 パート1

Stack OverflowおよびStack Exchangeの居住者が議論した有用な機械学習教材の適応された選択。 ロジスティック回帰、直接分布ニューラルネットワーク、自然言語処理、サポートベクトル法などのトピックに注意が払われます。


機械学習リソースのリスト。 パート2

有用な資料の適応された選択の2番目の部分:フレームワーク、プレゼンテーション、インタビュー、およびトピックに関するその他の資料。


コロンビアピクチャーズには何もわからない:IMDBデータから何がわかる

コンピューティング工学科の学生、ユーリ・ヴォルコフは、世界最大のIMDB映画情報リポジトリのデータセットをどのように分析し、どのような結論に至ったかを説明しました。


深層学習:小さな理論

人工知能を作成するために必要なものと、これに使用されるアルゴリズム。 問題の実装と解決の難しさ。


選択:初心者向けの機械学習のための70以上のソース

このリストは、Pythonを使用するなど、機械学習のトピックを学習し始めたばかりの人を対象としています。 ここでは、記事、コース、書籍、パッケージ、ツール、チャット、ディスカッションを見つけることができます。


データアナリストが使用する40のツールとテクニック

最も一般的な用語は、その意味とデータサイエンスの文脈での意味です。 リスト内の各アイテムは、他のいくつかのポータル記事へのリンクです。


文学



裸の統計。 最も退屈な科学に関する最も興味深い本 "

この本は、データ処理の専門家だけに適しているわけではありません。 統計分析の基本が含まれており、他の活動分野で役立ちます。 本の著者であるチャールズ・ウィーラン教授は、ユーモアと実例で、現象間の隠れた関係を見つけることを教えています。


統計:チュートリアル

この本は、ITMO大学の「統計学」分野のプログラムに従って開発されたもので、統計学とその応用に関する主要な方法論的および方法論的規定が含まれています。


ジャーナル「 情報技術、機械および光学の科学技術ジャーナル

この雑誌はITMO大学に基づいて発行されており、国内最古の科学雑誌の1つです。 統計データの詳細なトレーニングや分析など、コンピューターシステムと情報技術のトピックに関する多数の記事が含まれています。


データサイエンスの実行:最前線からのストレートトーク

この本は、コロンビア大学のコースに基づいており、回帰モデル、スパムフィルタリング、紹介マシン、ビッグデータなどのトピックを深く掘り下げることができます。


Think Stats:Pythonでの探索的データ分析

Think Statsは、実際のデータセットを調査するために使用できる簡単な手法に焦点を当てています。 国立衛生研究所のデータを使用した特定の例もここに示されています。


アルゴリズム。 開発ガイド

これは、効率的なアルゴリズムを開発するための最も包括的なガイドです。 本の最初の部分では、データ構造の種類、ソートアルゴリズム、組み合わせ検索の例、ヒューリスティック手法、および動的プログラミングについて説明します。 2番目のパートでは、著者は、既存のソフトウェア実装に関する最も一般的なアルゴリズムの問​​題のリファレンスと75のカタログのリストを投稿しました。


統計学習の要素:データマイニング、推論、および予測

この本にはPythonやRのコードは1行もありませんが、多くのグラフと数式があります。 教師、ニューラルネットワーク、決定木、サポートベクトル法、モデルのアンサンブルを使用した場合と使用しない場合の機械学習が含まれます。 スタンフォード大学のウェブサイトから無料でダウンロードできます。


アルゴリズム。 構築と分析

この本は、高速アルゴリズムやデータ構造から、多項式実行時間を備えたアルゴリズムや、部分文字列、計算幾何学、数論を見つけるための専用アルゴリズムまで、最新のアルゴリズムの全範囲を網羅する包括的な教科書です。


アルゴリズム。 開発とアプリケーション "

読者は最初に、アルゴリズムの構築の基本的な側面、基本的な概念と定義に精通し、次にアルゴリズムの構築方法、解決不可能性、および解決できない問題を解決する方法に進みます。 最も難しいトピックは、簡単な例で説明されています。


リーン分析

この本では、ビジネス環境でデータを使用する方法について説明しています。 彼女は、会社の作業プロセスを評価する際に1つの重要な指標に焦点を合わせることが重要である理由を教え、6種類のオンラインビジネスとそれぞれのデータ戦略についても語っています。


分析の教訓:13のケーススタディを含む無料の電子書籍

この電子版は、以前の本への一種の追加です。 Airbnb、Backupify、Sincerely、Swiffer、EMIなどの企業がデータをどのように扱うかについてのストーリーが含まれています。


I Heart Logs:イベントデータ、ストリーム処理、データ統合

この小さな本には60ページしかありませんが、データの収集と処理のプロセスの技術的な側面についての良いアイデアを提供します。 読者は、さまざまな企業のインフラストラクチャスペシャリストがどのデータを扱うかについても学びます。


コマンドラインでのデータサイエンス

この本は、データ分析の分野であなたの能力を拡大するように設計されています。 これは、コマンドラインを使用したデータ分析に関する情報を含む唯一の本でもあります。


Pythonとデータ分析

このセクションでは、Pythonでのデータの再フォーマット、クリーニング、処理について説明します。 また、Pythonでの科学データ処理アプリケーションの開発への現代の実用的な入門と考えることもできます。 この本は、広範囲の分析問題の効果的な解決に必要なPython言語の部分とそのライブラリについて書かれています。


Rが動作中。 言語Rのデータの分析と視覚化 "

実践に焦点を当てたR言語教育ガイド。 ここでは、統計データ処理の有用な例を示し、混乱したデータや不完全なデータを処理する方法について説明します。 彼女はまた、視覚的研究のためにデータを正しく提示する方法を読者に教えています。


Hadoop。 詳細ガイド »

Apache Hadoopは、MapReduceとして知られる計算パラダイムを実装するオープンソースフレームワークです。 この本では、信頼性が高くスケーラブルな分散システムを作成し、大規模なデータセットを処理するために、Hadoopの全機能を使用する方法を示します。


データサイエンスとビッグデータの基礎。 Pythonとデータサイエンス »

本書の各章は、データの分析と処理の最も興味深い側面の1つに当てられています。 理論的な基礎から始めてから、機械学習アルゴリズムに進み、巨大なデータ配列、NoSQL、ストリーミングデータ、詳細なテキスト分析、情報の視覚化を操作します。 多数の実用的な例では、Pythonスクリプトを使用しています。


ビデオコース



機械学習の詳細とロボットの習得:サインアップする価値のある10のオンラインコース

世界有数の企業や大学が提供する10のオンラインコースから選択できます。登録するには遅すぎることはありません。 プログラムは、MOOC(大規模なオープンオンラインコース)を試してみたかったが、今だけ決定した人に適しています。


グラフ理論の方法とアルゴリズム

コースの目的は、基本的な知識、スキル、および能力を形成して、実際のグラフタスクで最も重要かつしばしば遭遇する問題を解決することです。 オンラインコースの一部として、ビデオ講義が個々の部分の調査、演習、インタラクティブなデモンストレーション、仮想実験室とともに使用され、グラフ上のアルゴリズムによる問題解決のスキルを形成および制御します。








関数型プログラミング:基本コース

このコースでは、プログラミングへの関数型アプローチの基本と、Lispでのプログラミングの実際的な問題を探ります。 関数型言語には、プログラマーの視野を広げる多くの興味深い機能があります。


Webプログラミングと開発

コースの目的は、Pythonでの実際のプログラミングタスクで最も重要で頻繁に遭遇する基本的な知識、スキル、および能力を形成することです。 また、CMS Djangoを使用してシステムとアプリケーションを作成することに注意が払われます。 このコースは、無料のPython電子ブックで補完できます。


データ8:データサイエンスの基礎

このコースでは、プログラミングと統計分析の重要な概念とスキルを習得する機会を提供し、ソーシャルネットワークからの経済的、地理的、情報などの実際のデータセットを操作する機会を提供します。 コースで使用されるすべてのソフトウェアはオープンソースです。






Andrew Eunによる機械学習

スタンフォード大学のコンピューターサイエンス科学者であるAndrew Eunによる機械学習コース。 Andrewは、機械学習の原理を説明することから始め、その後、使用されるアルゴリズムと機能にスムーズに移行します。


ITMO大学のPS教師は、 幾何光学レオロジー管理などの他のトピックに関するオンラインコースを実施しています。 利用可能なコースの完全なリストはこちらでご覧いただけます



All Articles