📗 🤹🏼 🌜 機械学習フレームワークの選択 👨🏿‍✈️ 👨🏽‍🤝‍👨🏼 🏈

近年、機械学習は前例のない力の主流になりました。この傾向は、クラウド環境の安さだけでなく、そのような計算に使用される最も強力なビデオカードの可用性によっても促進されます-機械学習のためのフレームワークも多数あります。それらのほとんどはオープンソースですが、さらに重要なことは、これらのフレームワークは機械学習の最も困難な部分を抽象化するように設計されており、幅広いクラスの開発者がこれらの技術にアクセスしやすくすることです。カットの下には、過去1年間に最近作成および再設計された機械学習フレームワークの選択があります。英語でうまくやっているなら、オリジナルの記事はここから入手できます。

Apache Spark MLlib

Apache Sparkは、Hadoopファミリーに関与していることで最もよく知られています。しかし、このインメモリフレームワークはHadoopの外に登場しており、このエコシステムの外でも評判を獲得し続けています。 Sparkは、メモリ内のデータにすばやく適用できるアルゴリズムのライブラリが増えたことにより、使い慣れた機械学習ツールに進化しました。

Sparkは開発中に凍結されておらず、そのアルゴリズムは絶えず拡大および改訂されています。リリース1.5では、多くの新しいアルゴリズムが追加され、既存のアルゴリズムが改善されています。また、Pythonでは、数学および統計の問題を解決するためのメインプラットフォームであるMLlibのサポートが強化されています。 Spark 1.6では、とりわけ、継続的なパイプラインのおかげで、Spark MLタスクを一時停止および継続する機能が追加されました。

アパッチシンガ

「ディープラーニング」フレームワークは、自然言語の処理や画像認識など、機械学習の難しいタスクを解決するために使用されます。最近、 SingaオープンソースフレームワークがApacheインキュベーターに導入されました。これは、大量のデータに対するディープラーニングモデルのトレーニングを促進するように設計されています。

Singaは、マシンのクラスターに基づいたトレーニングネットワーク用のシンプルなソフトウェアモデルを提供し、畳み込みニューラルネットワーク、制限付きボルツマンマシン、リカレントニューラルネットワークなど、多くの標準タイプのトレーニングタスクもサポートしています。この問題に最適なモデルに応じて、モデルを同期的に（次々に）および非同期的に（一緒に）トレーニングできます。 Singaでは、 Apache Zookeeperを使用してクラスターを簡単にセットアップすることもできます。

カフェ

Caffeはディープラーニングフレームワークです。「表現力、スピード、モジュール性を期待して」作られています。当初、フレームワークはマシンビジョンプロジェクト用に作成されていましたが、それ以来進化し、音声認識やマルチメディアの操作など、他のタスクに使用されています。

Caffeの主な利点は速度です。フレームワークは完全にC ++で記述され、CUDAをサポートし、必要に応じて、プロセッサとビデオカードの間で処理フローを切り替えることができます。このパッケージには、標準の分類タスク用の無料のオープンソース参照モデルのセットが含まれています。また、多くのモデルがCaffeユーザーコミュニティによって作成されています。

Microsoft Azure ML Studio

機械学習に必要な膨大な量のデータと処理能力を考えると、クラウドはMLアプリケーションにとって理想的な媒体です。マイクロソフトは、Azureに独自の機械学習サービスを提供しています。このサービスについては、使用した事実のみを支払うことができます-Azure ML Studio。毎月および毎時バージョン、および無料（ティア）が利用可能です。特に、 HowOldRobotプロジェクトはこのシステムを使用して作成されました。

Azure ML Studioでは、モデルを作成およびトレーニングし、他のサービスを提供するためのAPIに変換できます。ユーザーアカウントごとに最大10 GBのストレージスペースを割り当てることができますが、独自のAzureストレージを接続することもできます。 Microsoftおよびサードパーティによって作成された幅広いアルゴリズムが利用可能です。サービスを試すには、アカウントを作成する必要もありません。匿名でログインするだけで、Azure ML Studioを8時間使用できます。

Amazon機械学習

Amazonには、クラウドサービスを提供する独自の標準的なアプローチがあります。最初に、関心のある対象者に基本機能が提供され、対象者がそこから何かを作成し、会社は本当に必要なものを見つけます。

Amazon Machine Learningでも同じことが言えます。このサービスは、Amazon S3、Redshift、またはRDSに保存されたデータに接続し、バイナリ分類、マルチクラス分類、および指定されたデータの回帰を実行してモデルを作成できます。ただし、このサービスはAmazonに関連付けられています。会社所有のストレージに保存されているデータを使用するだけでなく、モデルをインポートまたはエクスポートすることも不可能であり、トレーニング用のデータサンプルは100 GBを超えることはできません。それでも、これは最初から良いツールであり、機械学習が贅沢から実用的なツールに変わっていることを示しています。

Microsoft分散機械学習ツールキット

機械学習の問題を解決するために使用できるコンピューターが多ければ多いほど良いです。しかし、多数のマシンを組み合わせて、それらで効率的に実行されるMLアプリケーションを作成するのは困難な作業です。 DMTK （Distributed Machine Learning Toolkit）フレームワークは、さまざまなML操作をシステムのクラスター全体に分散する問題を解決するように設計されています。

DMTKはフレームワークであり、本格的なボックスソリューションではないため、少数のアルゴリズムが付属しています。ただし、DMTKアーキテクチャを使用すると、リソースを制限したクラスターから可能な限りすべてを圧縮できるだけでなく、拡張することができます。たとえば、各クラスターノードには独自のキャッシュがあり、タスクのオンデマンドパラメーターを提供する中央ノードとのデータ交換量を削減します。

Google TensorFlow

Microsoft DMTKと同様に、 Google TensorFlowは、クラスター全体にコンピューティングを分散するように設計された機械学習フレームワークです。 Google Kubernetesとともに、このフレームワークはGoogleの内部問題を解決するために開発されましたが、最終的に同社はオープンスイミング製品としてオープンソース製品としてリリースしました。

TensorFlowは、データの一部（「テンソル」）をグラフで記述された一連のアルゴリズムで処理できる場合、データフローグラフを実装します。システム内でデータを移動することを「ストリーム」と呼びます。グラフは、C ++またはPythonを使用して収集し、プロセッサまたはビデオカードで処理できます。 Googleには、サードパーティの開発者を通じてTensorFlowを開発するための長期計画があります。

Microsoft計算ネットワークツールキット

DMTKに続いてMicrosoftは、機械学習用の別のツールキットCNTKをリリースしました。

CNTKはGoogle TensorFlowに似ており、有向グラフを使用してニューラルネットワークを作成できます。 Microsoftは、このフレームワークをCaffe、Theano、Torchなどの製品と比較しています。その主な利点は、特に複数のプロセッサとビデオカードの並列使用に関しては速度です。 Microsoftは、CNTKをAzureベースのGPUクラスターと組み合わせて使用すると、Cortanaの仮想アシスタントによる音声認識のトレーニングをスピードアップできると主張しています。

当初、CNTKは音声認識研究プログラムの一部として開発され、オープンソースプロジェクトとして提供されていましたが、その後、より自由なライセンスの下でGitHubでCNTKを再リリースしました。

Veles（サムスン）

Velesは、ディープラーニングアプリケーションを作成するための分散プラットフォームです。 TensorFlowやDMTKと同様、C ++で記述されていますが、Pythonはノードの自動化と調整に使用されます。データサンプルのクラスターに供給される前に、それらを分析して自動的に正規化できます。 REST APIを使用すると、トレーニング済みのモデルを作業プロジェクトですぐに使用できます（十分に強力な機器がある場合）。

VelesでPythonを使用することは、「スティッキーコード」を超えています。たとえば、データを視覚化および分析するためのツールであるIPython（現在のJupyter）は、Velesクラスターからデータを出力できます。サムスンは、オープンソースのステータスがさらなる製品開発を促進し、WindowsおよびMac OS Xへの移植に役立つことを望んでいます。

ブレインストーミング

Brainstormプロジェクトは、スイス研究所IDSIA（人工知能研究所Dalle Molle ）の大学院生によって開発されました。「ディープラーニングニューラルネットワークをより速く、より柔軟に、より面白くするために」作成されました。すでにさまざまなリカレントニューラルネットワーク、たとえばLSTMのサポートがあります。

BrainstormはPythonを使用して2つの「ハンドラー」を実装します。データ管理API：Numpyライブラリを使用したプロセッサーコンピューティング用と、CUDAを使用したビデオカード用です。ほとんどの作業はPythonスクリプトで行われるため、自分で何かを台無しにしない限り、豪華なフロントエンドインターフェイスを期待しないでください。しかし、著者は「以前のオープンソースプロジェクトから学び」、「さまざまなプラットフォームおよびコンピューティングバックエンドと互換性のある新しい設計要素」を使用するための広範な計画を持っています。

mlpack 2

多くの機械学習プロジェクトは、2011年に作成され、「使用を拡大、高速化、簡素化」するように設計されたC ++ライブラリであるmlpackを使用します。 mlpackを実装して、コマンドライン経由で実行されるファイルのキャッシュを使用する「ブラックボックス」などのホイップアップ操作を実行したり、C ++ APIを使用してより複雑なタスクを実行したりできます。

mlpack 2.0では、新しいアルゴリズムのリファクタリングと実装、処理、高速化、非効率的な古いアルゴリズムの削除に関して多くの作業が行われました。たとえば、ネイティブC ++ 11乱数生成関数の場合、Boostライブラリジェネレーターは除外されました。

mlpackの長年の欠点の1つは、C ++を除く他の言語のバインダーがないことです。したがって、これらの他の言語で作成するプログラマーは、誰かが適切なラッパーをロールするまでmlpackを使用できません。 MATLABサポートが追加されましたが、そのようなプロジェクトは、機械学習が使用される主要な環境で直接役立つ場合に最も役立ちます。

マービン

別の比較的新鮮な製品。 Marvinは、Princeton Vision Groupによって作成されたニューラルネットワークフレームワークです。 C ++で記述されたいくつかのファイルとCUDAフレームワークに基づいています。最小限のコードにもかかわらず、Marvinには、プロジェクト自体のコードのように、適切な引用で使用し、プル要求を使用して実装できる事前トレーニング済みのモデルが多数付属しています。

ネオン

Nervanaは、ディープラーニング用のソフトウェアおよびハードウェアプラットフォームを作成しています。そして、オープンソースプロジェクトとして、 Neonフレームワークを提供します。プラグインの助けを借りて、Nervanaが作成したプロセッサ、グラフィックスカード、または機器で重いコンピューティングを実行できます。

NeonはPythonで書かれており、C ++とアセンブラーでいくつかの部分があります。したがって、Pythonで科学的な作業を行っている場合、またはPythonバインダーを持つ他のフレームワークを使用している場合は、すぐにNeonを使用できます。

結論として、もちろん、これらはすべての一般的なフレームワークとはほど遠いことを言いたいと思います。ビンにはお気に入りのツールがたくさんあります。この記事へのコメントで発見事項を共有してください。

機械学習フレームワークの選択