👸🏽 👨🏿 👨🏼‍💼 Azure MLを使用して、Data ScienceのMail.ruから「最初のオープンコンテスト」を解決します（Azure MLの紹介） 🌷 🐘 ☑️

現在、 ML Boot Campコンテストが行われています。この問題は、マトリックスサイズが異なる他のコンピューターシステムで正確にこの問題が解決されたことがわかっている場合（正確なルール）、このコンピューターシステムでサイズmkおよびkxnの2つのマトリックスが乗算される時間を予測する必要があります。標準のツールやライブラリ（R、Python、およびpanda）ではなく、Microsoftのクラウド製品であるAzure MLを使用して、この回帰の問題を解決してみましょう。私たちの目的には、無料のアクセスが適切であり、試用版のAzureアカウントで十分です。実際のタスクを解決する例を使用して、一般的にAzure ML、特にML Studioのセットアップと使用に関するクイックガイドを入手したい人は誰でもcatに招待されます。

データソースの作成

ML Studioを開きましょう：

新しい実験を1つ作成し（Azure MLに関しては、入力データの読み取りから回答の受信まで、問題に対する完全なソリューションを表します。その後、Webサービスに変換できます）、入力データを表す2つの新しいデータソース（データセット）を作成します記号、値用）。 ML Boot Camp csv Webサイトからトレーニングサンプルファイル（x_train.csvおよびy_train.csv）をダウンロードします。データソースを追加するには、左側のメニューで[データセット]項目を選択し、左下隅の[新規]をクリックする必要があります。このウィンドウが表示されます。

x_train.csvファイルへのパスを指定し、このデータソースにx_trainという名前を付けます。また、y_trainデータソースを作成します。これで、これらのデータソースの両方が[データセット]タブに表示されます。

実験の作成、特性の選択

実験を作成します。このために、左側のメニューで「実験」項目を選択し、左下の「新規」をクリックして、「ブランク実験」を選択します。一番上の行で、適切な名前を付けることができます。その結果、データサイエンスの操作に次の範囲が適用されます。

ご覧のとおり、左側には、データの入力と出力、列の選択、回帰のさまざまな方法、分類など、実験に追加できるすべての可能な操作をリストしたメニューがあります。それらのすべては、異なる操作を一緒にドラッグアンドドロップするだけで、実験に追加されます。

次に、タスクの入力として使用するものを表示する必要があります。左側のメニューで、一番上の項目「保存されたデータセット」、次に「マイデータセット」を選択します。リストで作成したデータソース「x_train」と「y_train」を選択し、実験のワークスペースにドラッグします。

すべてのAzure MLメソッドは1つのテーブル（データフレーム）で機能するため、これら2つのデータソースの列を結合する必要があります。このテーブルでは、トレーニング値である列を指定する必要があります。これを行うには、列の追加モジュールを使用します。ヒント：モジュールを検索すると、キーワードでモジュールを検索したり、そのようなモジュールがまだ存在しないことを確認したりできます。「列の追加」操作をワークスペースにドラッグし、データ入力用の2つの上位ポイントをそれぞれデータソースx_trainおよびy_trainに接続します。この操作にはパラメーターがないため、追加で構成する必要はありません。取得するもの：

データがどのように見えるかを確認します。一番下の行にある[実行]ボタンをクリックして、実験を実行します。実験が正常に完了したら、「列の追加」操作の出力をクリックして、「視覚化」アクションを選択できます。

プロパティウィンドウでは、各特性の列、最初の行、平均、中央値、ヒストグラムなどを確認できます。テーブルには952列（記号）があり、そこから重要な列（問題の解決に役立つ列）を選択する必要があります。機能の選択は、Data Scienceで最も複雑で非決定的な操作の1つであるため、簡単にするために、一見重要ないくつかの機能を選択します。これを行うのに役立つモジュールは、データセットの列の選択と呼ばれます。ワークスペースに追加し、「列の追加」操作に接続します。ここで、「データセットの列を選択」パラメーターで、残すサインを指定します。これを行うには、「データセットの列を選択」モジュールを選択し、右側のペインのプロパティで「列セレクターを起動」をクリックします。

ここで、残したい列の名前を追加します（これは列の最適な選択ではありません）。「時間」列を追加することを忘れないでください：

実験を再度実行し、選択した列のみが結果の表に残るようにしてください。データを準備する最後のステップ：データを70:30の割合でトレーニングサンプルとテストサンプルに分割します。これを行うには、ワークスペースで「Split Data」モジュールを見つけて配置し、その設定で「最初の出力データセットの行の割合」を0.7に設定します。取得するもの：

アルゴリズムを使用する

これで、最終的に何らかの回帰方法を使用する準備が整いました。メソッドは左側のメニューにリストされています：機械学習、モデルの初期化、回帰：

最初に、決定木フォレストの方法、「決定フォレスト回帰」を試してみましょう。これをワークスペースとモジュール「Train model」に追加します。このモジュールには2つの入力があります。1つはアルゴリズム（この例では「Decision Forest Regression」）に接続され、もう1つはトレーニングサンプルのデータ（「Split Data」モジュールの左出力）に接続されます。実験は次のようになります。

「Train model」モジュールの赤い円は、調整していない必須パラメーターがあることを示しています。予測しようとしているサインを示す必要があります（この場合、これは時間です）。「列セレクターを起動」をクリックして、単一の時間列を追加します。メソッド自体にはデフォルト設定があり、手動で再構成しなくても開始できることに注意してください。もちろん、良い結果を得るには、各メソッドに固有のパラメーターのさまざまな組み合わせを試す必要があります。これで実験を開始でき、樹木の森が構築され、すでにおなじみのVisualizeウィンドウを呼び出して表示することもできます。モデルをトレーニングした後、初期データの30％を表すテスト（検証）サンプルでモデルをテストするとよいでしょう。これを行うには、「スコアモデル」モジュールを使用して、最初の入力を「トレーニングモデル」モジュール（トレーニングモデル）の出力に接続し、2番目を「スプリットデータ」モジュールの2番目の出力に接続します。一連の操作は次のようになります。

実験を再度実行して、「スコアモデル」の出力を確認できます。

「スコア付きラベル平均」（予測値の平均）と「スコア付きラベル標準偏差」（実際の値からの予測値の標準偏差）という2つの新しい列が追加されました。予測値と実際の値（図に表示）の散布図（散布図）を作成することもできます。ここで、「スコアモデル」モジュールに接続されている「モデルの評価」モジュールを使用して、その精度を確認します。

Evaluate Modelモジュールの出力には、絶対誤差および相対誤差など、テストデータのメソッドの精度に関する情報が含まれています。

もちろん、この方法は完全ではありませんが、まったく設定していません。

新しいメソッドの追加とメソッドの比較

決定木に基づいた別の方法、「ブーストされた決定木回帰」を試してみましょう。最初の方法と同じように、「Train Model」および「Score Model」モジュールを追加し、実験を開始して、新しい方法の「Score Model」モジュールの出力を確認します。予測値を表す「スコア付きラベル」という列が1つだけ追加されていることに注意してください。そのための散布図も作成できます。

次に、既に追加されているモデルの評価モジュールを使用して、これら2つのメソッドの精度を比較します。このため、2番目のメソッドのスコアモデルの出力に正しい入力を接続します。その結果、次の一連の操作を取得します。

Evaluate Modelモジュールの出力を見てみましょう。

これで、メソッドを互いに比較し、（タスクに必要な意味で）精度が高いメソッドを選択できます。

実際のデータで問題を解決します

私たちは方法を訓練し、その正確さを知っています-それは戦いでそれらをテストする時です。 x_test.csvファイルをダウンロードします。このファイルには、行列乗算の時間を予測する必要があるデータが含まれています。訓練された方法を使用するには、次のものが必要です。

x_testという名前の新しいデータソースとファイルx_test.csvからのデータを追加します。
新しいx_testデータソースを実験ワークスペースにドラッグします。
ここで、トレーニングに参加した列のみを残し、「データセットの列を選択」モジュールをコピーし、列のリストから「時間」列を削除する必要があります（テストデータにないため）。
これで、準備済みのデータに対してトレーニング済みメソッドを実行できます。これには、「スコアモデル」操作を追加し、その最初の入力をBoosted Decision Tree RegressionメソッドのTrain Modelモジュールの出力に接続し、2番目の入力を選択したばかりのSelect Columnsの出力に接続しますデータセット内。」
今では、ML Boot Camp Webサイトのソリューションとしてダウンロードできる形式にデータを持ってくるだけです。これを行うには、別の「データセットの列を選択」モジュールを追加します。このモジュールでは、予測された「スコア付きラベル」値のみを選択し、「CSVに変換」モジュールを出力に追加します。

その結果、次の実験が得られます。

「CSVに変換」モジュールの出力をクリックし、「ダウンロード」を選択して、結果のcsvファイルをダウンロードできます。結果のcsvから（名前を持つ）最初の行を削除し、ML Boot Camp Webサイトにアップロードします。動作します！しかし、精度は貧弱です。

さらなる最適化

回帰の精度を向上させるのに役立ついくつかのモジュールを検討してください。

左側のメニューにあるさまざまな方法を試してください。
（プロパティに設定されているいくつかの異なる方法を使用して）最大の予測能力を持つ機能を選択しようとするフィルターベースの機能選択モジュールは、機能の選択に役立ちます。このモジュールは、データセットモジュールの列の選択の代わりに追加されます。
既に学習済みのモデルでどの機能がより役立つかを評価するには、学習済みモデルと一連のテストデータを入力パラメーターとして使用するPermutation Feature Importanceモジュールが役立ちます。
「Tune Model Hyperparameters」モジュールは、メソッドパラメーターを選択するのに役立ちます。これにより、さまざまなパラメーターセットで開始される特定のメソッド数が実行され、各実行の精度が表示されます。
重火器として、「Rスクリプトの実行」および「Pythonスクリプトの実行」モジュールを使用して、RおよびPythonスクリプトを使用できます。

おわりに

Azure MLが好きです。AzureMLを使用すると、問題の解決策をすばやくプロトタイプ化して、そのソリューションのカスタマイズと最適化を掘り下げることができます。

実験はギャラリーに投稿され、次のアドレスのすべての参加者に公開されています： gallery.cortanaintelligence.com/Experiment/ML-Boot-Camp-from-Mail-ru-1

コンテストに参加してください！ 0.1未満のMAPEエラーを受け取ることができる人は誰でも書いてください。著者は喜んでいます。

Azure MLを使用して、Data ScienceのMail.ruから「最初のオープンコンテスト」を解決します（Azure MLの紹介）