👆🏻 ✊🏼 📱 スポーツデータ分析、またはデータサイエンスのスペシャリストになる方法 🕵🏾 ⛵️ 🌶️

私の名前はピーター・ロモフです。私はYandex Data Factoryのデータ科学者です。この投稿では、データ分析のキャリアを始めるための比較的シンプルで信頼できる方法を提供します。

あなたの多くは、おそらくKaggleを知っているか、少なくとも聞いたことがあるでしょう。聞いたことがない人向け：Kaggleは、企業が予測モデルを作成するためのコンテストを開催するプラットフォームです。その人気は非常に高く、多くの場合、「カグス」の専門家は競争そのものを理解しています。各コンペティションの勝者は、主催者によって指定されたメトリックに従って自動的に決定されます。とりわけ、Kaggleはさまざまな時点でFacebook、Microsoft、および現在のサイト所有者である Googleによってテストされています。 Yandexも数回チェックしました。原則として、Kaggleコミュニティには現実に非常に近い問題を解決する機会が与えられます。一方で、競争を面白くし、他方で堅実な仕事を持つ雇用者として会社を促進します。ただし、競争を組織している会社がそのサービスの勝者の1人のアルゴリズムを含んでいると言われた場合、それを信じないでください。通常、上からのソリューションは複雑すぎて十分に生産的ではなく、実際にはメトリック値の1000分の1を追いかける必要はありません。したがって、主催者は、アルゴリズムのアプローチとイデオロギーの部分により関心を持っています。

Kaggleだけがデータ分析の競争相手ではありません。他にもあります： DrivenData 、 DataScience.net 、 CodaLab 。さらに、コンテストは機械学習に関連する科学会議の枠組みで開催されます：SIGKDD、RecSys、CIKM。

解決策を成功させるには、一方で理論を研究し、他方でさまざまなアプローチとモデルの使用を実践する必要があります。言い換えれば、「カグス」に参加することで、データ分析が可能になります。問題は、それらに参加する方法を学ぶことです。

3年前、数人のSHADの学生が集まり、Kaggleから取得したタスクを含むさまざまな興味深いタスクを解決し始めました。たとえば、これらの人たちの中には、現在の2位の勝者であり、Kaggle評価の最近のリーダーである Stanislav Semenovがいました。時間の経過とともに、会議は機械学習トレーニングと呼ばれました。彼らは人気を獲得し、参加者は定期的に賞品を受け取り、お互いの決定について話し合い、経験を共有し始めました。

トレーニングで正確に何をするかを明確にするために、いくつかの例を挙げます。各例では、最初にストーリーのあるビデオがあり、次にビデオに基づいたテキストがあります。

車の画像を分類するタスク

MachineLearning.ruへのリンク。

昨年、Avitoは多くのコンテストを開催しました。 含む-車のブランドの認識のための競争、その勝者、Yevgeny Nizhibitskyは、トレーニング中の彼の決定について話しました。

問題の声明 。車の画像から、メーカーとモデルを決定する必要があります。メトリックは、予測の精度、つまり正解の割合でした。サンプルは3つの部分で構成されていました。最初の部分は最初にトレーニングに使用でき、2番目は後で与えられ、3番目は最終的な予測を表示するために必要でした。

コンピューティングリソース 。私はこの間ずっと部屋を暖房していたホームコンピューターと職場で提供されているサーバーを利用しました。

モデルの概要 。私たちのタスクは認識なので、最初に利用したいことは、よく知られているImageNetでの画像分類品質のレベルの向上です。ご存知のように、現代建築は人間よりもさらに高い品質を達成できます。そこで、最近の記事のレビューから始めて、ImageNetに基づいたアーキテクチャ、実装、および品質の要約表をまとめました。

InceptionおよびResNetアーキテクチャで最高の品質が達成されることに注意してください。

ネットワークの微調整 。ディープニューラルネットワークをゼロからトレーニングすることは、かなり時間がかかる作業であり、結果の点で必ずしも効果的ではありません。したがって、ネットワークの再トレーニング手法がよく使用されます：ImageNetで既にトレーニングされたネットワークが取得され、最後のレイヤーが必要なクラス数のレイヤーに置き換えられ、その後、ネットワークは低い学習率で構成され続けますが、競合からのデータを使用します。このスキームにより、ネットワークをより速く、より高品質にトレーニングできます。

最初のGoogLeNet再トレーニングアプローチは、検証中に約92％の精度を示しました。

作物の予測 。ニューラルネットワークを使用してテストサンプルを予測すると、品質が向上します。これを行うには、元の画像のさまざまな場所で適切なサイズのフラグメントを切り取り、結果を平均します。 1x10のクロップは、画像の中心、4つの角が撮影され、すべてが同じであるが、水平に反映されることを意味します。ご覧のとおり、品質は向上していますが、予測時間は増加しています。

結果の検証 。サンプルの2番目の部分が表示された後、サンプルをいくつかの部分に分割しました。それ以降の結果はすべてこのパーティションに表示されます。

ResNet-34トーチ 。アーキテクチャ作成者の既製のリポジトリを使用できますが、適切な形式でテストの予測を取得するには、いくつかのスクリプトを修正する必要があります。さらに、ダンプによる大量のメモリ消費の問題を解決する必要があります。検証の精度は約95％です。

Inception-v3 TensorFlow ここでは、既製の実装も使用されましたが、画像の前処理が変更され、バッチの生成時に画像の切り取りも制限されました。結果はほぼ96％の精度です。

モデルのアンサンブル 。結果は、2つのResNetモデルと2つのInception-v3モデルです。モデルを混合することにより、検証中にどのような品質が得られますか？クラスの確率は、幾何平均を使用して平均化されました。遅延サンプルで重み（この場合は度）が選択されました。

結果 GTX 980のResNetトレーニングには60時間かかりましたが、TitanXのInception-v3には48時間かかりました。コンテスト中に、新しいアーキテクチャを備えた新しいフレームワークを試すことができました。

銀行の顧客を分類するタスク

Kaggleへのリンク。

スタニスラフ・セメノフは、彼と他のKaggleトップの参加者がどのように協力し、大手銀行BNPパリバの顧客からのアプリケーションを分類するコンテストで賞を獲得したかを語ります。

問題の声明 。保険申請からの難読化されたデータによると、追加の手動チェックなしで要求を確認できるかどうかを予測する必要があります。銀行にとって、これはアプリケーションの処理を自動化するプロセスであり、データアナリストにとっては、バイナリ分類による機械学習のタスクにすぎません。約23万のオブジェクトと130の標識があります。メトリック-LogLoss 。勝ったチームがデータを解読し、彼らが競争に勝つのを助けたことは注目に値します。

標識の人工ノイズを取り除く 。最初に行うことは、データを見ることです。いくつかのことがすぐに明らかになります。まず、すべての記号は0〜20の値を取ります。次に、記号の分布を見ると、次の図を見ることができます。

なぜそう事実、匿名化とノイズの多いデータの段階で、ランダムノイズがすべての値に追加され、その後0から20までのセグメントに対してスケーリングが実行されました。逆変換は2段階で実行されました。。ツリーが分割時にまだしきい値を選択する場合、これは必要でしたか？はい、逆変換後、変数の違いがより意味を持ち始め、カテゴリ変数の場合、ワンホットコーディングを実行できるようになります。

線形依存機能の削除 。また、いくつかの兆候は他の兆候の合計であることに気付きました。それらが不要であることは明らかです。その決定のために、特徴のサブセットが取られました。回帰は、他の変数を予測するために、そのようなサブセットに基づいて構築されました。予測値が真に近い場合（人工ノイズを考慮する価値がある場合）、符号を削除できます。しかし、チームはこれを気にせず、既成のフィルターされた属性のセットを利用しました。キットは他の誰かによって準備されました。 Kaggleの機能の1つは、参加者が調査結果を共有するためのフォーラムと公開ソリューションの存在です。

使用するものを理解する方法は？ 小さなハックがあります。古い大会の誰かが高い地位を獲得するのに役立つテクニックを使用したことを知っているとしましょう（簡単な決定は通常フォーラムで書かれています）。現在の大会でこの参加者が再びリーダーになった場合、おそらく同じテクニックがここで撮影されます。

カテゴリー変数のコーディング 。特定の変数V22に多数の値が含まれているのは印象的でしたが、同時に、特定の値のサブサンプルを取得すると、他の変数のレベル（さまざまな値）の数が著しく減少します。特に、ターゲット変数と良好な相関関係があります。何ができますか？最も簡単な解決策は、V22値ごとに個別のモデルを構築することですが、これは、ツリーの最初の分割で変数のすべての値を分割することと同じです。

受信した情報を使用する別の方法があります-ターゲット変数の平均値をエンコードします。つまり、カテゴリ変数の各値は、この属性が同じ値をとるオブジェクトのターゲットの平均値に置き換えられます。このようなコーディングをトレーニングセット全体に対して直接行うことは不可能です。このプロセスでは、ターゲット変数に関する情報を属性に暗黙的に導入します。ほとんどすべてのモデルが必ず検出する情報について話している。

したがって、そのような統計は折り畳みの場合に考慮されます。以下に例を示します。

データが3つの部分に分割されているとします。トレーニングサンプルの各フォールドについて、他の2つのフォールドの新しい機能と、トレーニングセット全体のテストサンプルについて検討します。これにより、ターゲット変数に関する情報はサンプルにそれほど明示的に入力されず、モデルは取得した知識を使用できるようになります。

他に何か問題がありますか？はい-まれなカテゴリーと相互検証付き。

まれに遭遇するカテゴリ 。特定のカテゴリが数回しか発生せず、対応するオブジェクトがクラス0に属しているとします。ターゲット変数の平均値もゼロになります。ただし、テストサンプルではまったく異なる状況が発生する場合があります。解は平滑化された平均（または平滑化された尤度）であり、次の式で計算されます。

ここで、グローバル平均はサンプル全体にわたるターゲット変数の平均値、nrowsはカテゴリ変数の特定の値に遭遇した回数、alphaは正則化パラメーター（10など）です。ある値がまれな場合、グローバル平均の重みが大きくなり、十分な場合、結果はカテゴリの初期平均に近くなります。ところで、この式を使用すると、カテゴリ変数の以前は未知の値を処理することもできます。

相互検証 他のフォールドのカテゴリ変数の平滑化された平均をすべて計算したとします。標準的な交差検証kフォールドによってモデルの品質を評価できますか？いや例を見てみましょう。

たとえば、3番目の分割でモデルを評価したいとします。最初の2つのフォールドでモデルをトレーニングしますが、3番目のテストフォールドを使用して計算する際に、ターゲット変数の平均値を持つ新しい変数があります。これにより、結果を正しく評価することはできませんが、発生した問題は、フォールド内のフォールドの統計をカウントすることで解決されます。もう一度例を見てみましょう。

まだ3番目のモデルを評価したいです。最初の2分割（推定のトレーニングサンプル）を他の3分割に分割し、それらで既に分析されたシナリオに従って新しい符号を計算し、3分割（これは推定のテストサンプルです）で最初の2分割を一緒に計算します。そうすれば、モデルをトレーニングするときに3番目のフォールドからの情報は使用されず、評価は正直になります。私たちが議論している競争では、そのような相互検証のみがモデルの品質を正しく評価することができました。もちろん、「外部」および「内部」の折り畳みの数は任意です。

標識の作成 。既に述べたターゲット変数の平滑化された平均値だけでなく、証拠の重みも使用しました。これはほとんど同じですが、対数変換されます。さらに、正規化を行わないグループ内のポジティブクラスとネガティブクラスのオブジェクトの数の差という形式の機能が有用であることが判明しました。直感は次のとおりです。スケールはクラスに対する自信の度合いを示しますが、量的属性をどうするか？実際、それらが同様の方法で処理されると、すべての値はグローバル平均の正規化で「詰まる」ことになります。 1つのオプションは、値をビンに分割することです。ビンは、別々のカテゴリーと見なされます。別の方法は、同じターゲットを使用して、同じ記号で特定の線形モデルを作成することです。合計で、フィルター処理された80のサインのうち約2000のサインが判明しました。

スタッキングとブレンド 。ほとんどの競争と同様に、ソリューションの重要な部分はモデルのスタックです。要するに、スタッキングの本質は、あるモデルの予測をサインとして別のモデルに転送することです。ただし、再度トレーニングしないことが重要です。例を見てみましょう。

Alexander Dyakonovのブログから改編

たとえば、サンプルをスタッキングステージで3つに分割することにしました。統計と同様に、2つのフォールドでモデルをトレーニングし、残りのフォールドの予測値を追加する必要があります。テストサンプルでは、フォールドの各ペアからモデルの予測を平均できます。各スタッキングレベルは、既存のデータセットに基づくモデルの新しい機能予測のグループを追加するプロセスです。

最初のレベルでは、チームには200〜250の異なるモデルがあり、2番目のレベルではさらに20〜30、3番目のモデルではさらにいくつかありました。その結果、ブレンド、つまり異なるモデルの予測が混合されます。さまざまなアルゴリズムが使用されました：さまざまなパラメーターを使用した勾配ブースティング、ランダムフォレスト、ニューラルネットワーク。主なアイデアは、たとえ最高の品質が得られない場合でも、さまざまなパラメーターを持つ最も多様なモデルを適用することです。

チームワーク 通常、参加者は全員がすでに自分の成果を持っている場合、競技の終了前にチームに参加します。私たちは最初から他のKeglersとチームを組みました。各チームメンバーには、データセットとスクリプトをホストする共有クラウドにフォルダーがありました。一般的な相互検証手順は、相互に比較できるように事前に承認されています。役割は次のように分配されました。私は新しい兆候を思いつき、2番目の参加者がモデルを構築し、3番目がモデルを選択し、4番目がプロセス全体を制御しました。

力を得る場所 。ラップトップを使用している場合、多数の仮説のテスト、マルチレベルのスタッキングおよびトレーニングモデルの構築には時間がかかりすぎる可能性があります。したがって、多くの参加者は、多数のコアとRAMを備えたコンピューティングサーバーを使用します。私は通常、 AWSサーバーを使用しており、チームメンバは、結局のところ、仕事中にマシンが使用されていない間、競争のためにマシンを使用しています。

主催会社とのコミュニケーション 。競技会で成功したパフォーマンスの後、会社とのコミュニケーションは共同電話会議の形で行われます。参加者は自分の決定について話し、質問に答えます。 BNPでは、人々はマルチレベルのスタッキングに驚くことはありませんでしたが、もちろん、属性の構築、チームでの作業、結果の検証に興味がありました-自分のシステムを改善するのに役立つすべてのもの。

データセットを復号化する必要がありますか？ 優勝チームは、データに1つの特徴があることに気付きました。一部の機能には値がありますが、そうでないものもあります。つまり、一部の特性は特定の人々に依存していませんでした。さらに、360の一意の値が取得されました。特定のタイムスタンプについて話していると仮定するのは論理的です。そのような2つの符号の差を取り、それに従ってサンプル全体をソートすると、最初のゼロがより頻繁に、次に1がより多くなることが判明しました。それが勝者が利用したものです。

私たちのチームは3位になりました。合計で、ほぼ3,000のチームが参加しました。

広告カテゴリ認識タスク

DataRingへのリンク。

これは別のAvitoコンテストです。 それはいくつかの段階を経て、最初の段階（ついでに、3番目の段階としても）はArthur Kuzin N01Z3が勝ちました。

問題の声明 。広告の写真から、カテゴリを決定する必要があります。各広告は1〜5個の画像に対応していました。メトリックは、階層のさまざまなレベルでのカテゴリの一致を考慮しました-一般的なものからより狭いものまで（最後のレベルには194個のカテゴリが含まれます）。合計で、トレーニングセットにはほぼ100万の画像があり、これはImageNetのサイズに近いものです。

認識の困難 。テレビと車を区別し、車と靴を区別する方法を学ぶ必要があるように思えます。しかし、たとえば、「イギリスの猫」というカテゴリがあり、「他の猫」があり、それらの中には非常によく似た画像があります-それでもそれらを互いに区別することはできます。タイヤ、ホイール、ホイールはどうですか？ここでは、人間は対処できません。指摘された難しさは、すべての参加者の結果の特定の制限の出現の理由です。

リソースとフレームワーク 。強力なグラフィックカードを備えた3台のコンピューターを自由に使用できました。MIPTの研究所が提供するホームコンピューターと職場のコンピューターです。そのため、複数のネットワークを同時にトレーニングすることが可能でした（そして必要でした）。 MXNetは、有名なXGBoostを書いた同じ人たちによって作成された、ニューラルネットワークをトレーニングするためのメインフレームワークとして選ばれました。これだけでも、新製品を信頼する機会となりました。 MXNetの利点は、標準の拡張機能を備えた効率的なイテレーターがすぐに利用できることです。これはほとんどのタスクに十分です。

ネットワークアーキテクチャ 。過去のコンテストの1つに参加した経験から、Inceptionシリーズのアーキテクチャが最高の品質を示していることがわかりました。ここで使用しました。 GoogLeNetは、モデルのトレーニングを加速するため、バッチの正規化を追加しました。また、 Model Zooモデルのモデルの Inception-v3およびInception BNアーキテクチャも使用されました。これには、最後に完全に接続されたレイヤーの前にドロップアウトが追加されました。技術的な問題により、確率的勾配降下を使用してネットワークをトレーニングすることはできなかったため、Adamはオプティマイザーとして使用されました。

データ増強 。ネットワークの品質を向上させるために、データの多様性を高めるために、歪んだ画像をサンプルに追加するという拡張機能が使用されました。写真の誤った切り取り、反射、小さな角度での回転、アスペクト比の変更、シフトなどの変換が含まれていました。

学習の正確さと速度 。最初はサンプルを3つの部分に分割しましたが、モデルを混合するための検証手順の1つを放棄しました。したがって、その後、サンプルの2番目の部分がトレーニングセットに追加され、ネットワークの品質が向上しました。さらに、GoogLeNetは元々Titan Xに比べてメモリが半分のTitan Blackでトレーニングされていたため、このネットワークは大きなバッチサイズで再トレーニングされ、精度が向上しました。ネットワークのトレーニング時間を見ると、限られた時間の条件下では、Inception-v3を使用しないでください。他の2つのアーキテクチャでは、トレーニングがはるかに高速になるためです。理由はパラメーターの数です。 Inception BNは最も早く学習できます。

予測する 。

自動車ブランドとの競争でのユージンのように、アーサーは作物の予測を使用しました-10のセクションではなく24で。セクションはコーナー、その反射、中心、中心部の回転、さらに10のランダムなものでした。

各時代の後にネットワークの状態を保存すると、最終的なネットワークだけでなく、さまざまなモデルが作成されます。競争の終わりまでの残りの時間を考えると、11モデル時代の予測を使用できます。ネットワークを使用した予測の構築も非常に長く続くからです。これらの予測はすべて、次のスキームに従って平均化されました。まず、作物グループ内の算術平均を使用し、次に検証セットで選択された重み付きの幾何平均を使用しました。 , . .