🌆 🏞️ 📟 Yandexランキング：スレッドに機械学習を配置する方法（投稿＃2） ➗ 🍤 💦

FMLフレームワークに関する一連の出版物を継続します。これにより、機械学習が自動化され、Yandex開発者がタスクでより簡単かつ頻繁に使用できるようになりました。前回の投稿では、ランキング関数とは何か、それをどのように構築するかを学びました。入力時の査定者からの十分な数の査定と、多数のリクエストに対する文書のかなり多様な属性（要因）のセットを持っています。

この投稿から次のことを学びます。

なぜ頻繁に新しいランキング式を選択する必要があるのか、またFMLがこれをどのように助けてくれるのか。
新しい要因を開発し、その有効性を評価する方法。

ランキング式の選択

一度数式を取得することと、非常に頻繁に行うことはまったく別のことです。そして、私たちの現実で2番目が必要な理由についてお話します。

すでに述べたように、インターネットは急速に変化しており、検索の品質を常に改善する必要があります。開発者は、これに役立つ新しい要因を常に探しています。当社の評価者は、インターネット上に出現する新しいタイプのパターンに関するアルゴリズムを迅速にトレーニングし、すでに評価済みのドキュメントの有用性の変化を考慮するために、毎日数千のドキュメントを評価します。検索ロボットは、インターネット上で多くの新しいドキュメントを収集します。これにより、要素の平均値が絶えず変化します。係数を計算するアルゴリズムとその実装は常に改善されているため、値は変更されていないドキュメントでも変更される可能性があります。

ランキング式の変更のこの流れをすばやく考慮するためには、技術的なコンベヤー全体が必要です。彼は人の参加を必要としないか、または彼にとってできるだけ単純であることが望ましい。また、一部の変更が他の変更の有用性の評価を妨げないことが非常に重要です。これがまさにFMLが実現したパイプラインです。 MatrixNetは機械学習の「頭脳」として機能しますが、FMLはそれに基づいた便利なサービスであり、FMLを使用するには専門知識や経験があまり必要ありません。これが達成される場所です。

まず、開発者が私たちのところに来る特定のタスクごとに、FMLはタスクの条件と制限に最適なMatrixNetスタートアップパラメーターを推奨します。サービス自体は、評価の特定のボリュームに最適な設定を選択します。たとえば、トレーニングサンプルのサイズに応じて目的関数（ポイントワイズまたはペアワイズ）を選択すると役立ちます。

第二に、FMLは透過的なマルチタスクを提供します。数式の選択の各反復は数時間の計算であり、数十台のサーバーの全負荷が必要です。原則として、十数種類の異なる式が同時に選択され、FMLは負荷を管理し、各開発者が自分の計算を同僚の計算から分離して、互いに干渉しないようにします。

第三に、手動で起動する必要があるMatrixnetとは異なり、FMLはクラスター上でリソースを集中的に使用するタスクの分散実行を提供します。これには、機械学習ライブラリの単一および最新バージョンのすべてによる使用、すべての機械上のプログラムのレイアウト、発生する障害の処理、すでに実行された計算の保存、および計算を再開する場合の結果の検証が含まれます。

最後に、計算が複雑なタスクでは、汎用プロセッサ（CPU）ではなくグラフィックプロセッサ（GPU）で実行すると、パフォーマンスが非常に大幅に向上するという事実を活用しました。これを行うために、MatrixnetをGPUに適合させました。これにより、機器の単価あたりの計算速度が20倍以上向上しました。決定木構築アルゴリズムの実装の機能により、GPUで利用可能な高度な並列処理を使用できます。 FMLで使用されるプログラミングインターフェイスを保持したという事実により、通常の開発プロセスを変更することなく、ファクターに取り組んでいる同僚に新しいコンピューティングパワーを提供することができました。

GPUについて一言

一般に、CPUに対するGPUの利点は、浮動小数点計算の大部分を占めるタスクで明らかになり、機械学習はそれらと区別されません。計算パフォーマンスは、整数計算の場合はIOPSで、浮動小数点計算の場合はFLOPSで測定されます。また、メモリとの通信を含むI / Oのすべてのコストがブラケットされている場合、GPUが従来のものに比べてはるかに進んでいるのは、正確にFLOPSパラメーターによってです。一部のタスククラスでは、汎用プロセッサ（CPU）と比較してパフォーマンスが数百倍向上します。

しかし、すべての一般的なアルゴリズムがGPUコンピューティングアーキテクチャに適しておらず、すべてのプログラムが大量の浮動小数点計算を必要とするわけではないため、業界全体ではGPUに切り替えるのではなくCPUを使用し続けています。

GPUクラスターとスーパーコンピューターについて

現在、Yandex GPUクラスターのパフォーマンスは80 Tflopsですが、すぐに300 Tflopsに拡張する予定です。クラスターはスーパーコンピューターとは呼びませんが、実際はそうです。たとえば、その基本要素の観点から、ロシアと東ヨーロッパで最も強力なロモノソフスーパーコンピューターに非常に近いです。私たちの場合のコンポーネントの数はさらに現代的です。そして、コンピューティングノードの数（およびパフォーマンス）の点ではロモノソフより劣っていますが、拡張後、私たちのクラスターは世界で最も強力なTOP500スーパーコンピューターサイトの最初の100か所とロシアで最も強力なスーパーコンピューターのトップ5に入るでしょう

新しい要因の開発とその有効性の評価

ランキングの要因は、式を選択する機能よりもさらに重要な役割を果たします。結局のところ、異なるドキュメントが区別するより多様な兆候があればあるほど、ランキング機能はより効果的になります。検索の質を向上させるために、私たちは私たちを助けることができる新しい要因を常に探しています。

それらの作成は非常に複雑なプロセスです。すべてのアイデアが実践のテストに耐えるわけではありません。良い要因を開発して設定するのに数ヶ月かかることがあり、実際に確認された仮説の割合は非常に小さいです。マヤコフスキーのように：「グラム生産、年間労働。」 FMLの1年目には、さまざまなパラメーターの組み合わせでさまざまな要因を何万回もチェックしたため、実装できるのは数百個だけでした。

Yandexで長い間、要因に取り組むには、まず検索デバイス全般、特に私たちのものを深く理解することが必要でした。次に、機械学習と情報検索全般についての十分な知識が必要でした。 FMLの登場により、最初の要件を取り除くことができ、ファクターの開発に入るためのしきい値が大幅に低下しました。現在、それに対処できる専門家の数は桁違いに増えています。

しかし、大規模なチームには開発プロセスの透明性が必要でした。以前は、それぞれが検査に限定されていたため、彼自身が十分と考え、品質を「目で」測定していました。その結果、良い要素を得ることはむしろ芸術の目的であることが判明しました。そして、因子仮説が却下された場合、時間がたつにつれて、決定が下されたテストに精通することは不可能になりました。

FMLの出現により、因子開発は、大規模なチームの標準的で測定可能な制御されたプロセスになりました。同僚が何をしているかを誰もが見ることができ、以前の実験の品質を制御する能力があるときに、相互透明性も現れました。さらに、生成された要因の品質管理システムを受け取りました。これにより、情報検索の分野で世界をリードする会議よりもはるかに低い確率で結果が悪くなります。

要因の質を評価するために、次のことを行います。トレーニングとテストの2つのパートに分けて、グレードのセットを（毎回新しいランダムな方法で）分割します。教育の見積もりによると、2つの式を選択します。古い式（テスト済み因子なし）と新しい式（それ付き）を選択し、テスト用にこれらの式のどちらが優れているかを調べます。この手順は、推定値の多数の異なるパーティションで何度も繰り返されます。統計では、このプロセスは相互検証と呼ばれます。これにより、新しいフォーミュラの品質が古いフォーミュラよりも優れていることを確認できます。機械学習では、この手法はwrappersを使用した次元削減として知られています。平均して、新しい式が古いものと比較して品質の顕著な改善をもたらすことが判明した場合、新しい要因が実装の候補になる可能性があります。

しかし、要因がその有用性を証明したとしても、その実装と使用のコストが何であるかを理解する必要があります。開発者がアイデアの開発、実装、カスタマイズに費やした時間だけではありません。リクエストで見つかった数千のドキュメントごとに、検索時に多くの要因を直接計算する必要があります。したがって、それぞれの新しい要因は、検索エンジンの応答速度の潜在的な低下であり、非常にタイトなフレームワークのままであることを確認します。つまり、ユーザーの要求に応答するクラスターの容量を増やすことにより、新しい各要素を確実に導入する必要があります。無期限に使用できない他のハードウェアリソースがあります。たとえば、検索クラスターでドキュメントごとに各バイトをRAMに保存するコストは、年間約10,000ドルです。

したがって、多くの潜在的な要因から、品質の向上と機器のコストの比率が最適になる要因のみを選択し、残りを放棄することが重要です。次のFMLタスクで数式を選択するのは、品質の向上を測定し、追加コストを評価することです。

測定価格と精度

統計によると、実装前に要素の品質を評価することは、式自体を選択するよりもかなり多くの計算時間を要します。ランク付け式は、各因子に対して繰り返し再選択する必要があるため、含めます。たとえば、過去1年間で約1,000万マシン時間が約50,000回の検査に費やされ、約200万時間がランキング式の選択に費やされました。つまり、クラスターの時間の大部分は定期的な式の再選択ではなく研究に費やされています。

成熟した市場の場合と同様に、新しい改善はそれぞれ前の改善よりもはるかに難しく、次の「9」個の品質のコストは前の改善よりも数倍高くなります。私たちのアカウントは、目標品質メトリックの10分の1から100分の1になります（この場合はpFoundです）。このような条件下では、品質測定器は、このような小さな変化でも確実に記録できるほど正確でなければなりません。

ハードウェアリソースについて言えば、計算コスト、ディスクサイズ、RAMサイズの3つのコンポーネントを評価します。時間が経つにつれて、私たちは「交渉チップ」さえ開発しました：パフォーマンスをどれだけ低下させることができるか、ディスクまたはRAMの何バイトが品質の1％の増加に対して支払うことをいとわないか。メモリ消費は実験的に推定され、品質の向上はFMLから取得され、パフォーマンスの低下は個別の負荷テストの結果によって推定されます。ただし、一部の側面は自動的に評価できません。たとえば、要因が強いフィードバックをもたらします。このため、要因の導入を拒否する権利を持つ専門評議会があります。

新しい要素を使用して作成された数式を実装するときが来たら、 A / Bテストを実施します -少数のユーザーを対象にした実験です。彼らが現在のランキングよりも新しいランキングを気に入っていることを確認する必要があります。最終的な実装の決定は、カスタム品質メトリックに基づいて行われます。 Yandexでは、常に何十もの実験が行われていますが、このプロセスを検索エンジンのユーザーに見えないようにしようとしています。したがって、決定の数学的妥当性だけでなく、実際のイノベーションの有用性も達成します。

そのため、FMLを使用することで、Yandexでファクターの開発をストリームで行うことができ、開発者は、明確で規制された方法で質問を理解する機会を得ることができました。次の最後の投稿で、因子の品質が時間の経過とともに低下しないことを確認する方法について説明します。それから、私たちの機械学習技術が適用できる他の場所について学びます。

Yandexランキング：スレッドに機械学習を配置する方法（投稿＃2）

ランキング式の選択

新しい要因の開発とその有効性の評価

More articles: