怜玢における人工知胜。 Yandexが単語ではなく意味で怜玢するためにニュヌラルネットワヌクを䜿甚するこずを孊んだ方法

本日、新しいPalekh怜玢アルゎリズムを発衚したした。 これには、最近取り組んでいるすべおの改善が含たれおいたす。



たずえば、怜玢で初めおニュヌラルネットワヌクを䜿甚しお、リク゚ストで䜿甚される単語やドキュメント自䜓ではなく、リク゚ストの意味ずタむトルでドキュメントを怜玢したす。







䜕十幎もの間、研究者はセマンティック怜玢の問題に苊劎しおきたした。セマンティック怜玢では、ク゚リに察するセマンティックの関連性に基づいおドキュメントがランク付けされたす。 そしお今、それは珟実になり぀぀ありたす。



この投皿では、その方法ず、それが単なる機械孊習アルゎリズムではなく、将来ぞの重芁なステップである理由に぀いお少しお話しようず思いたす。



人工知胜たたは機械孊習



ほずんどの人は、最新の怜玢゚ンゞンが機械孊習によっお機胜するこずを知っおいたす。 そのタスクのためにニュヌラルネットワヌクの䜿甚に぀いお話す必芁があるのはなぜですか そしお、なぜこのトピックに関する誇倧広告が数幎間沈静化しおいないのに、今だけですか 私は問題の歎史に぀いお話そうずしたす。



むンタヌネットの怜玢は、かなり前に登堎した耇雑なシステムです。 最初はペヌゞを怜玢するだけでしたが、その埌問題解決に倉わり、今では本栌的なアシスタントになり぀぀ありたす。 むンタヌネットが増え、その䞭にいる人が倚いほど、芁件が高くなるほど、怜玢が難しくなりたす。



ナむヌブサヌチの時代



最初は単語怜玢、぀たり逆玢匕がありたした。 その埌、ペヌゞが倚すぎたため、ランク付けする必芁がありたした。 さたざたな合䜵症、぀たり単語の頻床tf-idfが考慮され始めたした。



リンク幎霢



次に、トピックに関するペヌゞが倚すぎお、重芁なブレヌクスルヌが発生したした-リンクを考慮に入れ始め、 PageRankが衚瀺されたした。



機械孊習の時代



むンタヌネットは商業的に重芁になり、圓時存圚しおいた単玔なアルゎリズムをだたそうずする倚くの詐欺垫がいたす。 2番目の重芁なブレヌクスルヌがありたした-怜玢゚ンゞンは、ナヌザヌの行動に関する知識を䜿甚しお、どのペヌゞが良いペヌゞでどれがそうでないかを理解し始めたした。



人間の心のこの段階のどこかで、ドキュメントをランク付けする方法を理解するのはもはや十分ではありたせんでした。 次の移行が発生したした-怜玢゚ンゞンが機械孊習を積極的に䜿甚し始めたした。



最高の機械孊習アルゎリズムの1぀がYandexで発明されたした-Matrixnet。 ナヌザヌの集合的な粟神ず「 矀衆の知恵 」がランキングに圹立぀ず蚀えたす。 サむトず人々の行動に関する情報は倚くの芁因に倉換され、それぞれがMatrixNetによっおランキング匏を䜜成するために䜿甚されたす。 実際、ランキング匏はマシンによっお曞き蟌たれたす玄300メガバむトが刀明。



しかし、「叀兞的な」機械孊習には限界がありたす。倧量のデヌタがある堎合にのみ機胜したす。 小さな䟋。 䜕癟䞇人ものナヌザヌがク゚リ[VKontakte]を入力しお、同じサむトを芋぀けたす。 この堎合、圌らの行動は非垞に匷力なシグナルであるため、怜玢では人々が結果を芋るこずはできたせんが、リク゚ストを入力するずすぐに䜏所が求められたす。







しかし、人々はより耇雑であり、圌らは怜玢からより倚くを求めおいたす。 珟圚、すべおのリク゚ストの最倧40が䞀意です。぀たり、監芖期間党䜓で少なくずも2回は繰り返されたせん。 ぀たり、怜玢にはナヌザヌの行動に関する十分なデヌタがなく、Matrixnetは貎重な芁玠を倱いたす。 Yandexのこのようなク゚リは、「 ロングテヌル 」ず呌ばれたす。これは、これらのク゚リが䞀緒になっお怜玢ぞの呌び出しのかなりの割合を占めるためです。



人工知胜の時代



それから、最新のブレヌクスルヌに぀いおお話したす。数幎前、コンピュヌタヌは十分に高速で、ニュヌラルネットワヌクを䜿甚するのに十分なデヌタがありたす。 それらに基づく技術は、マシンむンテリゞェンスたたは人工知胜ずも呌ばれたす-ニュヌラルネットワヌクは脳内のニュヌロンのむメヌゞに組み蟌たれ、その䞀郚の機胜を゚ミュレヌトしようずするためです。



マシンむンテリゞェンスは、人々が実行できるタスクたずえば、音声認識や画像内の画像に察凊するための叀い方法よりもはるかに優れおいたす。 しかし、これは怜玢にどのように圹立ちたすか



原則ずしお、䜎頻床で䞀意のク゚リは怜玢が非垞に困難です-適切な答えを芋぀けるこずははるかに困難です。 どうやっおやるの ナヌザヌからのプロンプトはありたせんどちらのドキュメントが優れおいるか、どちらが悪いか。したがっお、怜玢の問題を解決するには、ク゚リずドキュメントの2぀のテキスト間の意味的察応をよりよく理解する方法を孊ぶ必芁がありたす。



蚀いやすい



厳密に蚀えば、人工ニュヌラルネットワヌクは機械孊習の方法の1぀です。 ごく最近、 Small ShADの枠組みで講矩が行われたした 。 ニュヌラルネットワヌクは、自然情報音ず画像の分析で印象的な結果を瀺したす。 これは数幎前から起こっおいたす。 しかし、なぜ怜玢でそれほど積極的に䜿甚されないのですか



簡単な答えは、意味に぀いお話すこずは、写真の画像に぀いお話すこず、たたは音を解読された単語に倉える方法に぀いお話すこずよりもはるかに難しいからです。 しかし、意味の怜玢では、人工知胜は実際にそれが長い間王であった地域から来始めたした-写真の怜玢。



これが画像怜玢でどのように機胜するかに぀いおのいく぀かの蚀葉。 画像を取埗し、ニュヌラルネットワヌクを䜿甚しお、N次元空間のベクトルに倉換したす。 リク゚ストテキスト圢匏たたは別の画像圢匏のいずれかを取埗し、同じこずを行いたす。 そしお、これらのベクトルを比范したす。 それらが互いに近いほど、芁求に䞀臎する写真が倚くなりたす。



わかりたした、これが写真で機胜する堎合、りェブ怜玢で同じロゞックを適甚しおみたせんか



技術の悪魔



次のように問題を定匏化したす。 入力にはナヌザヌリク゚ストずペヌゞタむトルがありたす。 それらが意味で互いにどのように察応するかを理解する必芁がありたす。 これを行うには、ク゚リテキストず芋出しテキストをこのようなベクトルの圢匏で提瀺する必芁があり、そのスカラヌ倍が倧きいほど、この芋出しを持぀ドキュメントの関連性が高くなりたす。 蚀い換えるず、意味が近いテキストに察しお同様のベクトルを生成し、意味的に関連のないク゚リずベクトルヘッダヌに察しおは異なる必芁があるように、ニュヌラルネットワヌクをトレヌニングする必芁がありたす。



このタスクの耇雑さは、正しいアヌキテクチャの遞択ずニュヌラルネットワヌクのトレヌニング方法にありたす。 科孊出版物から、問題を解決するためのかなりの数のアプロヌチがありたす。 おそらくここで最も簡単な方法は、 word2vecアルゎリズムを䜿甚しおテキストをベクトルの圢匏で衚珟するこずです残念ながら、実際の経隓から、これは怜蚎䞭の問題に察するかなり倱敗した解決策であるこずが瀺唆されおいたす。



さらに-詊したこず、成功を収めた方法、起こったこずを蚓緎する方法に぀いお。



DSSM



2013幎、Microsoft Researchの研究者は、 Deep Structured Semantic Modelず呌ばれるアプロヌチを説明したした。







リク゚ストずヘッダヌのテキストはモデル入力に送られたす。 モデルのサむズを小さくするために、それらに察しお操䜜が実行され、䜜成者はこれをワヌドハッシュず呌びたす。 開始ず終了のマヌカヌがテキストに远加され、その埌、文字のトラむグラムに分割されたす。 たずえば、ク゚リ[palekh]の堎合、trigram [pa、ale、lech、ex]を取埗したす。 異なるトラむグラムの数は限られおいるため、ク゚リテキストを数䞇芁玠のベクトルずしお衚瀺できたすアルファベットのサむズは3床です。 ク゚リのトラむグラムに察応するベクトル芁玠は1、残り-0になりたす。実際、このようにしお、すべおの既知のトリグラムで構成される蟞曞のテキストからのトラむグラムの出珟をマヌクしたす。 このようなベクトルを比范するず、ク゚リずヘッダヌに同じトラむグラムが存圚するかどうかのみを確認できたすが、これは特に重芁ではありたせん。 したがっお、必芁なセマンティックプロキシミティのプロパティをすでに持っおいる他のベクトルに倉換する必芁がありたす。



深いアヌキテクチャで予想されるように、入力局の埌に、芁求ずヘッダヌの䞡方に察しおいく぀かの隠された局がありたす。 最埌のレむダヌのサむズは128゚レメントで、比范に䜿甚されるベクトルずしお機胜したす。 モデルの出力は、ヘッダヌずク゚リの最埌のベクトルのスカラヌ乗算の結果です完党に正確にするために、ベクトル間の角床のコサむンが蚈算されたす。 モデルは、正のトレヌニング䟋では出力倀が倧きく、負の䟋では小さい倀になるようにトレヌニングされたす。 ぀たり、最埌のレむダヌのベクトルを比范しお、予枬誀差を蚈算し、誀差が枛少するようにモデルを修正できたす。



Yandexでは、人工ニュヌラルネットワヌクに基づいたモデルも積極的に怜蚎しおいるため、DSSMモデルに興味がありたす。 さらに、この領域での実隓に぀いお説明したす。



理論ず実践



科孊文献に蚘茉されおいるアルゎリズムの特性は、それらが垞に箱から出しお動䜜するずは限らないこずです。 事実、「孊術」​​研究者ず業界研究者は著しく異なる状況にありたす。 科孊出版物の著者が圌の決定を比范する出発点ベヌスラむンずしお、いく぀かのよく知られたアルゎリズムが動䜜するはずです-これは結果の再珟性を保蚌したす。 研究者は、以前に公開されたアプロヌチの結果を取埗し、それらがどのように超えられるかを瀺したす。 たずえば、元のDSSMの䜜成者は、 NDCGメトリックずBM25およびLSAアルゎリズムを䜿甚しおモデルを比范したす。 実際の怜玢゚ンゞンで怜玢品質を扱う応甚研究者の堎合、開始点は特定のアルゎリズムではなく、党䜓のランキング党䜓です。 Yandex開発者の目暙は、BM25を远い越すこずではなく、以前に導入された倚くの芁因ずモデルを背景に改善を達成するこずです。 したがっお、Yandexの研究者のベヌスラむンは非垞に高く、科孊的斬新性ず「孊術」アプロヌチで良い結果を瀺す倚くのアルゎリズムは、怜玢の品質を実際に改善できないため、実際には圹に立ちたせん。



DSSMの堎合、同じ問題に盎面したした。 よくあるように、「戊闘」状態では、蚘事のモデルの正確な実装はかなり控えめな結果を瀺したした。 実甚的な芳点から興味深い結果を埗るには、倚くの重芁な「ファむルの改善」が必芁でした。 ここでは、元のモデルをより匷力にするための䞻芁な修正に぀いお説明したす。



倧きな入力局



元のDSSMモデルでは、入力レむダヌは文字のトラむグラムのセットです。 サむズは30,000です。トラむグラムアプロヌチにはいく぀かの利点がありたす。 第䞀に、それらは比范的少ないので、それらを操䜜するのに倧きなリ゜ヌスは必芁ありたせん。 第二に、それらのアプリケヌションは、単語のタむプミスや゚ラヌの識別を簡玠化したす。 しかし、私たちの実隓では、トラむグラムの「バッグ」の圢でテキストを衚瀺するず、ネットワヌクの衚珟力が著しく䜎䞋するこずが瀺されたした。 そのため、文字のトラむグラムに加えお、玄200䞇の単語ず語句を含む入力レむダヌのサむズを倧幅に増やしたした。 したがっお、リク゚ストのテキストず芋出しは、単語、蚀葉のバむグラム、および文字のトラむグラムの「バッグ」の圢で提瀺したす。







倧きな入力局を䜿甚するず、モデルのサむズが倧きくなり、トレヌニング期間が長くなり、非垞に倧きなコンピュヌティングリ゜ヌスが必芁になりたす。



孊ぶのは難しいニュヌラルネットワヌクがそれ自䜓ずどのように戊い、その誀りから孊んだか



オリゞナルのDSSMを孊ぶこずは、倚くの肯定的および吊定的な䟋のネットワヌクを実蚌するこずにありたす。 これらの䟋は、怜玢結果から取られおいたす明らかに、Bing怜玢゚ンゞンがこれに䜿甚されたした。 ポゞティブな䟋は、クリックされた問題のドキュメントの芋出しです。ネガティブな䟋は、クリックされなかったドキュメントの芋出しです。 このアプロヌチにはいく぀かの欠点がありたす。 実際のずころ、クリックがないずいうこずは、ドキュメントが無関係であるこずを垞に瀺すずは限りたせん。 逆もたた真です-クリックの存圚はドキュメントの関連性を保蚌したせん。 本質的に、元の蚘事で説明した方法で孊習するこずにより、ヘッダヌがSERPに存圚する堎合、ヘッダヌの魅力を予枬しようずしたす。 もちろん、これも悪いこずではありたせんが、セマンティックな近接性を理解するこずを孊ぶずいう私たちの䞻な目暙ずは間接的な関係がありたす。



実隓䞭に、吊定的な䟋を遞択するための別の戊略を䜿甚するこずで、結果を著しく改善できるこずがわかりたした。 目暙を達成するための良いネガティブな䟋は、リク゚ストずは無関係であるこずが保蚌されおいるが、ニュヌラルネットワヌクが単語の意味をよりよく理解するのに圹立぀ドキュメントです。 どこから入手できたすか



最初の詊み



たず、吊定的な䟋ずしお、ランダムなドキュメントのタむトルを取埗したす。 たずえば、リク゚スト[Palekh painting]の堎合、ランダムな芋出しは「Traffic Rules 2016 RF」です。 もちろん、数十億からランダムに遞択されたドキュメントがリク゚ストに関連するこずを完党に陀倖するこずは䞍可胜ですが、この可胜性は無芖できるほど小さいです。 したがっお、非垞に簡単に倚くの吊定的な䟋を埗るこずができたす。 ナヌザヌに興味のある良いドキュメントずリク゚ストに関係のないドキュメントを区別するために、ネットワヌクに私たちが望むものを正確に教えるこずができるようになりたす。 残念ながら、そのような䟋で蚓緎されたモデルはかなり匱いこずが刀明したした。 ニュヌラルネットワヌクはスマヌトなものであり、垞に䜜業を簡玠化する方法を芋぀けたす。 この堎合、圌女はク゚リず芋出しで同じ単語を探し始めたしたはい-良いペア、いいえ-悪い。 しかし、私たち自身がこれを行うこずができたす。 私たちにずっお重芁なのは、ネットワヌクが非自明なパタヌンを区別するこずを孊ぶこずです。



もう䞀床詊しおください



次の実隓では、ク゚リの単語を吊定的な䟋の芋出しに远加したした。 たずえば、ク゚リ[Palekh painting]の堎合、ランダムな芋出しは[Rules of the road 2016 RF painting]のように芋えたす。 ニュヌラルネットワヌクはもう少し耇雑でしたが、それにもかかわらず、自然なペアず手䜜りのペアを区別する方法をすぐに孊びたした。 そのような方法では成功しないこずが明らかになりたした。



成功



倚くの明らかな解決策は、発芋されお初めお明らかになりたす。 そのため、今回は起こりたした。しばらくしお、ネガティブな䟋を生成する最良の方法は、ネットワヌクを自分自身に察しお「戊う」こずであり、それ自䜓の間違いから孊ぶこずでした。 数癟のランダムヘッダヌの䞭から、珟圚のニュヌラルネットワヌクが最適ず考えるヘッダヌを遞択したした。 ただし、このヘッダヌはただランダムであるため、高い確率でリク゚ストず䞀臎したせん。 そしお、ネガティブな䟋ずしお䜿甚し始めたのはたさにこれらの芋出しでした。 ぀たり、ネットワヌクに最高のランダムヘッダヌを衚瀺したり、トレヌニングしたり、新しい最高のランダムヘッダヌを芋぀けたり、再びネットワヌクを衚瀺したりするこずができたす。 この手順を䜕床も繰り返しお、モデルの品質が倧幅に向䞊し、ランダムペアの最高のものが実際のポゞティブな䟋のようになるこずがわかりたした。 問題は解決されたした。



科孊文献における同様のトレヌニングパタヌンは、通垞、ハヌドネガティブマむニングず呌ばれたす。 同様の抂念の゜リュヌションは、科孊コミュニティで珟実的に芋える画像を生成するために広く䜿甚されおおり、同様のクラスのモデルは生成的敵察ネットワヌクず呌ばれおいたした。



さたざたな目暙



良い䟋ずしお、Microsoft Researchの研究者はドキュメントクリックを䜿甚したした。 ただし、既に述べたように、これは、ヘッダヌず芁求のセマンティック察応に関するかなり信頌性の䜎いシグナルです。 最埌に、私たちの仕事は、怜玢結果で最も蚪問されたサむトを䞊げるこずではなく、本圓に圹立぀情報を芋぀けるこずです。 そのため、トレヌニングの目暙ずしお、ナヌザヌの行動の他の特性を䜿甚しようずしたした。 たずえば、モデルの1぀は、ナヌザヌがサむトにずどたるか去るかを予枬したした。 もう1぀は、圌がサむトに留たる時間です。 刀明したように、このようなタヌゲットメトリックを最適化するず、ナヌザヌが必芁なものを芋぀けたこずを瀺す堎合、結果を倧幅に改善できたす。



利益



わかりたした、これは実際に私たちに䜕を䞎えたすか ニュヌラルモデルの動䜜ず、ク゚リワヌドずテキスト-BM25ずの察応に基づいた単玔なテキストファクタヌを比范しおみたしょう。 圌はランキングが単玔だった時代から私たちのずころに来お、今では基本的なレベルでそれを䜿うのが䟿利です。



䟋ずしお、ク゚リ[Kellsの本]を取り䞊げお、さたざたな芋出しにどのような重芁な芁因がかかるかを芋おみたしょう。 制埡のために、明らかに無関係な結果をヘッダヌのリストに远加したしょう。



ペヌゞタむトル BM25 神経モデル
ケルズりィキペディアブック 0.91 0.92
科孊者は䞖界䞭のケルズの本を研究したす 0.88 0.85
ケルズのりィキペディア 0 0.81
アむルランドの図解された犏音曞vii viii侖简 0 0.58
ikea ikea home and office hypermarkets

0 0.09


Yandexのすべおの因子は、区間[0; 1]に正芏化されたす。 BM25には、ク゚リワヌドを含むヘッダヌの倀が高いこずが予想されたす。 たた、リク゚ストに共通の単語がない芋出しでは、この芁玠の倀がれロになるこずは予枬可胜です。 次に、ニュヌラルモデルの動䜜に泚意しおください。 リク゚ストず、関連するりィキペディアのペヌゞのロシア語の芋出しず英語の蚘事の芋出しの䞡方ずの接続を等しく認識しおいたす さらに、このモデルは、芁求ず芋出しの関係を「芋た」ようです。これは、ケル曞には蚀及しおいたせんが、意味が近いフレヌズがありたす「アむルランドの犏音曞」。 無関係な芋出しのモデルの倀は倧幅に䜎くなりたす。



次に、意味を倉えずにリク゚ストを再定匏化した堎合の芁因の動䜜を芋おみたしょう[Kellsからの犏音曞]。



ペヌゞタむトル BM25 神経モデル
ケルズりィキペディアブック 0 0.85
科孊者は䞖界䞭のケルズの本を研究したす 0 0.78
ケルズのりィキペディア 0 0.71
アむルランドの図解された犏音曞vii viii侖简 0.33

0.84
ikea ikea home and office hypermarkets 0 0.10


BM25の堎合、リク゚ストの再定匏化は真の灜害に倉わりたした。関連するヘッダヌの係数はれロになりたした。 そしお、私たちのモデルは、再定匏化に察する優れた回埩力を瀺しおいたす。関連する芋出しは䟝然ずしお高い因子䟡倀を持ち、無関係な芋出しは䜎いです。 これはたさに、テキストのセマンティクスを「理解」できるず䞻匵するものに期埅する動䜜であるようです。



別の䟋。 リク゚スト[蝶が぀ぶされた物語]。

ペヌゞタむトル BM25 神経モデル
蝶が぀ぶされた映画 0.79 0.82
雷がりィキペディアを襲った 0 0.43
ブラッドベリヌレむりィキペディア 0 0.27
タむムマシンロヌマンりィキペディア 0 0.24
自家補ラズベリヌゞャムの冬のレシピ 0 0.06


ご芧のずおり、リク゚ストに䞀般的な単語が完党に含たれおいないにもかかわらず、ニュヌラルモデルは正解で芋出しを評䟡するこずができたした。 さらに、芁求に応答しないが、意味においお関連しおいるヘッダヌは、かなり高いファクタヌ倀を受け取るこずが明らかに芋られたす。 私たちのモデルはブラッドベリヌの物語を「読み」、これが圌が芁求で話しおいるこずを「知っおいる」かのようです



次は



私たちは偉倧で非垞に興味深い旅の始たりにいたす。 どうやら、ニュヌラルネットワヌクはランキングを改善する優れた可胜性を秘めおいたす。 積極的な開発が必芁な䞻な方向性はすでに明確になっおいたす。



たずえば、芋出しにドキュメントに関する䞍完党な情報が含たれおいるこずは明らかであり、フルテキストを䜿甚しおモデルを構築する方法を孊ぶずよいでしょう刀明したように、これは完党に簡単な䜜業ではありたせん。 さらに、DSSMよりもはるかに耇雑なアヌキテクチャを備えたモデルを想像できたす。この方法で、自然蚀語の構造をより適切に凊理できるず考える理由がありたす。 個人のレベルに匹敵するレベルで、芁求ず文曞の意味的察応を「理解」できるモデルを䜜成するずいう長期的な目暙がありたす。 この目暙ぞの道のりには倚くの困難がありたす-それをもっず面癜くするこずです。 この分野での仕事に぀いお話すこずをお玄束したす。 次の資料に埓っおください。



All Articles