完党に理解する技術。 Yandexリク゚スト拡匵

今日は、Yandex怜玢でナヌザヌが念頭に眮いおいたものを正確に芋぀けられるようにするメカニズムに぀いお説明したす。



怜玢の䞖界では、このメカニズムは怜玢ク゚リ拡匵ず呌ばれたす 。 この甚語は、再定匏化、同矩語、音蚳、さらには認知さえも含む非垞に広矩です埌者は、誀っお圢態孊的サポヌトず呌ばれるこずもありたす。



このメカニズムはどの郚分で構成されおいたすか 圌が掚枬するのに䜕が圹立ちたすか そしお、圌が倚く助けた圌のたれなミスのそれぞれに䜕千ものリク゚ストがあるのはなぜですか



画像

なぜリク゚ストを受け取っお拡匵できないのですか。



小さなオンラむンストアやロヌカルフォヌラムでプリミティブ怜玢の実装を䜿甚するず、倚くの堎合、最初のク゚リを手動で再定匏化する必芁がありたす-単語を同矩語に眮き換え、ケヌスを倉える、動詞の時制など。



これに䜕幎も前に気づいた、怜玢゚ンゞンの開発者は、特定のク゚リだけでなく、さたざたなバリ゚ヌションや再定匏を怜玢するために、ナヌザヌの生掻を倧幅に簡玠化するこずが可胜であるず刀断したした。 珟圚、 怜玢ク゚リをコンパむルする知恵に粟通しおいないナヌザヌの正確な怜玢結果に誰も驚かない-しかし、 ク゚リを䜜成する際の時間を節玄し、自由床を増すための苊劎は続いおいる。



今日は、ク゚リ拡匵メカニズム、぀たり元のク゚リの远加のみを怜蚎したす。 リク゚ストを倉曎する方法 「クラスメヌト」ずいう単語のタむプミスを修正し、 Breach-Mullah、Breach-Mulloyに圱響を䞎える方法に぀いおもう䞀床話をしようずしたす。



拡匵機胜をいく぀かのタむプに分割したす。各タむプは蚀語孊的に類䌌しおいたすが、独自の方法でもプロトタむプずは異なりたす。



略語 rf → Rロシア連邊



略語の開瀺はおそらく拡匵機胜の最も䞍正な圢匏です-䞀芋正確で曖昧ではないように芋えたすが「明癜」、「モスクワ州立倧孊」は「モスクワ州立倧孊」、すぐに明らかになりたす。「モルドノィアン」ず「マリりポル」の䞡方があり、 「囜際人道䞻矩者」など。



いく぀かのタむプの略語を区別したす。



地域性を考慮する方法。 誀った仮説を断ち切る方法
このタむプの拡匵では、倚矩性に加えお、地域性を考慮するこずは興味深いです。なぜなら、各地域では略語が独自のデコヌドを持぀こずができるからです。 独自のモスクワ州立倧孊 オガリョフにちなんで名付けられた を持っおいるモルドノィアのナヌザヌは、ロシアの他の地域の居䜏者ず同じように圌のモスクワ名に興味を持っおいたす。 しかし、十分な地域デヌタがない可胜性があるため、ロヌカルプロパティず他の地域のより有名な察応物ずのバランスを遞択する必芁がありたす。そのため、䞡方を簡単に芋぀けるこずができたす。



拡匵オプションを収集する堎合、さたざたなヒュヌリスティックで戊う倚くの誀った仮説がありたす。

  • "Photo" = "photography About Bamy"フレヌズのすべおの単語を枛らす堎合、ほが同じ長さの郚分に枛らす必芁がありたす
  • 「 私たちが 䞎える 祝犏 」=「 䞎える こずに関する祝犏 」、「ママ」=「 ママはアヌニャ 」母音は消えたせん、少なくずも音節党䜓
  • 「 x自然゚ネルギヌずキャリアの化孊技術」=「htn」分離可胜な接頭蟞「e」が付いた単語の最初の文字も略語に存圚する必芁がありたす
  • 「焌き切れ」=「韓囜はもはや修理䞭ではない」倚くの省略、略語以倖の最初の文字
  • 「ナゟむ」=「迷惑」1぀の単語からの省略圢は、このような長い単語に翻蚳されたせん




文字倉換プゞョヌ→プゞョヌ



略語ずは異なり、盎芳はたさにここにありたす。音蚳は、拡匵機胜のすべおの利点の数十パヌセントを占めたす。 圌女は良い正確さず完党さを持っおいたす。 どんな状況でも倧いに圹立ちたす。



ナヌザヌはキヌボヌドレむアりトを切り替えたくないため、倖囜語の名前や地域を怜玢する堎合、ロシア語「Demongeot」ではなく「Demonjo」や「Cologne」ではなく「Cologne」で入力する方が、元の正しいスペルを芚えるよりも簡単です。 逆の状況も非垞に頻繁に発生したす。ロシア語を話すディアスポラの居䜏者は、ロシア語のフォヌラムでコミュニケヌションするこずに慣れおいたすが、音蚳を䜿甚しおいたす。 このようなフォヌラムでの怜玢は、キリル文字のク゚リに必芁です。 音蚳は、怜玢語が芋぀かったサむトのアドレスに含たれおいる堎合に䟿利です。



実際には、音蚳する必芁はありたせんが、いわゆる実甚的な転写 -別の蚀語による元の音の可胜な限り最も近い䌝達です。 そうしないず、たずえば、フランス語の単語が認識できないほど歪んでしたいたす。



実装文字による、音節による、子音母音の連鎖セグメントによる
実装オプション


衚面的なレビュヌに限定し、ニュアンスを独立したポストに残したす。 最も有名で最も簡単な方法は、 文字ごずのルヌルを䜿甚した音蚳です。 ラテン語ずキリル文字の間にはいく぀かの翻蚳基準があり、ほずんどが1察1完党たたはほがすべおの文字です。 残念ながら、この方法では名前の品質が非垞に悪くなりたす。ルノヌずペグヌでもルノヌずプゞョヌになるこずはありたせん。



より高床な方法は音節によるものです。 文脈に関係なく、各音節の翻蚳は非垞に正確に機胜したす。 しかし、困難がありたす

  1. 各蚀語には、音節に分割するための独自のルヌルがあり、かなり高い粟床での実装は重芁です。
  2. 同じ音節は異なる蚀語でも発音が異なるため、蚀語ごずにルヌルを培底的に蚘述する必芁がありたす。
  3. これらの理由から、蚀語の玛れもない定矩が特に重芁です。


セグメント方匏


3番目の方法であるセグメンテヌションの方法を遞択したした。 セグメントは、連続した母音/子音のグルヌプです。 䞀方が他方の転写であるこずが確実にわかっおいる堎合、単語のペアの倚数の䟋を芋぀ける必芁がありたす。 これらの䟋では、機械孊習を䜿甚しお、䞀郚のセグメントを他のセグメントに倉換するためのルヌルを䜜成したす。



仕組みは次のずおりです。 トレヌニングセットの各ペアに぀いお、単語はセグメントに分割されたす。 元の単語のセグメントずその転写の間の正しい転写の各䟋に぀いお、察応が確立されおいたす-ほずんどすべおの堎合、ロシア語ず倖囜語のセグメントの数は等しいこずがわかりたす。

画像



さらに、オリゞナルの察応するセグメントを持぀トランスクリプションセグメントは、それ自䜓ず呚囲のコンテキスト隣接するセグメントの䞡方でトレヌニングセットに入りたす。 その結果、機械孊習は各セグメントのさたざたなトランスクリプションオプションの確率を決定したす。

画像



セグメントのあいたいさに぀いお
セグメントが1察1ではない可胜性があるため、いく぀かのトリックがありたす。 1぀目は簡単です。L'Humanite> Humaniteなど、発音できない子音で始たる単語がありたす。 このようなセグメントは空に倉換されたす。 2番目はより耇雑です。単語の途䞭に「流fluentな」母音「stat e ment」のように匷調衚瀺された「e」は読たれたせんたたは子音䞊蚘の「guillaume」のようにがありたす。 セグメントずの敎列は、Levenshteinアルゎリズムを䜿甚した流 lettersな文字によっお支揎されたす 。最初に文字ごずの察応を確立し、次に、別の蚀語で単語を分割する際の違いを考慮しお、隣接する文字をセグメントに接着したす。

画像



この䟋から、「th」がより正確に母音ず芋なされるこずは明らかです。 そしお、「b」、「b」、ハむフン、アポストロフィは子音であるず考えたす-それらは音を壊したす。



品質に぀いお


私たちの経隓では、セグメント法が最高の粟床を提䟛したす。 䞭囜語やベトナム語などの耇雑な蚀語もちろん、手玙の曞き方を含むを含む、すべおの䞀般的な蚀語でうたく機胜したす。 さらに、合理的な粟床でロシア語から元の蚀語のスペルを埩元するこずもできたす。 さらに、このメ゜ッドは単語の蚀語の定矩を必芁ずしたせん。



名、地名、人気ブランド、音楜グルヌプの名前のテストコレクションでは、このメ゜ッドは最倧99の粟床を瀺したす。 実際のク゚リず怜玢むンデックスによっお拡匵される仮説のセット党䜓の粟床を評䟡するず、粟床が䜎䞋した仮説で蟞曞を増やすに぀れお䜎䞋したす。 箄300䞇の音蚳ベヌスの拡匵機胜がナヌザヌに利甚可胜になり、その粟床は玄90です。





スペルチェックオプションike i →ike a 



Orpho-optionsは同じ意味を持぀単語であり、このように曞くこずができたす。たた、䞡方のスペルは読み曞きができるず考えられたす。



第䞀に、これらは耳から曞かれた倖来語であり、倚くの堎合、単䞀の正芏のスペル「ike i 」/「ike a 」;「 解釈 n」/「解釈n」はありたせん。

スカヌレット・ペハン゜ンを曞く35の方法
スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

「スカヌレット・ペハン゜ン」

「S色のペハンセン」

スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

「スカヌレット・ゞョン゜ン」

スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

スケアルト・ペハン゜ン

スカヌレット・ペハンセン

「スカヌレット・ペハン゜ン」

スカヌレット・ペハンセン

スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

「S色のペハンサン」

スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

スカルレット・ペハン゜ン

スカヌレット・ペハン゜ン

スカヌレット・ペハ゜ン

スカヌレット・ペハンセン

「S色のペハンセン」

「スカヌレット・゚ハンセン」

「スカヌレット・ペハン゜ン」

スカヌレット・ペハンサン

スカヌレット・ペアン゜ン

スカヌレット・ペハン゜ン

「スカヌレット・ペハン゜ン」

「S色のペハン゜ン」

「S色のむェハン゜ン」

「S色のペハンサン」

スカヌレット・ペハン゜ン

スカヌレット・ペハン゜ン

「スカヌレット・ペハン゜ン」



音蚳ずは異なり、ここでは同じ蚀語でペアを扱いたす。 単䞀のラテン語のスペルに転写できるいく぀かの単語は、オル゜バリアントず呌ばれたす。



次に、 綎りが異なるロシア語の単語 「beat rd」→「bill rd」、「birthday is me」→「birthday is me」



孀児のオプションは䜕に興味がありたすか

タむプミスやパドンカフスコゎスラングず区別する必芁がありたす。 たた、叀いスペルもありたす。
  1. タむプミスでそれらを明確に分ける必芁がありたす

    • タむプミスの堎合、ナヌザヌは「リク゚ストのタむプミスが修正されたした」ずいう明瀺的なメッセヌゞを衚瀺し、元のリク゚ストの怜玢に切り替えるこずができたす。 オル゜バリアントの堎合、このような譊告は䞍適切です。なぜなら、 可胜なすべおのスペルが有効です。
    • ナヌザヌが封印されおいるこずが確実な堎合、リク゚ストを正しいリク゚ストに眮き換えるだけです。 orpovariantsの堎合、これは行えたせん。スペルが異なる有甚なドキュメントのほずんどが倱われたす「birth」ではなく「birth」。 しかし、他のスペルで拡匵するこずは正しいでしょう。 入力ミスずは異なり、文盲の文曞は、゚ラヌなしでリク゚ストを行ったナヌザヌを混乱させる可胜性がありたす。


  2. むンタヌネットのスラング "padonkaffsky / Albanian yazig" のオル゜バリアントずミヌム "kotegi"; "kote"を区別できるこずが重芁です。 スラングず䞀般的なスペルは互いに拡匵できたせん。

    • ミヌムのリク゚ストに応じお、䞀般的なスペルのドキュメントを衚瀺するこずはできたせん。興味のあるミヌムに干枉したす。
    • 逆に、類䌌のミヌムず䞀般的に䜿甚されるスペルを混ぜるず、「ナニバヌサル」トピックのリク゚ストの発行が悪化したす。


幞いなこずに、スラングにはかなり特定の䜿甚状況があり、これはオル゜バリアントず区別するのに圹立ちたす。



3番目のタむプは際立っおいたす- 時代遅れの぀づり  "great power"、 "pious"たずえば、 "king"。 拡匵機胜のおかげで、珟代の蚀語ぞの䞊行翻蚳を䌎うオリゞナルの叀いロシア語のテキストず、オリゞナルなしの翻蚳自䜓がありたす-埌者は、準備ができおいない読者が印刷しお読むのが簡単です。





単語圢成モスクワ-モスクワ



䞊蚘の拡匵機胜の皮類略語、翻蚳、倉曲、オル゜バリアントは、䞍可䟵の意味を考慮しお、可胜な限りあらゆる方法でク゚リの正確な単語を反映しようずしたした。 しかし、元のリク゚ストにセマンティックの远加をより倧胆に蚱可する必芁があるこずがすぐに明らかになりたした。 そのため、拡匵子には単語の圢成「モスクワメトロ」→「モスクワメトロ」ず同矩語「カバ」→「カバ」が远加されたした。



単語圢成の原則による拡匵のアむデアは、他の品詞「モスクワメトロ」→「モスクワメトロ」を含む同皮の単語をク゚リに远加するこずです。



単語圢成メカニズムは、単に圢態ず呌ばれるこずがよくありたすが、これは完党に真実ではありたせん。 教育ずいう単語に加えお、単語の倉曎は圢態も指したす぀たり、「ブリヌチマロむ」。 Inflectionがク゚リに新しい意味のニュアンスを远加するこずはほずんどありたせん。通垞、すべおの圢匏「 パラダむム党䜓」で元のク゚リワヌドを怜玢するため、この投皿では觊れたせん。



反察に、語の圢成は意味的に離れた異圢を远加する可胜性がありたす。䞀般的な考慮事項ずは反察に、同じ語根を持぀語は意味が近くにある必芁はありたせん。 実際には優れた怜玢拡匵機胜である語圢成タむプはごく少数であるため、泚意する必芁がありたす。



いく぀かの䟋
有甚なタむプには、<名詞>→<1぀のルヌト圢容詞>がありたす。たずえば、「モスクワ」→「モスクワ」「モスクワ垂長」→「モスクワ垂長」です。 ただし、ここでも、䞻に名前付き゚ンティティに関連する埮劙な点がありたす。

  • 組織の名前[モスクワのデパヌト]≠[モスクワのデパヌト]、モスクワでは2぀の異なる店舗があり、どちらも非垞に有名です
  • 人々の姓政府で働く職員は姓「モスクワ」を持っおいるかもしれたせん-そしおこれは芁求に圱響したす[モスクワ政府]
  • 地理的名称郊倖にはモスクワ垂がありたす-圌にずっお、[モスクワ垂長]の芁求は[モスクワ垂長]ず同じ意味ではありたせん


ペア<名詞>→<図の名前> "自転車"→ "サむクリスト"-最初のリク゚ストの意味から匷く離れおいたす。 <名詞>→<圢容詞>「自転車」→「自転車」たずえば[自転車の賌入]→[自転車店]が䟿利な堎合、[自転車]→[サむクリスト]は怜玢を悪化させたす。たずえば、「サむクリストの着陞」、「サむクリストの負傷」などに関する文曞が远加されたす。

  • [描画レッスン]「描画」ずいう蚀葉で拡匵するのは良いこずですが、「ドラフトマン」は䞍十分です
  • [埌郚副叞什官]良い「埌郚」、悪い「埌郚」
  • [りクラむナの泚文糞]良い「泚文」、悪い「顧客」


同様に、性転換の悪い䟋がたくさんありたす。 「埓業員」→「埓業員」を取る芁求[埓業員ずの合意]が合意の䞻題に関する幅広い皮類の文曞を提䟛し、「埓業員」ずいう蚀葉でそれを展開する堎合、たずえば法什の芏制枠組みに関する䞍芁な文曞埓業員に関する䞀般的なケヌスは、ほずんどの堎合、助けにはなりたせん。



したがっお、フォヌム内の単語の類䌌性は誀解を招くこずが倚く、怜玢の芳点からするず、コンテンツは、䞀芋無害な倉換でも非垞に倧きく倉化したす。



他の蚀語では、物事は異なりたす
ロシア語が単語圢成の点で垞に最も難しいずはほど遠いのは䞍思議です。 たずえば、トルコ語では、圢匏的に異なる意味を持぀認知は、単に同じ語圙パラダむムの䞀郚です。

  • 「YÃŒz」-100、「yÃŒzde」-割合、
  • 「トップ」はボヌル/コア、「トプ」はサッカヌ遞手/砲手です。


たた、ロシア語で拡匵機胜を甚意したすべおの圢匏の単語を簡単に䜿甚できる堎合、トルコ語では、異なる単語間ではなく、同じ単語の圢匏間の文脈的近接床を蚈算する必芁がありたす。 たた、意味のゆがみを防ぐために、同じ単語の遠い圢匏の䜿甚を制限したす。



同矩語モバむル→セル



埓来の蟞曞の孊術的な同矩語を基瀎ずしお、それらを怜玢にロヌドするこずは可胜ですか 確かに、蟞曞では信頌できる同矩語の広範なランクを収集したした。

怜玢蚀語は、芏範的な蚘述蚀語ずは完党に異なっおいるこずがわかりたす。
倚くの堎合、蟞曞は正確な同矩語を䞎えたすが、それらに文䜓的なマヌクを付けたす arch。 、 decomp。 、 科孊 詩人。 そしお、いく぀かの単語は、珟代的であり、正匏には䞀般的に䜿甚されおいおも、いく぀かの意味たたはゞャンルでのみ曞面で䜿甚されたす。

  • 「りィザヌド」→「魔法䜿い」2番目は䞻に民間䌝承のテキストで䜿甚され、吊定的な方法でのみ䜿甚されたす
  • 「入口」→「玄関」2番目は公匏の䜏所では䜿甚されたせん。 文曞の範囲をサンクトペテルブルク地域に限定したす-起源たたは堎所によっお。
  • 「医垫」→「医垫」2番目は䞻に教育プロファむルに䜿甚されたすが、職業やサヌビスの皮類の指定には䜿甚されたせん
  • 「トレヌナヌ」→「テむマヌ」2番目は危険な動物のみを扱う

    その結果、人は自分が望んでいたよりも明確なスタむル叀颚/科孊的/方蚀...のドキュメントを受け取りたす。これは、問題を解決するのに必ずしも圹立぀ずは限りたせん。


したがっお、同矩語の玔粋な語圙、蚀語理解から離れ、等䟡物の統蚈怜玢ははるかにうたく機胜したす。 孊術的な意味では同矩語ではないかもしれないが、ナヌザヌが探しおいるものを芋぀けるのに圹立぀オプションが収集されたす。 これがたさに䞻芁な品質基準です-ランキングに察する拡匵機胜の有甚性意味における蟞曞の近接性ではありたせん。



しかし、埓来の意味で統蚈的に収集された同矩語のコレクション同じ意味を持぀単語ずしおは十分ではありたせん。 むンタヌネット䞊に情報が非垞に少ない非垞に特殊なク゚リの堎合、䞀郚のク゚リ語をより䞀般的な抂念 「hyperonyms」 に眮き換えるず䟿利です。



䞀般的なものを眮き換える䟋; 䞀般的なプラむベヌトを眮き換えるこずができない理由
たずえば、ク゚リ[ミニチュアシュナりザヌの結膜炎]「ミニチュアシュナりザヌ」ずいう単語には「ミニチュア」ず非垞に正確な同矩語がありたすが、それを远加しおも出力はそれほど向䞊したせん。 しかし、拡匵の暩利[犬の結膜炎]に圌の䞀般化を远加するず、さたざたな皮類の犬のケアず治療手順が䌌おいるため、倚くの有甚な情報がありたす。



そしお、䞀般から特定ぞの反察の方向では、拡倧は危険です。 [子䟛甚の衣服]ク゚リでは、さたざたなナヌザヌがさたざたな幎霢の店舗を探しおいるため、さたざたなナヌザヌ状況の可胜な範囲党䜓をカバヌする最も普遍的なサむトを衚瀺するこずが最善です。 より具䜓的な甚語「schoolboy」たたは「baby」を䜿甚しおク゚リを拡匵しようずするず、ナヌザヌの問題解決が耇雑になる可胜性がありたす。





拡匵オプションを収集する方法



次のセクションで最も興味深い郚分は、拡匵機胜が怜玢でどのように䜿甚されるかですが、最初に拡匵機胜仮説を準備する方法を芋おみたしょう。



䞊蚘から、むンタヌネット䞊の「野生」に存圚する実際のデヌタを分析するこずによっおのみ、私たちのニヌズに合わせお可胜な拡匵のオプションを構築できるず掚枬するのは簡単です。 ナヌザヌのリク゚ストに迅速に応答する必芁があるため、事前にそのようなオプションいわゆる「拡匵蟞曞」を準備したす。怜玢時には、完成した蟞曞からク゚リワヌドのすべおのペアを遞択したす。



仮説集


蟞曞をコンパむルするには、いく぀かの゜ヌスを䜿甚したす。
  • 文曞内の括匧「スカヌレット・ペハン゜ンScarlett Johansson」
  • 同じコンテキストでの䞡方の単語の出珟 N-gram -N個の連続した単語のチェヌン "...劇堎ぞのチケット" "䟡栌"→ "コスト"-テキストで、リク゚ストで別々に。 「亀換可胜性統蚈」ず呌ばれるこずもありたす。
  • リンク-同じペヌゞに぀ながる耇数のリンクが異なる方法で呌び出される堎合「自転車店→自転車店」
  • パラレルテキストマシンの配眮を䜿甚しおマヌクアップ

    私たちの機械翻蚳サヌビスは 、いわゆる「テキストずその翻蚳」の察蚳でトレヌニングされおいたす。その察の統蚈的手法は、同じこずを意味する文、フレヌズ、単語の察応をマヌクしたす。 このような1぀の単語から別の単語ぞの遷移は、ク゚リを拡匵するための良い仮説であるず考えおいたす。
  • ナヌザヌ統蚈-ナヌザヌがこの眮換を䜿甚しおク゚リを再構成しようずする頻床、および奜みのク゚リ語ず同矩語のドキュメント
  • 埓来の同矩語蟞曞、その他の蟞曞゜ヌス
  • りィキペディア別の甚語にリダむレクトされる甚語


ロシア語の堎合、これは玄1億5,000䞇のペアを提䟛したす-拡匵仮説。



呚波数フィルタリング


ク゚リずむンタヌネット䞊のテキストの䞡方であたりにもたれなペアは、非垞に信頌できる゜ヌスではないため、仮説を収集した埌、発生頻床に制限したす。



特に意味はなく、䜕らかの圢で少なくずもロシア語の堎合単語が1぀たたは別のペアず䞀緒に芋぀かった圢匏倧文字ず小文字の倉化を考慮したす。 したがっお、単語の圢匏通垞はむニシャルのみを残したす。



この結果、通垞玄1億のペアが取埗されたす。



最も可胜性の高い拡匵子の遞択


しかし、1億個の粗雑な仮説は、単玔に芁求凊理段階に枡すこずのできない鉱石です。

高頻床のク゚リを支揎するこずは意味がありたせん。 はるかに意味のある眮換を陀倖する必芁がある
  1. ナヌザヌに最も圹立぀拡匵機胜を遞択したす。 拡匵の倀は、リク゚ストの頻床に䟝存したす。 頻床の高いク゚リの堎合、さたざたなデヌタがあり、倚数の拡匵子を远加しおも実際にはランキングは倉曎されたせん。 たた、たれな、たたは誀っお䜜成された゚ラヌのリク゚ストの堎合、発行の改善に察する拡匵機胜の貢献は非垞に顕著です。たず、それらを拡匵しようずしおいたす。
  2. 頻繁でないリク゚ストの堎合でも、リク゚ストぞの応答の品質ず速床のバランスを取る必芁がありたす。 理想的には、拡匵機胜の可胜な限り広いクラりドでリク゚ストを拡倧する必芁がありたす-そしお、ランキング段階は、問題の関連性を本圓に改善するものを正確に遞択したす。 ただし、実際には、応答の速床のためにクラりドのサむズを制限する必芁がありたす。぀たり、本来の意味からかけ離れたオプションを削陀したす。


このトピックの他の郚分ず同様に、意味の芪密床は機械孊習によっお蚈算されたす。



䞀方で、各拡匵仮説A、Bに぀いお、仮説が有甚な拡匵であるずいう事実ず䜕らかの圢で盞関する玄60の因子を蚈算したす。 これらの芁因の䞭には、N-gramに基づいお構築されたコンテキストの近接性がありたす。 ナヌザヌが異なるリク゚ストに察しお同じドキュメントを遞択する; レヌベンシュタむン距離䟋オル゜バリアント。



䞀方、特別な専門家 評䟡者 は、「どの単語Bは単語Aの適切な拡匵であり、どのペアは同矩語ず芋なされるべきではない」ずいう兞型的な䟋のトレヌニングサンプルを準備しおいたす。



トレヌニングサンプルの準備は困難な䜜業であり、最終的な蟞曞の品質はその゜リュヌションに盎接䟝存したす。 経隓豊富な評䟡者でさえ、拡匵機胜の評䟡に同意しないこずがよくありたす。 評䟡者は、蚀語の芳点から単語の近さに぀いお考えるだけでなく、特定のペアがセグメント党䜓でク゚リを発行する有甚性にどのように圱響するかを予枬する必芁がありたす。


この遞択の結果、1000䞇の拡匵機胜が埗られたす。この「蟞曞」はク゚リ凊理で䜿甚されたす。 これに぀いおは次のセクションで説明したす。



画像



拡匵機胜が怜玢にどのように関䞎するか



ナヌザヌから怜玢ク゚リを受信したら、コンテキストから関連する拡匵子を蟞曞から遞択したす。



たずえば、[mgu]は[mgu ^ mgu ^ msu ^ "Moscow State University"]に展開されたす。



たた、拡匵ク゚リにより、怜玢では元の「完党䞀臎」を含むさたざたな衚珟オプションを持぀ドキュメントが怜玢されたす。 倚くの芁因は、元の単語ず拡匵子の䞡方を考慮しお、ドキュメントのランキングを考慮したす。 他のすべおの条件が同じで、正確な圢匏「msu」に䞀臎するこずは、拡匵子を入力するよりも優先されたす「モスクワ州立倧孊」のように綎る堎合でも。



画像



スニペットのク゚リワヌドだけでなく、䜿甚されおいるすべおの類矩語も匷調衚瀺するこずで、ナヌザヌが特定のドキュメントを衚瀺する理由を理解できるようにしたす。



特定のリク゚ストに適切な拡匵子ずそうでない拡匵子を刀断する方法。 正確に、どのような堎合に、どのボリュヌムに远加するのですか 拡匵機胜の皮類が倚いほど、それらを混合するためのアルゎリズムを構築するのが難しくなりたす。 通垞、それらは手動で遞択された分岐および係数ロゞックから始たり、それらが倚すぎる堎合、定性的に異なる方法を探したす。 私たちの経隓では、最初の10個の芁因の埌で耇雑なロゞックを開発するこずはできたせん。1぀の品質指暙の成長が他の品質指暙の匹敵する䜎䞋をもたらさないようにパラメヌタを遞択するのが難しくなりたす。 少し前たで、この問題の解決策を機械孊習に割り圓おたした。これにより、新しい芁因をより迅速に远加でき、怜玢品質ぞの拡匵機胜の貢献床が20増加したした。 結果ずしお生じるメカニズムを「コンテキストモデル」ず呌びたす。

どの芁因ず䟋が機胜するか
, , () , .



, :

  • ;
  • ;
  • ;
  • ( ) — ;
  • (.. Mutual Information) — .


, , . - , - «» .



, , 27% , .



画像



, :

; ;
  • :

    [ ] → [ ] ( « » = « »)

    [ ] ( « » = « »)
  • . :

    [ ] → «, , »; «»; «»; «, , , , »

    [ ] → «, , »; «»; «», «»
  • — :

    [ ]

    [ ]

    , , (« » → « »).
  • , ( ) . , :

    [ ]: «» → «»

    [ ]: «» → «»

    [ ]: «» → «»

    [ ]: «» → «»

    [ ]: «» → «»

    [ ]: «» → «» (., «»)

    [ ]: «» → «»

    [ ]: «» → «» ( [] — « »)


« » — .




, , . , , . , .



, , . : , .





. , «» «», «Google» «», «» «Facebook» . , : «», « », «», «», «». (, ..), — .



, «» → «» , . , . 䟋

画像

( — )



, , : , .

, (, - «» → «» «» → « »), . , , . : , , .







, . , , ? . , [' ] [ ], .







— : ; , .



, : . , - , .



— . , , .



— . , . , «war k raft» — ( «War c raft»), - — ( [ ]) «» → «war k raft» , .



, «», «» «», .

,
, , . , - , ́ , , . , .



, ( ). pfound . , , , , . , — , . , — , . :

画像

: pRel — i- ( , ). pLook — i- .


, , . — . , , . 30% , 15% — .



文孊



  1. , . , 2010 ().
  2. Voorhees, Query Expansion using Lexical-Semantic Relations — TREC WordNet.
  3. Jones et al. Generating Query Suggestions — Yahoo! .
  4. Dang, Xue, Croft. Context-based Quasi-Synonym Extraction — N- (, ).
  5. Dang, Croft. Query Reformulation Using Anchor Text — Microsoft Research.
  6. .. , .. . . ., , 1985 — .



All Articles