リク゚ストの凊理ず分類。 パヌト2ナビゲヌションリク゚スト

むンタヌネット怜玢゚ンゞンを開くずきに最も必芁なものは䜕ですか 逆説的に芋えるかもしれたせんが、できるだけ早くそれを残したいず思いたす。 願望を定匏化し、ボタンを抌しお、すぐにそれが満たされるべき堎所に行きたす願っおいたす。







欲求を衚珟する䞻な方法は2぀しかありたせん。 䜕を取埗たたは実行する必芁があるかを蚘述するか 、「テレポヌト」したい堎所を瀺すかです。 最初のケヌスでは、システムは最適なネットワヌク回答を適切に遞択するこずにより、芁求を理解しようずし、決定ツリヌでそれらの数癟のプロパティを比范したす。 2番目のルヌルでは、正しい答えは原則ずしお1぀だけであり、怜玢゚ンゞンがそれを知っおいるこずを期埅しおいたす。



2番目のタむプのク゚リ、 どこで 、 どこで質問に答える-ナビゲヌションク゚リ。 私たちが圌らずどのように働くかに぀いおの短い話をあなたの泚意にもたらしたす。



䞀般的に蚀っお、 䜕ず どこの境界はかなりあいたいです。 「サむクリストフォヌラム」ず「自転車フォヌラムru」ずいう2぀の怜玢ク゚リを怜蚎しおください。 珟圚、これらの䞡方の芁求に最も関連する回答は、同じサむトvelo-forum.ruです。 違いは、最初のケヌスでは答えが唯䞀のものではなく、圌ず圌の仲間の間で競争があるこずです.2番目のサむトでは、サむトは結果のリストに茉っおいるだけでなく、それがどれほど悪いか良いかに関係なく、それを導く必芁がありたす。他の自転車フォヌラムず比范しお。 2番目の芁求はナビゲヌションであり、最初の芁求はナビゲヌションではありたせん。



「オノマトペwiki」など、混合型のク゚リもありたす。 今のずころそれらを脇に眮きたすが、それらに戻りたす。



そのため、ナビゲヌション芁求ぞの回答を事前に知る必芁がありたす。 技術的には、このタスクは次のように定匏化されたす。各ナビゲヌションリク゚ストに察応するむンタヌネットアドレス以䞋、タヌゲットず呌びたすを関連付けるために サむト、サむトのセクション、サむトのペヌゞ。 その前に、リク゚ストがナビゲヌションであるかどうかを刀断したす。



なぜこれが必芁なのですか



たず、さたざたな調査により、ナビゲヌションは䞻芳的に最も単玔なタむプの怜玢ずしお認識されおいるこずが瀺されおいたすこれは驚くこずではありたせん。䜕かを理解するよりも䜕かに぀いお知る方が簡単です。 このため、ナヌザヌは怜玢゚ンゞンナビゲヌションの回答の品質を評䟡するこずに特にこだわりがあり、怜玢゚ンゞン党䜓の健党性を決定する際にナヌザヌに最も匷い圱響を䞎えるのはナヌザヌです。



同時に、倚くのナビゲヌションク゚リがありたす。 あたりにも倚くの人が攟眮するのは非垞に軜薄です。 結局、デヌタを凊理する䞊で最も重芁なこずは、䌚蚈ず管理です。 それが統蚈ず監芖です。 この堎合、ク゚リプロパティの統蚈ず応答の品質の監芖。



すべおの怜玢ク゚リを数量の降順に䞊べ替えお、結果のリストを「将来」芋るず、次のようなものが衚瀺されたす。







ナビゲヌションク゚リによっおトップ党䜓が正確にキャプチャされ、人類の最も重芁な情報ニヌズで匱められおいるこずがわかりたす赀でマヌクされおいたす。 したがっお、延期するこずはもうありたせん、



行こう



リストを単玔に歩いお、赀い斑点を投げ、残りの各リク゚ストにタヌゲットを手動で割り圓おるこずから始めたした。 VKontakteずクラスメヌトのみがリク゚ストの合蚈フロヌの5をカバヌし、120件のトップナビゲヌションリク゚ストのリストのカバレッゞはほが15でした。 そのようなわずかな知的支出で悪くない。



さらに、ナビゲヌションの「密床」は急速に䜎䞋するため、必芁なク゚リを自動的にフィルタリングする方法を探す必芁がありたした。 ぀たり、倧たかに蚀えば、「VKontakte」ず「porn」の違いを芋぀けるこずです。



ホヌルヘルプ



ナヌザヌが無関係な回答をクリックするこずはほずんどありたせん。 したがっお、ナビゲヌション芁求の堎合、すべおが正しい答えのみを遞択するこずを期埅するのは理にかなっおいたす。 䜜業仮説は、逆も真であるずいうものでした-リク゚ストを送信するほずんどのナヌザヌが同じ結果をクリックするず、リク゚ストはナビゲヌションであり、結果はそのタヌゲットになりたす。



このテストでは、仮説党䜓が真実であるこずが瀺されたした。非垞に関連性の高い回答「nokiaテヌマ」や「icqのダりンロヌド」などを含むたれな非ナビゲヌションク゚リのみが同様の行動パタヌンを匕き起こしたす。 ただし、ほずんどすべおの誀怜知では、擬䌌タヌゲットがサむト内のペヌゞであるこずが刀明したため、このような芁求を䞀時的に考慮から陀倖したした。



ナヌザヌの党䌚䞀臎を枬定するためのいく぀かの方法埓来のクリック画面を含むを怜蚎し、次のシンプルで䟿利な指暙を決定したした。



C iを結果R iのクリック数ずし、 demandC iをオンデマンドの合蚈クリック数ずしたす。

N = log C i / log ∑ C iは、リク゚ストのナビゲヌションの皋床です。



手動評䟡では、メトリック倀が0.95を超えるク゚リは高粟床のナビゲヌションであるこずが瀺されたした。 さらに、この粟床は、頻床ク゚リずたれなク゚リの䞡方で等しく高いです。 この方法を䜿甚するず、ナビゲヌションの芁求/応答のベヌスは、玄80,000のストレヌゞナニットに成長したした。



ただし、ナヌザヌの行動に基づく分類には重倧な欠点がありたす。

リク゚ストが認識されおいる堎合、぀たりログに存圚し、正しい結果が芋぀かっおクリックされた堎合にのみ機胜したす。 結果ずしお、小さなサむトずたれなク゚リは、実際に宝くじを挔じたす。誰もただ誰かを怜玢しおいない、他の人を怜玢しおいるが、芋぀けるこずができず、ランダムなものだけが成功しおいたす。



新しい芁因



最初に、私たちは少なくずも探しおいたしかし芋぀けるこずができなかった䞍運な人々を助けるこずにしたした。



数千のさたざたなナビゲヌションク゚リを手動で遞択し、それらのプロパティの調査を開始したした。 圌らは、それらの最も特城的な単語ずフレヌズのリスト、およびそれらの反察の、特城的でない単語のリストを線集したした。 リク゚ストを、それらが導くペヌゞのタむトル、およびこれらのペヌゞぞのリンクのテキストず比范したした。 これらのペヌゞのナビゲヌションハヌネスのブロックを゜ヌトしたした。 音蚳されたドメむンずドメむン内パス...



これらすべおが、最終的に、ベむゞアン分類噚の芁玠ずなり、決定朚のノヌドの因子ずなりたした。 トレヌニングサンプルのバランス調敎ず孊習結果の評䟡を数回繰り返した埌、評䟡者はベヌスをさらに10倍増やしたした。 珟圚、玄800,000の異なるペヌゞを察象ずしたリク゚ストがありたす。



ただし、有甚な情報に加えお、マシンモデルはかなりの量の䜎頻床のゎミ、タむプミス、およびデヌタベヌスぞの再トレヌニングアヌティファクトを導入したした。



発生した2番目の問題は、デヌタベヌスの明らかに目に芋える断片化、぀たり、存圚するク゚リず意味的に同等のク゚リが予枬できないこずです。 たずえば、「ヘッドハンタヌの仕事」はベヌスに圓たり、「ヘッドハンタヌの仕事」はモデルにふさわしくないように芋えたした。







私たちの状況では、予枬䞍可胜性は良くありたせん。同じ意味を持぀リク゚ストは同じ方法で凊理されるべきです。 ただし、すべおのリク゚ストのすべおのバリアントをデヌタベヌスに含めるず、それが宇宙の次元にたで膚らみたす。 そしお、よくあるこずですが、2番目の問題の解決策は、最初の問題を調査する過皋で発芋されたした。぀たり、䞊蚘のノむズず冗長性からベヌスを取り陀く方法です。 これを行うには、ナビゲヌションク゚リの「デバむス」を詳しく調べる必芁がありたした。



「デバむス」ク゚リ



ナビゲヌションク゚リは、自然蚀語の文のようにモノリシックではなく、構成で分解するこずもできたす。異なる単語は異なる圹割を果たしたす。 合蚈で、5぀のそのような圹割が特定されたした䞀般に受け入れられおいる甚語がないため、私は自分で䜜成しなければなりたせんでした。 以䞋は、すべおの「ナビゲヌションオファヌのメンバヌ」が存圚する耇雑なク゚リです。







これは実際のナビゲヌションク゚リであり、予想どおり、唯䞀の正しい答えがありたす。



ナビゲヌションの圹割に぀いお説明したしょう。



カヌネル -リク゚ストが導くサむトを䞀意に識別するフラグメント。 これは、リク゚ストの最も重芁な郚分です。 通垞、サむトには10​​を超える異なるコアはありたせん。 たずえば、サむトlib.ruの堎合、「lib ru」、「libra」、「libru」、および「midgeのラむブラリ」です。



バックグラりンド -サむトに蚱可されたフラグメント。 リク゚スト内でのそれらの存圚自䜓は、そのナビゲヌションの性質を瀺すものではありたせんが、同時に適切なカヌネルの存圚䞋でタヌゲットを倉曎するこずはありたせん。 youtube.comの堎合、これらは「ビデオ」、「ビデオ」、 headhunter.ruのような単語です-「空宀」、「仕事」など。



パス -タヌゲットをルヌトペヌゞからサむトに移動する単語。 たずえば、Yandexコアに適甚される「カヌド」ずいう単語は、芁求をmaps.yandex.ruにリダむレクトしたす。



リヌゞョン - パスの䞀皮。リク゚ストの地理的䜍眮を瀺したす。 その特城は、地理䟝存ナビゲヌションの堎合、ク゚リテキスト内の領域の明瀺的な衚瀺は、ナヌザヌの堎所の実際の倉曎ず同等であるこずです。 たずえば、Kazanからナヌザヌから受け取ったIKEAリク゚ストは、他の地域から送信されたIKEA Kazanリク゚ストず同じ堎所に぀ながるはずです。



ノむズ -ナビゲヌションに関しお䜕も意味しない蚀葉。 これらは、「www」、「http」、「website」などの品詞および単語のサヌビス郚分です。



各サむトに぀いお、これらのク゚リフラグメントはすべお、倚くの堎合、異なる順序および組み合わせで繰り返され、デヌタベヌスに存圚したす。 重耇を排陀するために、「耇合」ク゚リを基本郚分に自動的に分割しお、䞀意のフラグメントのみを残し、それらの盞互䜜甚のロゞックをプログラムで実装する方法を探し始めたした。



解決策は驚くほど単玔でした-私たちの手に枡ったのはデヌタベヌスデヌタの冗長性でした。



同じタヌゲットを持぀ク゚リを゜ヌトし、次に短いク゚リを長いク゚リからカットするず、ク゚リのセット党䜓が2぀のタむプのフラグメントに分割されたす個別のク゚リずしお存圚するものず、ク゚リの䞀郚ずしおのみ存圚するもの。 たずえば、゜ヌスリストがリク゚スト「YouTube」ず「YouTube video」で構成されおいる堎合、「YouTube」ずいう単語が最初のリストず2番目の「video」に衚瀺されたす。 これらはそれぞれコアずバックグラりンドになりたす。



サむト内の䞻芁なリク゚スト「Raiffeisen ATM」などを取埗し、同様にルヌトペヌゞ「Raiffeisen」に到達するリク゚ストを「枛算」するず、 pathが取埗されたす 。



途䞭で、最初のリストのさたざたなフラグメントの数をカりントし、デヌタベヌスに最も頻繁なフラグメントのみを残したした。したがっお、倚くのク゚リがそれらに぀ながる倧芏暡なサむトでは、小さなもののために䜕も倱わずにすべおのゎミを捚おるこずができたした。



カオスから秩序ぞ



その結果、分類が再び耇雑になりたした。たず、1぀のリストの代わりに5぀のリストが衚瀺され、次に芁求でそれらを照合する非自明なロゞックを実装する必芁がありたした。



しかし、1石で3矜の鳥を䞀床に殺すこずができたした。ベヌスのサむズを小さくし、䜎呚波ノむズを陀去しながら、分類の完党性を高めたした。 およそ次のようになりたしたほこり-単語backgroundの非垞に無料の翻蚳







ク゚リ分割手順の耇雑さは2次ですが、ただ最適化されおいたせん。単玔な真珠のスクリプトは、1時間以内にデヌタベヌスの分解に察凊できたす。



オンラむンロゞック



したがっお、デヌタベヌスは構造化されおおり、5぀のリストはすべお蟞曞のマヌカヌになっおいたす。 さお、リク゚ストを受け取った瞬間に、そのナビゲヌション性に぀いお最終決定を䞋す必芁がありたす。 これを行うには、パヌサヌで、リク゚ストに察しお次の条件が満たされおいるかどうかを刀断したす。





個別に凊理されたパス 、明瀺的に指定されたURL、リク゚スト内のリヌゞョン 、ナヌザヌの実際のリヌゞョン。 その結果、刀定が発行されたす。芁求がナビゲヌションであるかどうか、およびナヌザヌがどこに行きたいかです。



以䞋は、「りサギはいたせん」ずいうク゚リの操䜜性を確認するプロセスの抂略図です。





しかし、「1石で3矜の鳥を殺す」ずいう神秘的なリク゚ストはクラむアントではありたせん。リク゚ストの䞀郚はナビゲヌションずしお定矩されおいたすが、なじみのないたたはナビゲヌション非互換の単語もありたす。



ロヌカル怜玢



これらのリク゚ストの䞀郚実際には非垞に倚くでは、ナビゲヌション以倖の郚分を独立したリク゚ストずしお提瀺できたす「1石の3矜の鳥の心臓のサりンドトラックはありたせん」、「librusekに関係する」、「YouTube vivaldi heavy」、「shakira v kontakte」。 これらは、冒頭で既に述べた混合型のク゚リです。



厳密に蚀えば、それらはナビゲヌションではありたせんが、私たちがそれらを远い抜いたので、それらは蚀うたでもなく眪です。



サむトの静的セクションずペヌゞ「曞籍ファむル」、「ビヌラむン関皎」を察象ずするオンサむトナビゲヌションずは異なり、そのようなリク゚ストには、指定されたサむトの動的コンテンツから受信した応答が必芁です゜ヌシャルネットワヌクの個人ペヌゞ、ニュヌスリ゜ヌス、癟科事兞の蚘事、フォヌラムなどのトピック



このようなク゚リでは、ナビゲヌション郚分を特定し、他のすべおをナヌザヌがそこで芋぀けたいものず芋なしたす。



このようなク゚リでは、怜玢パラメヌタヌの次の倉曎が可胜です。





結果は䜕ですか



その結果、䞻な質問に察する答えが埗られたした。受信するナビゲヌションク゚リの数ずそれらにどれだけ答えるか。 次の図に簡単な芁玄を瀺したす。







したがっお、リク゚ストのストリヌム党䜓の4分の1から3分の1ロヌカル怜玢を考慮するかどうかによっお異なりたすはナビゲヌションです。 ナビゲヌションク゚リ自䜓のうち、3番目はサむトの内郚ペヌゞに぀ながり、10分の1がナヌザヌの地域に䟝存し、最も人気のある2぀のロシアの゜ヌシャルネットワヌクが四半期党䜓を占めおいたす。 考える機䌚。



さらに、分類結果は、珟圚非垞に匷力な芁因ずしお「倧」怜玢の結果のランク付けに䜿甚されたす。



そしお最埌に、芖芚的な結果ナビゲヌション怜玢の結果に察しお、拡匵スニペットを䜜成し、時には目的のサむトからいく぀かの結果を衚瀺し、ファビコン、りェブサむトリンク、その他の特殊効果を衚瀺したす。







次は



結論ずしお、私たちがただカバヌしおいないセクタヌ、぀たりナヌザヌがただ怜玢しおいないセクタヌを思い出したしょう。 これらは、小さな地域組織、高床に専門化されたサむト、゜ヌシャルネットワヌクのロヌカルコミュニティ、パヌ゜ナルペヌゞ、そしおもちろん、登堎したばかりのサむトずそのセクションです。 それらを小さくしたすが、それらの倚くがあり、い぀か誰かがそれらを芋぀けたいずいう事実に備えたいず思いたす。



ただリク゚ストはなく、それに応じお分類するものもありたせん。 ただし、ペヌゞのテキストを調べたら、ナヌザヌをこのペヌゞに導くク゚リを䜜成できたす。 これを行うには、ペヌゞテキストの䞀意のフラグメントを芋぀けお、ナビゲヌションリク゚ストずしお䜿甚できるフラグメントを遞択する必芁がありたす。



おそらく、このあいたいなタスクは、ドラゎンのいる深byに満ちおいるでしょう。 ほずんどの堎合、他の萜ずし穎ずの解決および衝突に察する他のアプロヌチが必芁になりたす。 しかし、それが面癜い理由です。



私はこれを回っおいたす、あなたの泚意に感謝したす、そしお、私はそれがあなたにずっお面癜かったず思いたす 次の郚分は、スペルチェッカヌに関する話です。



ミハむル・ドリニン、

怜玢ク゚リチヌムリヌダヌ



All Articles