この記事は、Habr向けのSeoNews に関する私の記事を修正したものです。
ロシアの形態
ロシア語では、数十万の単語があり、それぞれがさまざまな単語形式になっています。 たとえば、形容詞は100語の形式にすることができます。
その結果、形態辞書「額」を保持する場合、約500 mbが必要です。 500,000(ワード数)* 75(ワード形式の数を比較)*(10(ワード長の比較)+ 4バイト(ワード番号を格納するには+ワード形式番号を保存するには2バイト)) 。 高速化するには、このすべてのデータをメモリに保持する必要があり、検索エンジンの場合は速度が重要です。
「圧縮された」ビューがあります。 多くの単語は、同じ形式で同じ語尾を持ちます。 たとえば、「great」および「mighty」。 単語の先頭( "great"と "mighty")とグループ番号のみを保存する必要があります。 その結果、約5MBが必要です。 500,000 *(8(開始の長さを参照)+ 2(グループ番号)) 。 ただし、この場合、ベースにはアーティファクトが含まれます。
アーティファクト
動詞( to do )を分詞( to do )に変換するための規則は多くありません。 したがって、分詞と分詞の簡潔なデータベースでは、それらは動詞の動詞形式と見なされ、個別の単語ではありません。
しかし、動詞を完全な形に変換するルール(do-> do、buy-> buy、search-> find)は無数です;したがって、圧縮されたベースでは、完全な形と不完全な形の動詞は異なる単語です。
これらのアーティファクトは、形態を使用して単語形式を組み合わせる検索でのみ重要です。
ヤンデックス
Yandexは、単語形式だけでなく、同義語も強調しています。 ただし、「+」演算子を使用して同義語の強調表示をオフにすることができます。
Yandexの動詞の完全な形式と不完全な形式との関係は、形態学ではなく同義語で構成されています。
しかし、動詞と分詞の接続は形態学によって実現されます。
この図では、形態学的辞書の圧縮アーティファクトがはっきりと見えます。 つまり、Yandexは圧縮を使用します。
発行の違い
おそらく、バックライトは単に「脳の後ろ」にあるのでしょう。 ただし、高頻度のクエリの場合、同義語の強調表示自体はオフになります。 これは、同義語の場合、バックライトが脳に接続されていることを示しています-それだけでオフにすることはできません。 これに関する唯一の説明は、結果に十分な結果があり、Yandexは同義語による検索を接続せずにリソースを節約することです。
発行の違いは、形式と分詞の両方に動詞を含むクエリでよく見られます。 たとえば、YandexとGoogleで入力すると、「en腸を作る」、「en腸を作る」、「en腸を作る」。
発行の品質への影響
Yandexの形態のアーティファクトの存在と、それらが発行の品質には影響しないかもしれないが、ランキングに影響するという事実を示しました。 しかし、Yandexでいくつかの例外をすぐに見つけることができました。形態のレベルでの購入と購入、摘みと摘み、送信と送信の接着。 これらの例外が発生した唯一の仮説は、出力を改善するために追加されたということです。 その結果、アーティファクトは、少なくとも特定の場合、出力を損ないます。
グーグル
Googleは非圧縮形態を使用します。 少なくとも、「圧縮アーティファクト」は見つかりませんでした。
Googleのロシア語の正式なモデルの唯一の不一致は、通常の( 良い )と優れた( 最高の )形容詞の形態が分離されていることです。 これらはおそらく同義語として結び付けられていますが、Googleは同義語を強調していません。
これは圧縮アーティファクトとしては説明されません。形容詞の形を変換するためのルールがあまりなく(美しい->美しい、賢い->賢い)、AOT.ruデータベースもZaliznyakの辞書も形容詞の形を共有しないためです。
度の形容詞の分離は、引き渡しの質の最適化によって説明されます。 形容詞の程度によって「色」が変わり、セマンティックなつながりが単語形式よりも同義語により近くなります。 たとえば、「美しい写真」という意味のクエリは、「美しい写真」よりも「美しい写真」により近いものです。
これは、言語の直感的なアイデアと一致します。 何度か、「良い」と「より良い」が、Yandexが同義語を理解している例を引用したという事実に出会いました。
なぜこれが起こったのか
Yandexの形態は約10年前に書かれ、その後500 MBになりました。 数百台のサーバーのメモリにはかなりの費用がかかります。 それ以降、メモリの価格は低下しましたが、形態の変化により、Yandexデータベースに一連の変化が生じます。 したがって、Yandexは圧縮された形態の形態を使用します。
Googleはもともと英語の検索エンジンでした。 英語では、単語は少数の単語形式しか持たず、形態を圧縮する意味がありません。 したがって、どうやら、Googleのロシアの形態は圧縮を使用していません。
合計
Googleの形態は「より正確に」整理されており、Yandexよりわずかに優れています。 皮肉なことに、この理由はGoogleの英語の起源にあります。
ただし、形態は問題の多くの側面の1つにすぎません。 Googleが形態に基づいてのみYandexよりも優れた結果を持っていると言うことは、額の高さで知能を評価することと同じです。 この記事の目的は、Googleの形態はYandexよりも組織化されていないという信念を払拭することでした。