コンテンツの関連性を枬定する方法

コンテンツレヌティングは、関連匏の䞻芁コンポヌネントの1぀です。 テキスト属性の知識ず、各属性がサむトの評䟡に貢献するこずにより、リ゜ヌスでより専門的な䜜業に近づくこずができたす。 この蚘事では、特定のリク゚ストごずにランキング匏を埩元できるモデルを怜蚎し、特定のリク゚ストを促進する際にサむトの䞻題を決定するこずの重芁性を瀺し、䞍自然なテキストを決定する問題にも察凊したす。



ランキング匏を埩元する



このタスクを数孊の分野に倉換するず、入力デヌタはベクトルのセットで衚すこずができたす。各ベクトルは各サむトの特性のセットであり、ベクトル内の座暙はサむトを評䟡するパラメヌタヌです。 説明されおいるベクトル空間では、2぀のオブゞェクトの順序の盞互関係を決定する関数を指定する必芁がありたす。 この関数を䜿甚するず、「倚かれ少なかれ」の原則に埓っおオブゞェクトをオブゞェクト間でランク付けできたすが、同時に䞀方が他方より倚いか小さいかを蚀うこずはできたせん。 このタむプの問題は、順序回垰を評䟡するタスクを指したす。

圓瀟の埓業員は、遞択性を調敎できる線圢回垰モデルに基づいたアルゎリズムを開発したした。これにより、ある皋床の誀差でサむトのランクを埩元し、サむトパラメヌタヌを適切に調敎しお出力の倉化を予枬するこずができたした。 アルゎリズムの最初のステップは、モデルのトレヌニングです。 この堎合、トレヌニングサンプルは、単䞀の怜玢ク゚リ内でサむトをランク付けした結果を衚したす。 怜玢ク゚リのフレヌムワヌク内でのサむトの順序付けは、実際には、属性空間でトレヌニングセットのオブゞェクトを正しい順序で蚭蚈する必芁がある方向があるこずを意味したす。 この方向は、ランキング匏を埩元するタスクで求められおいるものです。 ただし、図1から刀断するず、このような方向は倚数存圚する可胜性がありたす。

画像

図 1.ガむドベクトルの遞択



この問題を解決するために、ピボットポむント法の根底にあるアプロヌチ、぀たり、互いからオブゞェクトを最倧限に陀去できるような方向の遞択が怜蚎されたした。

解決された次のタスクは、孊習戊略の遞択です。 2぀のオプションが怜蚎されたした。2぀の察応する芁玠の順序を考慮した簡略化された孊習戊略ず、オブゞェクトの順序党䜓を考慮した完党な戊略です。 実隓の結果、短瞮戊略が遞択されたした。これは、次の方皋匏を解くこずになりたす1

画像 どこで 画像 -線圢制玄を䌎う暙準二次蚈画問題の解 画像 どこで

画像 -察称行列

画像 -係数ベクトル

画像 -特性ベクトルの違い



さたざたなサンプル20皮類の怜玢ク゚リで100個の機胜ず500個の機胜に察するこのアプロヌチは、良い結果を瀺したした衚1を参照。





è¡š1.瞮小モデルの結果



画像

画像

図 2. n = 100で回収された回垰係数

画像

図 3. n = 500で埩元された回垰係数

特定のク゚リの結果に぀いお話すず、実行された実隓は次の゚ラヌむンゞケヌタを䞎えたす



è¡š2.蚈算゚ラヌ



画像



プロゞェクトで䜜業するずき、このアプロヌチは、サむト䞊の特定の倉化を䌎う䜍眮を予枬するために䜿甚されたした。 同様の実隓は、テキスト属性に基づいお実行されたした。 最初に、問題のク゚リのTOP20からサむトでデヌタが収集され、その埌、適切なアルゎリズムを䜿甚しおデヌタが暙準化されたした。 その埌、アルゎリズムを盎接実行しお、二次蚈画法を䜿甚しお「関連性」を蚈算したした。

取埗したサむト関連性の倀は゜ヌトされ、埩元された䜍眮に぀いお結論が䞋されたす。



è¡š3.ポゞションリカバリヌ



画像



ク゚リ「タむダフィッティング」をランク付けする際の䜍眮ぞの最倧の圱響は、Yandexカタログでの存圚、ク゚リ「タむダフィッティング」の最初の単語の出珟、ク゚リ「タむダフィッティング」の最初の単語のh1での出珟、2番目のク゚リ単語のペヌゞのタむトル機噚」。

察応する修正がサむトパラメヌタで行われ、プログラムが開始されたした。 その結果、察応するポゞションの予枬が行われたした。



画像

図 4.ランキング匏を埩元するプログラム



これらの倉曎はすべおサむトで行われ、次の曎新埌、サむトは予枬されたものに近い䜍眮を占めたした。 初期䜍眮は50でしたが、これらの倉曎埌はTOP20になりたした。



画像

図5 ク゚リ「タむダフィッティング機噚」の結果



テキスト察象の枬定



ランキング匏の埩元の䜜業で、サむト党䜓の䞻題に察するテキスト䞻題の䞻題の近接床を枬定するこずの重芁性が確認されたした。 同様のメトリックは、ペヌゞの関連サブゞェクト、関連ク゚リ、およびサむト党䜓のベクトル間のコサむンの蚈算に基づいお構築できたす。2

画像

どこで 画像 そしお 画像 したがっお、サむトおよび問題のドキュメントの䞻題ベクトルの指定。

Nは、コレクションディクショナリ内の単語の数です。 文曞Di内の各単語jの重みは、匏3によっお蚈算されたす。

画像

ここで、countijはドキュメント内の単語の出珟回数、IDFwjはコレクション内の単語の逆頻床です。 文曞内の各単語の重みを蚈算した埌、ベクトルは正芏化されたす4

画像



同様に、ベクトルはサむト党䜓に察しお構築されたすが、サむトのテキストは、含たれおいるすべおのドキュメントのテキストを結合するこずによっお取埗されたす。

したがっお、ドキュメントの䞻題倀を決定するアルゎリズムは、次のように衚すこずができたす。

1蟞曞は、たれな単語やストップワヌドが存圚しないものずしお定矩されおいたす。 蟞曞を構成する単語のIDFは、意味のある単語の範囲内にありたす。

2N次元の䞻題ベクトルが構築されたす 画像 問題の文曞甚 画像 匏3および4を䜿甚したす。

3N次元の䞻題ベクトルが構築されたす 画像 サむト党䜓 画像 匏3および4を䜿甚したす。

42を䜿甚しお、ベクトルの近接性を確立したす 画像 そしお 画像 。 ベクトルが近いほど、ドキュメントの䞻題倀 画像 䞊蚘。



このモデルに基づいお、問題のドキュメントずサむト自䜓のテキストコンポヌネントのテヌマの類䌌性を刀断するプログラムが䜜成されたした。 実隓は、同じテヌマ、類䌌のテヌマ、異なるトピックの3぀のサむトグルヌプに基づいお実行されたした。 合蚈200件の蚘事が凊理されたした。 凊理の結果、衚に瀺されおいる「1぀のテスト文曞/ 9぀のトレヌニング文曞」の20グルヌプに぀いお、以䞋のデヌタが取埗されたした。



è¡š4.テヌマの完党性テストの結果



画像



この衚は、情報リ゜ヌスの䞻題の完党性を刀断するための提案された方法が実際に機胜するこずを瀺しおいたす。 ただし、開発されたシステムの欠点が特定されたした。 たず、倚くの堎合、サむトには情報のないペヌゞや情報のないペヌゞ泚文フォヌム、フィヌドバック、連絡先などがありたす。 第二に、ランダムに指定された数のトレヌニングテキストを遞択する際に、テヌマのないペヌゞを遞択できたす。 第䞉に、特定の蚀葉ではないが、特定の単語のスペルなど、䞻題が類䌌しおいる非特定のコンテンツがテストテキストずしお認識される堎合がありたす。 第4に、意味が亀差しながら、さたざたなテヌマ領域をカバヌするサむトオンラむンストア、ニュヌスサむト、抜象的な銀行がありたす。

これらの欠点により、党䜓像からリ゜ヌスの䞻題の完党性を評䟡できたす。 䟋ずしお、機噚に関するリク゚ストがあるトピック「ロゞスティクス」のサむトを怜蚎したすロゞスティクスに関する情報に加えお、サむト䞊にカタログがありたす。 このサむトはYandex.Catalogに登録されおおり、「貚物茞送ず茞送」ずいう基準がありたす。

画像

図 6. Yandexカタログで割り圓おられたセクション。



䞊蚘の方法を䜿甚しお、宣䌝されおいるペヌゞの䞻題の完党性は、「䞭囜からの茞送ず配送」ずいうトピックの芁求に関しお完党ではなく、「機噚」のトピックに関しおかなり倧きいず結論付けられたした。 「物流機噚」ペヌゞの比率はそれぞれ「30200」でした。 したがっお、䜍眮ずトラフィックの䞡方は、機噚に関連するリク゚ストのみでした。 同時に、「物流」が優先事項でした。 問題を解決するために、詳现な情報を取埗するためにレタヌがYandexに曞かれたした。 しかし、プラトンからサむトの改善ず開発に関する暙準的な回答が寄せられたしたが、䞀般的にはすべおが順調です。

解決策ずしお、サむトで必芁なトピックを開発するか、2぀のトピックを異なるサブドメむンに分離するかの遞択がありたした。 迅速な結果を埗る必芁がありたす。 TORは、「機噚」の方向をサブドメむンに転送するためにコンパむルされ、「物流」に関する情報はメむンサむトに保存され、トピックに関連する新しいペヌゞを远加しおリ゜ヌスを開発したした。 倉曎の結果を図に瀺したす。 機噚のリク゚ストはサブドメむンに正垞に切り替えられ、肯定的な䜍眮を占めたした。 そしお、物流ず茞送のリク゚ストにテヌマ別ペヌゞを远加した埌、圌らはポゞティブなダむナミクスを瀺し始めたした。

画像

図 6.トピックを育おた埌のプロモヌション結果



したがっお、「サブドメむン+ドメむン」スキヌムにより、損倱なくトピックを広めるこずができ、それにより各トピックの関連性を個別に高め、芁求に応じお積極的なダむナミクスを達成するこずができたした。



テキストの自然さの枬定



Yandex.Catalogにアクセスするための芁件が​​厳しくなりたした。 最近、サむトをチェックするずきに、Yandexの埓業員が䜎品質のコンテンツを報告するずいう事実に盎面する必芁がありたす。 倧芏暡なサむトでこの事実を手動で識別するこずは問題です。 したがっお、珟時点では、これらのテキストの特性を分析する䜜業が進行䞭です。 それらのいく぀かに぀いお説明したす。 スパムテキストを受信する2぀の䞻なアプロヌチは区別できたす。ロシア語の文字をラテン文字に眮き換えるこずず、意味のないコンテンツを生成するこずです。

最初のアプロヌチは、反転した呚波数の助けを借りお倉曎された単語を特定し、経隓的な方法で確立された臚界倀ず比范するこずによっお明らかにされたす。 ロシア語の文字を同様のラテン文字に眮き換えお圢成される単語は、䜿甚統蚈の芳点からはたれな単語です。 共通のコレクションで逆呚波数を䜿甚するず、そのような単語を識別できたす。 テキストノヌドの各芁玠ぞ 画像 倀が割り圓おられたす 画像 逆呚波数関数fhの䜿甚5

画像

反転呚波数の関数ずしお、6、7、8を考慮したした。

画像

ここで、Dはコレクション内のドキュメントの数、DFは補題が発生するドキュメントの数、CFはコレクション内の補題の出珟数、TotalLemmsはコレクション内のすべおの補題の出珟数です。 これらの遞択肢のうち、実隓およびグリンAの研究での最良の結果はICFによっお瀺されたした7。 画像 ここで、怜蚎䞭のテキスト内の補題の出珟回数は、集合内のすべおの補題の出珟総数です。

関数fhの倀が倧きいほど、単語の出珟頻床は少なくなりたす。 意味のある単語のICF間隔を取埗するために、プログラムが䜜成され、その入り口でさたざたな内容のテキストが提出されたしたテヌマの圱響の排陀。 プログラムは玄500 MBのテキスト情報を凊理したした。 凊理の結果、ICF単語の逆頻床の蟞曞が通垞の圢匏で取埗されたした。 単語の語圙化は、パヌサヌのmystem瀟であるYandex瀟を䜿甚しお実行されたした。 すべおの蟞曞゚ントリは、逆呚波数の昇順で゜ヌトされたした。 この蟞曞の分析の結果、重芁な単語の間隔が埗られたした[500; 191703]。

スパムテキストを怜出するための基準を確立するために、臚界倀Hcritも導入され、Hpは、経隓的に確立された臚界倀Hcritを超える特性を持぀単語の割合に察しお蚈算されたす9

画像

重芁なマヌクずしお、重芁でない単語の割合が䜿甚されたす-50公匏単語の頻床の最高の指暙は37.60であり、著者は平均で単語を発明したした-5.63。 1぀のテキストでこのような語圢成Hpを䜿甚しおいる割合が高い堎合は、ドキュメントが生成されおいるこずを瀺したす。

ただし、このようなスパムテキストを含むサむトはほずんどありたせん。 2番目のアプロヌチはより䞀般的です。 マルコフ連鎖に基づいたゞェネレヌタヌによっお生成された䞍自然なテキストのクラスがありたす。 パブロフA.S.の研究に基づく このようなテキストを識別するためのモデルが提案されおいたす。

文曞DのテキストコンポヌネントB党䜓には、倚くの機胜がありたす 画像 著者が制埡するのは難しい。 䞍自然なテキストの自動分類噚を構築するには、機械孊習で遞択された機胜が䜿甚されたす。 開発䞭のアプロヌチずしお、決定朚C4.5に基づくアルゎリズムがありたす。 䞍自然なテキスト自䜓を決定するアルゎリズムは次のずおりです。

画像

図 7.生成されたコンテンツを決定するアルゎリズム



決定朚を取埗するために、2000幎の自然なテキストデヌタベヌスが甚意され、2000幎の䞍自然なテキストデヌタベヌスも利甚できたした。䞀郚はむンタヌネットで芋぀かり、䞀郚は生成され、残りはサンプルドキュメントの同矩語化たたは倖囜語からの翻蚳によっお取埗されたした。 元のコレクションはROMIP By.Webコレクションでした。 生成および同矩語化ツヌルはむンタヌネットで発芋されたしたTextoGEN、Generate The Web 2.2、SeoGeneratorなど。

結果ずしお埗られたテキストのセットは、2぀の等しい郚分に分割されたした。 最初のグルヌプはトレヌニングサンプルずしお䜿甚され、2番目の郚分はテストセットでした。 䞡方のサンプルには、同じ数のサンプルドキュメントず生成されたテキストがありたした。

孊習プロセスでは、テキストごずに、テキストの自然さの決定に圱響するパラメヌタヌを掚定するベクトルを䜜成するプログラムが䜜成されたした。 Pavlov A.S.の研究によるず 孊習ぞの最倧の貢献は、テキストの倚様性ず品詞の䜿甚頻床を決定するパラメヌタのリストにありたす。 この衚には、ロシア語のテキストの分類に最も䟡倀のある機胜のリストが瀺されおいたす。各機胜のFメゞャヌず機胜のタむプが瀺されおいたす。



è¡š5.テキストの分類に最も䟡倀のある機胜

画像



埗られた各文曞DのベクトルPを䜿甚しお、決定朚が構築されたした。 この手順は、分析プラットフォヌムDeductor Studio Academicバヌゞョン5.2を䜿甚しお実行されたした。 Deductorでは、ディシゞョンツリヌハンドラヌは、分類問題を解決する修正C4.5アルゎリズムに基づいおいたす。 その結果、157個のノヌドず79個のルヌルでツリヌが構築されたした。 図 結果のツリヌの䞀郚が衚瀺されたす。 取埗したルヌルは、サむトのスパムテキストを決定するずきにメむンプログラムで䜿甚されたした。



画像

図 8.決定朚。 分析プラットフォヌムDeductor 5.2。



画像

図 9.テキスト分析プログラムの結果



実際には、このアプロヌチは、オンデマンドでのダむナミクスの欠劂の理由を芋぀けるのに圹立ちたした。 プログラムは、サむトカテゎリのすべおのペヌゞで生成されたテキストを怜出したした。 調査䞭に、同じサむトの機械翻蚳の内容を衚しおいるが、英語版であるこずが刀明したした。



画像

図 10.カテゎリペヌゞのテキスト



これらのテキストを線集した埌、プロモヌトされたペヌゞのみでさえ、優れたダむナミクスが埗られたした。TOP500からのリク゚ストは9週間ですぐにTOP10に到達したした。



画像

図 11.倉曎されたテキストの䟋。



画像

図 12.蚈算埌数週間ごずのポゞションの倉曎。



結論ずしお、考慮される機胜の開発は必須ではないこずに泚意しおください グロヌバル怜玢゚ンゞンの研究に圹立ちたす。 サむトを宣䌝するずきは、TOP分析に基づいおク゚リを正確に凊理できるアプロヌチを開発するだけで十分です。 これには倚くの自然なツヌルがありたす。

1サむトで芁求されおいる関連ペヌゞの数を確認し、競合他瀟ず比范したす-サむトのテキストの完党性を評䟡できたす

2保存されたコピヌの詳现なク゚リで匷調衚瀺された単語に泚意を払いたす-テキストの䜜成、単語が互いにどの皋床離れおいるかを支揎したす

3ク゚リ蚀語を䜿甚したす。 たずえば、正確なリク゚ストの出力を匕甚笊なしで分析するこずにより、テキストコンポヌネントの問題を特定できたす。

4高床な怜玢を通じお、特定のサむトでリク゚ストを怜玢し、どのペヌゞずその理由がプロモヌトよりも高いかを分析したす

5Webmaster.YandexおよびWebmaster.Googleの結果、指暙、GAデヌタも問題を特定し、それらず連携するのに圹立ちたす。

芁求に応じた意図的な掻動は、垞に肯定的な結果をもたらしたす。



蚘事の著者Neelova N.V. Ph.D.、゜フトりェアむンゲヌト郚門長、Polenova EA チヌムリヌダヌむンゲヌト。



All Articles