怜玢サヌビスのカスタマむズ

この䜜業では、情報怜玢の怜玢結果の圢成においお、ナヌザヌの心理的特性を考慮したパヌ゜ナラむれヌションテクノロゞヌを適甚する原則の抂芁を説明したす。

この技術の目的は、䞀般的にむンタヌネット䞊に個人甚の快適なスペヌスを䜜成し、特に怜玢サヌビスずのやり取りを積極的に䜓隓するこずです。 その結果、怜玢サヌビスはリ゜ヌスの䜿甚を最適化するツヌルを受け取りたす。



珟圚、各ナヌザヌの情報芁求に察しお、怜玢゚ンゞンは䜕千ものリ゜ヌスを芋぀けたす。 他のすべおのリ゜ヌスの䞭でより高いランクを割り圓おるために、どの特定のリ゜ヌスがナヌザヌの関心を匕くかを決定する方法は 情報芁求のリリヌスの関連性を解決するこずは、怜玢サヌビスの優先タスクの1぀であり、ナヌザヌの時間を節玄するためではなく、リ゜ヌスを集䞭的に䜿甚するプロセスのためです。 珟圚のシステムでは、むンタヌネット䞊のすべおのペヌゞを定期的にスキャンしおむンデックスを䜜成し、ナヌザヌの怜玢ク゚リを参照しお人気を刀断し、すべおのナヌザヌのすべおのク゚リに関する情報を保存する必芁があるため、ク゚リ履歎を確認できるように、リ゜ヌスの䜿甚を最適化するずいう問題が非垞に重芁になりたす。

最適化オプションの1぀は、ナヌザヌが問題のペヌゞをめくったり、新しいペヌゞを「プルアップ」するのに時間を費やす必芁がないように蚭蚈されたパヌ゜ナラむズ怜玢です。

最近たで、個人怜玢では、ナヌザヌの特定のデヌタ短期たたは長期の怜玢履歎、興味、たたはその他を䜿甚しお、怜玢の関連性を高めたり、䜿甚したせんでした。

この技術は、むンタヌネット掻動のさたざたな分野で䜿甚するために普遍的であり、「人間-デゞタル情報」ずいう2぀の抂念によっお結ばれおいたす。 これには、玹介システム、広告、情報怜玢などが含たれたす。

説明されおいるパヌ゜ナラむれヌションの技術は、2぀の基本原則に基づいおいたす。 最初に-人のニヌズは、意識たたは無意識の圌の掻動蚀い換えれば、行動のベクトルを決定したす。 䟋倖はいく぀かの粟神障害ですが、それらは考慮されたせん。 2番目の原則は、粟神の反応性です。぀たり、刺激が暎露されるず、粟神は特定の明確な反応を瀺したす。

むンタヌネット䞊の人間の行動に関しお、これらの原則は連鎖を圢成したす-「関連情報の怜玢-情報の消費」。 最初の-この堎合、「関連する」ずいう蚀葉は珟象の状況的性質を反映しおいるこずに泚意しおください。人は倚くのニヌズを持ち、そのうちの1぀以䞊が状況の行動ベクトルを決定したす。2番目-人がコミュニケヌションのためにむンタヌネットにアクセスしおも、これは倉わりたせん本質-特定のニヌズが満たされ、コミュニケヌション自䜓が結果を達成する方法ずしお機胜したす。 蚀い換えるず、ナヌザヌは意図的にむンタヌネットサヌフィンペヌゞからペヌゞぞの䞀連の遷移ですが、実際には怜玢を実行し、粟神は各コンテンツナニットに肯定的適切たたは吊定的䞍適切に応答したす。 肯定的な反応が発生した堎合、サヌフィンが䞭断され、「コンテンツの消費」が発生したす。

最初は、パヌ゜ナラむズド怜玢の問題は、心理孊ず情報技術ずいう2぀の科孊分野の接点にありたす。 この堎合、心理孊は質問に答える必芁がありたす-コンテンツの芁玠は正確に䜕であり、情報芁求の発行を圢成する際にどのように考慮する必芁があるので、発行はパヌ゜ナラむズされた、぀たりこのナヌザヌのニヌズを個人的に満たすこずができたす。 情報技術は、これらの芁玠の分離ず解釈のためのツヌルアルゎリズムを提䟛する必芁がありたす。

提案されたアプロヌチは、ナヌザヌの粟神のモデルを構築するこずです。これにより、コンテンツの提案されたナニットに察するナヌザヌの反応を予枬する可胜性が高くなりたす。 この堎合、「高確率」は80以䞊の確率を意味したす。



特定のナヌザヌのプシュケモデルの構築は、次のアルゎリズムに埓っお実行されたす。

1コンテンツ単䜍ぞのナヌザヌ応答の登録。 肯定的な反応ずしお、リンクをクリックしたずいう事実たたはナヌザヌ自身によるブラりザヌアドレスバヌのリ゜ヌスの衚瀺ずペヌゞで費やされた時間の䞡方が考慮されたす。

2リンクずその説明リンクがある堎合たたはリ゜ヌスの䞻題ブラりザのアドレスバヌの䜿甚がある堎合の遞択ナヌザヌの粟神が反応する可胜性のある意味単䜍以䞋、「意味単䜍」ずいいたす。 。 この目的のために、倖界の特定の珟象ず、人間の内郚粟神平面におけるそれらの反射ずの関係を蚘述するセマンティックネットワヌクが開発されたした。これは、このような反射のバリアントを決定する個䜓発生時に固有たたは圢成される個人特性の識別たでです。

3特定のコンテンツ芁玠ぞの反応によっお盎接決定されるカテゎリだけでなく、基本的に、基瀎ずなる人栌特性生埗、個䜓発生䞭に獲埗、および[カテゎリ]に関連するモデルの構築関連する文化および情報スペヌス受け入れられた瀟䌚的芏範、1぀たたは別の瀟䌚的クラスに属するなど。



しかし、実際に刀明したように、適甚された問題を解決するためにこの圢匏の心理モデルを䜿甚するこずは困難でした。 したがっお、怜玢動䜜に重芁な限られた数のセマンティック単䜍に察する圌の応答を反映する倚くのナヌザヌ特性を含むナヌザヌプロファむルを圢成するこずが提案されたした。 ナヌザヌプロファむルは、適甚された問題を解決するために簡単に適甚できるプシュケモデルの単玔化されたバヌゞョンです。

Yandexが無料アクセスのために提䟛するナヌザヌの怜玢アクティビティのク゚リを競合のため゚キスパヌトメ゜ッドを䜿甚しお分析した結果、指瀺の芁求、むンタヌネットでの受信、遞択など、9぀の䞻芁なク゚リグルヌプを特定するこずができたした。

分析では、䞎えられたアむデアの衚珟圢匏を無芖しお、リク゚ストの「アむデア」を考慮したした。

各グルヌプに぀いお、専門家による方法が甚語集をたずめたした。 さたざたなク゚リグルヌプの甚語集の単語は重耇しおいたせんでした。 この甚語集を䜿甚するず、ク゚リキヌワヌドによっおグルヌプを自動的に決定できたす。

たた、各グルヌプに察しお、専門家の方法が特定のスケヌルシステムを開発したした。 これらのスケヌルは、このグルヌプに関連するク゚リぞの応答に含たれる情報の重芁な特性の䞍倉性を反映しおいたす。 たずえば、「指瀺の芁求」グルヌプでは、次の尺床が決定されたした知性のレベル、理論の実践、深局の深さ、画像、ランダム性の構造性など。 異なるグルヌプには、異なる数のスケヌルが含たれたす。

各ナヌザヌは、個人的な特性により、リク゚ストぞの応答から特定の期埅を圢成したす。぀たり、各ナヌザヌは、特定の特性セットを持぀情報を「期埅」したす。 新しいスマヌトフォンのリク゚ストの䟋は、若い女の子がそのようなリク゚ストを行った堎合、スマヌトフォンはファッショナブルであるため、デザむン、配色などを評䟡するために、高い確率で倚くの写真を含むリ゜ヌスを芋るず予想する堎合です。アクセサリヌ。 この芁求がオタクによっお行われた堎合、圌は新補品の機胜を評䟡し、もしあればアナログず比范するために、技術蚈画からの情報を期埅したす。

䟋倖は、怜玢システムを電卓、スラむドルヌル、たたはその他のデバむスの類䌌物ずしお䜿甚する堎合で、その出力は解釈に関しお最倧​​限に統䞀され、通垞は蚘号数字および/たたは埓来の蚘号の圢で䜜成されたす。

䞊蚘に基づいお、2぀のポむントを匷調したす。たず、スケヌルは情報の特性を反映したす。 第二-ナヌザヌの個人的な特性が圌の期埅を決定したす。

したがっお、実際には、個人怜玢は、特定のナヌザヌの期埅を刀断し、必芁な特性を備えた情報を提䟛するこずに芁玄されたす。 この手順は、怜玢の察象には圱響したせん。

提案されたパヌ゜ナラむれヌションテクノロゞヌにより、特定のナヌザヌの期埅を刀断するこずができたす。 この目的のために、ナヌザヌのク゚リ履歎が分析され、プロファむルが圢成されたす。ここでは、ク゚リの各グルヌプのこのナヌザヌに関連するすべおのスケヌルが衚瀺されたす。 䞀方、テクノロゞヌは情報を特城付けるツヌルを提䟛したす。

最初のナヌザヌプロファむルの圢成ずその埌の再蚈算、および情報特性の決定の䞡方をオフラむンで実行できたす。これにより、ナヌザヌプロファむル内の[必芁な]ク゚リグルヌプの珟圚のむンデックスの蚈算ず、蚈算されたむンデックスぞの最倧察応に応じたリ゜ヌスのランキングぞの操䜜がリアルタむムで削枛されたす。



パヌ゜ナラむズされた怜玢に提案された技術を䜿甚する可胜性を評䟡するために、実隓が行われたした。 䜜業仮説ずしお、怜玢サヌビスでこのパヌ゜ナラむれヌションテクノロゞヌを䜿甚するず、情報リク゚ストの怜玢結果の関連性が高たるずいう仮定が遞択されたした。぀たり、ナヌザヌが遞択したリ゜ヌスのランクは䜎くなりたす。



サンプルの説明

実隓は、パヌ゜ナラむズされたネットワヌク怜玢Personalized Wed Search Challengeの公開競争の䞀環ずしお、Yandexによるパブリックアクセス甚に提䟛されたデヌタのサンプルで実斜されたした。 この「ベヌス」には、怜玢アクティビティに関する情報が含たれおいたす。 60日間のナヌザヌ。 以䞋のデヌタが提案されたした。

-ナヌザヌID

-リク゚ストID

-ナヌザヌ怜玢ク゚リテキスト

-統䞀された怜玢゚ンゞンク゚リテキスト

-課題の最初のペヌゞのリ゜ヌスのリストたたは最初の10リ゜ヌスおよび察応するランク

-ナヌザヌがクリックしたリ゜ヌスのランク

生産胜力が限られおいるため、サンプルはシステムによっおランダムに遞択された4 500人に削枛されたした。

その結果、サンプリングパラメヌタは次のようになりたした。

-ナヌザヌ数-4 500人。

-掻動の䌚蚈期間-60日間19-09-13から17-11-13たで

-リク゚ストの総数-1 104 347



実隓の説明

実隓を行うための方法ずしお、修正されたA / Bテストが遞択されたした。 倉曎は、実隓矀ず察照矀ぞの分割が被隓者間ではなく察象間で行われたずいう事実から成っおいたした。 ぀たり、ナヌザヌ自身ではなく、ナヌザヌの怜玢アクティビティがグルヌプに分割されたした。 これは、このアプロヌチが各ナヌザヌの個人特性を備えたプロファむルの圢成を意味するずいう事実によるものでした。

実隓の第1段階で、システムはク゚リを分類したした。぀たり、䞊蚘の9぀のグルヌプのいずれかにク゚リを割り圓おたした。

サンプルでは、​​遞択したグルヌプがすべおのリク゚ストの48.7538,441をカバヌしたした。 残りの51.3565,906には、文法゚ラヌ、音蚳の䜿甚、およびどの甚語集にも含たれおいない単語の䜿甚のためにシステムが識別できなかったク゚リが含たれおいたした。

第2段階では、サンプルのナヌザヌの個人プロファむルを䜜成する可胜性に぀いお評䟡が行われたした。 提案されたアプロヌチのフレヌムワヌク内で機胜プロファむルを圢成するナヌザヌ怜玢アクティビティこの䟋では40ク゚リには䞋限があるため、システムはこの基準を満たさないナヌザヌずク゚リを砎棄したした。 その結果、サンプルは3,826人に枛少したした。 リク゚ストの総数-523 007。

この段階は、限られたデヌタのみによるものです。 怜玢サヌビスにはこの問題はないはずです。

第3段階では、芁求は実隓グルヌプず制埡グルヌプに分けられたした。

80:20の比率でグルヌプに分割するこずが決定されたした。぀たり、各ナヌザヌのアクティビティの80が実隓グルヌプ、20に分類されたす。

その結果、実隓グルヌプでは418,406件のク゚リが、コントロヌルでは104,601件のク゚リが受信されたした。

4番目の段階では、実隓グルヌプからのリク゚スト418,406リク゚ストがスキヌムに埓っおシステムによっお凊理されたした。リク゚ストグルヌプの決定->ナヌザヌが遞択したリ゜ヌスの重芁なスケヌルの重倧床の評䟡。

ク゚リグルヌプは、ク゚リキヌワヌドずク゚リグルヌプの甚語集を比范しお定矩されたした。 次に、システムはこのク゚リグルヌプの重芁なスケヌルを決定し、その重倧床を評䟡したした。 この情報は䌁業秘密であるため、重倧床を評䟡するための原則ずメカニズムを開瀺するこずはできたせんが、機械孊習からアクセスできるず蚀えたす。

実隓グルヌプのリク゚スト凊理の結果によれば、ナヌザヌプロファむルが圢成されたした。 各ク゚リグルヌプのプロファむルでは、ナヌザヌにずっお重芁なスケヌルの名前ず蚈算された係数ナヌザヌの優先床が瀺されたした。

蚭蚈容量が限られおいるため、システムはナヌザヌが遞択した特定のリ゜ヌスペヌゞではなく、リ゜ヌス党䜓を凊理したこずに泚意しおください。 たずえば、ナヌザヌがslovo.ws/resh/007を遞択した堎合、システムはslovo.wsを分析したした 。 この事実は、第䞀に、゜ヌシャルネットワヌクやYoutubeなどのすべおのコンテンツアグリゲヌタヌが、コンテンツが倚皮倚様であるために凊理から脱萜したずいう事実に぀ながりたした。 第二に、これは、劣化の方向での実隓結果に圱響を䞎える可胜性がありたす。

第5段階では、制埡グルヌプからのリク゚スト104 601リク゚ストが次のスキヌムに埓っおシステムによっお凊理されたしたリク゚ストグルヌプの決定->重芁なスケヌルの重倧床の決定->個人プロファむルぞのコンプラむアンスむンデックスの蚈算->察応むンデックスによる怜玢結果のリ゜ヌスのランク付け->リ゜ヌスのランクの決定ナヌザヌが遞択したす。

前のステップず同様に、リク゚ストキヌワヌドをリク゚ストグルヌプの甚語集ず比范しお、リク゚ストグルヌプを決定したした。 次に、システムはこのク゚リグルヌプの重芁なスケヌルを決定し、その重倧床を評䟡したした。 その埌、怜玢結果最初の10リ゜ヌスから各リ゜ヌスの察応むンデックスが蚈算されたした。 このむンデックスは、スケヌル自䜓ず出力内のリ゜ヌスの重倧床が、個人プロファむル内のこの芁求グルヌプのナヌザヌにずっお重芁なスケヌルに察応する床合いを反映しおいたした。 蚈算されたコンプラむアンスむンデックスに基づいお、システムは怜玢結果のリ゜ヌスのランク付けされたリストをコンパむルし、ナヌザヌが遞択したリ゜ヌスのランクを決定したした。

最終段階では、情報コンテンツの基準によるリク゚ストの分析が行われたした。 情報量の少ないク゚リを陀倖した埌、遞択したリ゜ヌスの平均ランクが蚈算され、怜玢゚ンゞンの結果ず個人通信むンデックスによっおランク付けされたリストで比范されたした。

情報コンテンツに関するク゚リを分析する際に、以䞋が排陀されたした。

aナヌザヌが怜玢結果でリ゜ヌスを厳密にランクシヌケンスで遞択したずきのリク゚スト䟋resource ranks1 * ; 1、2; 1、2、3; 1、2、3、4; 1、2、3、4、5など-私たちが信じおいるように、そのような行動は個人的な奜みを反映するのではなく、ランク付けされた情報のステレオタむプ認識の結果であるため-最も重芁な䞊からより重芁でないより䜎いリストぞ。 この堎合、最埌のリ゜ヌスがナヌザヌに最も関連しおいるず想定するこずができたすそれを読んだ埌、ナヌザヌはこのリク゚ストの怜玢アクティビティを停止/倉曎したした。 この堎合、次の時間パラメヌタヌを分析比范する必芁がありたした-怜玢結果の衚瀺ずナヌザヌの最初の遞択の間の時間、コンテンツずの察話の時間、次の芁求の時間-コンテンツの䞀意性、-ばらばらな情報の存圚、衚瀺スタむルなど。怜玢サヌビスが提䟛するオヌプンアクセス甚のデヌタベヌスには時間パラメヌタがなく、コンテンツの䞀意性の分析も行われなかったため、かなりの蚈算リ゜ヌスが必芁でしたが、実行したせんでした。 ursですが、時間デヌタなしでは圹に立ちたせんでした。

* -ナヌザヌが期埅に応えるためにリ゜ヌスNo.1を遞択したこず぀たり、ナヌザヌの個人的な特性が遞択を決定したこずを決定し、これがテンプレヌトアクションではないこずを刀断するには、怜玢結果を衚瀺しおからリンクをクリックするたでの時間を分析する必芁がありたす。 №1 ( -, , ) №2. , , , .

.

) , . , , , , , , .

) , . , , .

74 279 (~71% ). 3,6. , , 2,9. ~19,4%, ( , ) ~16,1%.





, , , . ~16,1%.

. , , ( – ), , , – . , , . , ó , , . , , , , ( , .).

, , . -, . -, , , , / .

( ). , , / , , , «» , .



: , .



All Articles