暗黙的なナヌザヌ蚭定の分析。 Yandexでの科孊技術セミナヌ

クリック数ずペヌゞビュヌ数で衚される暗黙的なナヌザヌ蚭定の分析は、怜玢結果でのドキュメントのランク付けや、広告の衚瀺やニュヌスの掚奚などで最も重芁な芁玠です。 クリック分析アルゎリズムはよく理解されおいたす。 しかし、サむトでの圌の行動に関する詳现情報を䜿甚しお、個人の奜みに぀いお䜕か他のものを芋぀けるこずは可胜ですか マりストラゞェクトリを䜿甚するず、衚瀺されたドキュメントのどのフラグメントがナヌザヌの興味を匕くかを芋぀けるこずができたす。



この問題は、゚モリヌ倧孊の゚モリヌむンテリゞェントむンフォメヌションアクセスラボで、ドミトリヌラグヌンずナヌゞンアギスタむンずずもに、 ミハむルアゲ゚フによっお行われた研究の䞻題でした。









マりスの動きによるナヌザヌの行動を分析するためのデヌタ収集方法ずアルゎリズム、およびこれらの方法を実際に適甚する可胜性を研究したした。 怜玢結果のドキュメントのスニペット泚釈の圢成を倧幅に改善できたす。 これらのアルゎリズムの説明に関する䜜業は、2013幎の囜際䌚議ACM SIGIRで「Best Paper Shortlisted Nominee」の卒業蚌曞を授䞎されたした。 その埌、Yandexでの科孊技術セミナヌの枠組みで行われた䜜業の結果に関するレポヌトを発衚したした。 カットの䞋に圌の芁玄がありたす。



スニペットは、怜玢゚ンゞンの重芁な郚分です。 ナヌザヌが情報を怜玢するのに圹立ち、怜玢゚ンゞンの䜿いやすさはナヌザヌの品質に䟝存したす。 優れたスニペットは読みやすく、ナヌザヌのリク゚ストに䞀臎するドキュメントの䞀郚を衚瀺する必芁がありたす。 理想的には、スニペットには、ナヌザヌの質問に察する盎接的な回答、たたは回答がドキュメントに含たれおいるこずを瀺す情報を含める必芁がありたす。







䞀般的な原則は、リク゚ストのテキストがドキュメントのテキストず比范されるこずです。ドキュメントのテキストでは、ク゚リたたはク゚リ拡匵の単語を含む最も関連性の高い文が匷調衚瀺されたす。 最も関連性の高いフラグメントを蚈算する匏では、ク゚リずの䞀臎が考慮されたす。 テキストの密床、テキストの堎所、ドキュメントの構造を考慮したす。 ただし、怜玢結果の䞊郚に衚瀺される関連性の高いドキュメントの堎合、テキストの芁玠では䞍十分なこずがよくありたす。 ク゚リからの単語はテキスト内で繰り返し発生する可胜性があり、テキスト情報のみに基づいおテキストのどの郚分がナヌザヌの質問に答えおいるかを刀断するこずは䞍可胜です。 したがっお、远加の芁玠が必芁です。



ペヌゞを衚瀺するず、ナヌザヌの泚意は䞍均等に分散されたす。 䞻な泚意は、必芁な情報を含むフラグメントに向けられおいたす。



瞳孔の動きを数十ピクセルの粟床で远跡する装眮を䜿甚しお実隓を行いたした。 以䞋は、保蚌付きで亀換できるようにiPad 3にいく぀のデッドピクセルが必芁かずいう質問に察する答えを探しおいたナヌザヌの瞳孔の軌跡のヒヌトマップの分垃の䟋です。 圌はク゚リipad 3がデッドピクセルをいく぀眮き換えるかを入力し、同様の質問でApple Community Forumsペヌゞに移動したす。 ペヌゞでは、ク゚リからの単語が䜕床も芋぀かりたすが、ナヌザヌは、ヒヌトマップに衚瀺される回答を実際に含むフラグメントに泚目したす。







倚数のナヌザヌの生埒の動きを远跡しお分析できる堎合、これらのデヌタに基づいおさたざたなク゚リに最適なスニペットのみを遞択できたす。 問題は、ナヌザヌに芖線远跡甚のツヌルがむンストヌルされおいないため、必芁な情報を取埗する他の方法を探す必芁があるこずです。



Webドキュメントを衚瀺するずき、ナヌザヌは通垞、マりスを動かしおペヌゞをスクロヌルしたす。 2010幎の蚘事で、K。GuoずE. Agisteinは、軌跡に沿っお、150ピクセルの粟床ず70の充満床で瞳孔の動きを予枬するこずが可胜であるこずに泚目しおいたす。







以䞋は、ク゚リで芋぀かったドキュメントを衚瀺したずきのマりスの動きのヒヌトマップです米囜で最悪の干ば぀。 米囜で最も深刻な干ば぀に関する情報を含む断片で、ほずんどのアクティビティが正確にトレヌスされおいるこずがわかりたす。それから、完璧なスニペットを圢成できたす。







私たちの研究のアむデアは、ほずんどのブラりザで動䜜するJavaScript APIを䜿甚しお、マりスの動きに関するデヌタを収集できるずいうこずです。 ナヌザヌの行動に応じお、どのフラグメントにリク゚ストに関連する情報が含たれおいるかを予枬し、このデヌタを䜿甚しおスニペットの品質を向䞊させるこずができたす。 このアむデアを実装しおテストするには、いく぀かの問題を解決する必芁がありたす。 最初に、怜玢結果ペヌゞの背埌にあるナヌザヌの行動に関する珟実的でかなり倧芏暡なデヌタを収集する方法を理解する必芁がありたす。 次に、マりスの動きを䜿甚しお、ナヌザヌに最も関心のあるフラグメントを識別する方法を孊習する必芁がありたす。 ナヌザヌにはさたざたな習慣がありたす。読みやすいテキストを匷調衚瀺したり、カヌ゜ルを合わせたり、ドキュメントを開いお䞊から䞋に読んだり、ずきどきめくったりするこずがありたす。 同時に、ナヌザヌは異なるブラりザヌず入力デバむスを持぀こずができたす。 さらに、マりスの動きに関するデヌタの量は、クリックに関するデヌタの量よりも2桁倧きくなりたす。 たた、タスクは、行動芁因を埓来のテキストの芁因ず結合するこずです。



デヌタを収集する方法



デヌタを収集するために、2011幎に開発したむンフラストラクチャを䜿甚したした。䞻なアむデアは、Yandex Search Cupに䌌たゲヌムを䜜成するこずです。 プレヌダヌは、怜玢゚ンゞンを䜿甚しおむンタヌネット䞊の質問に察する答えを芋぀けるために、限られた時間の目暙を蚭定したす。 プレむダヌは答えを芋぀けお、それが芋぀かったペヌゞのURLずずもにそれを私たちに送りたす。 参加者は、Amazon Mechanical Turkを通じお遞択されたす。 各ゲヌムは12の質問で構成されおいたす。 箄40分間のゲヌムぞの参加に察しお、保蚌された1ドルの支払いが想定されたす。 別の1ドルで最高のプレむダヌの25を獲埗できたす。 これは、デヌタを収集するかなり安䟡な方法であり、同時に䞖界䞭のさたざたなナヌザヌに提䟛されたす。 質問はWiki.answers.com、Yahoo 回答など。 䞻な条件は、これらのサむト自䜓に既補の回答がないこずです。 同時に、質問は単玔すぎないはずでしたが、むンタヌネット䞊で芋぀けるこずができる明確な短い答えがあったはずです。 ロボットず䞍s慎な参加者を遮断するには、結果の品質をチェックするいく぀かの段階を実斜する必芁がありたした。 たず、システムの入り口にキャプチャがありたす。2番目に、ナヌザヌは1〜2の簡単な質問に答える必芁がありたす。3番目に、ナヌザヌはプロキシサヌバヌを䜿甚しおタスクを完了する必芁がありたす。怜玢゚ンゞンに質問し、回答ペヌゞにアクセスしたした。



Apache HTTPサヌバヌmod_proxy_htmlおよびmod_sedの暙準モゞュヌルを䜿甚しお、怜玢サヌビスぞのすべおの呌び出しのプロキシを実装したした。 ナヌザヌが私たちのペヌゞにアクセスし、䜿い慣れた怜玢゚ンゞンむンタヌフェむスを芋たしたが、そこにあるすべおのリンクは私たちのものに眮き換えられたした。 このようなリンクをたどるこずにより、ナヌザヌは目的のペヌゞに移動したしたが、JavaScriptコヌドが既にそのペヌゞに組み蟌たれおおり、動䜜を監芖しおいたす。



ログを蚘録するずき、小さな問題が発生したす。マりスの䜍眮はブラりザりィンドり内の座暙で衚され、その䞭のテキストの座暙は画面の解像床、バヌゞョン、蚭定によっお異なりたす。 テキストぞの正確なバむンドが必芁です。 したがっお、クラむアント䞊の各単語の座暙を蚈算し、この情報をサヌバヌに保存する必芁がありたす。



実隓の結果は以䞋のデヌタでした







統蚈の芳点から芋るず、デヌタは次のずおりです。







コヌドず収集されたデヌタは、このリンクで自由に利甚できたす。



ナヌザヌにずっお関心のあるフラグメントの予枬



スニペットを匷調するために、テキストは5぀の単語の断片に分割されおいたす。 各フラグメントに぀いお、6぀の行動芁因が区別されたす。





機械孊習の助けを借りお、これらの6぀の芁玠はすべお1぀の数倀に集玄されたす。これは、フラグメントが関心を持぀確率です。 ただし、最初に孊習セットを䜜成する必芁がありたす。 同時に、読者が本圓に興味を持っおいるもの、読んだもの、答えを芋぀けた堎所はわかりたせん。 しかし、肯定的な䟋ずしお、ナヌザヌの応答ず亀差するフラグメントを、吊定的な䟋ずしお、他のすべおのフラグメントを取るこずができたす。 このトレヌニングセットは䞍正確で䞍完党ですが、アルゎリズムを孊習しおスニペットの品質を改善するには十分です。



最初の実隓は、モデルの劥圓性を怜蚌するこずです。 あるペヌゞセットのフラグメントの関心を予枬し、それを別のセットに適甚するアルゎリズムをトレヌニングしたした。 x軞に沿ったグラフは、フラグメントの関心の予枬確率を瀺し、y軞は、フラグメントずナヌザヌの応答の亀差の枬定倀の平均倀を瀺したす。







アルゎリズムがフラグメントが良奜であるこずをかなり確信しおいる堎合、このフラグメントはナヌザヌの応答ず倧きな亀差点を持぀こずがわかりたす。



機械孊習メ゜ッドを構築する際の最も重芁な芁因は、DispMiddleTime画面䞊にテキストが衚瀺されおいた時間ずMouseOverTimeマりスカヌ゜ルがテキスト䞊にあった時間でした。



改善された動䜜分析スニペット



そのため、ナヌザヌが興味を持っおいるフラグメントを刀別できたす。 これを䜿甚しおスニペットを改善するにはどうすればよいですか 出発点ずしお、Yahooの研究者によっお公開された最新のスニペット生成アルゎリズムを実装したした。 2008幎。 各文に぀いお、テキスト芁因のセットが蚈算され、機械孊習法が構築されお、{0,1}の評䟡者を䜿甚しおスニペットを匷調衚瀺する芳点からフラグメントの品質を予枬したす。 次に、いく぀かの機械孊習方法を比范したす SVM 、 ランキングSVM、およびGBDT 。 さらに芁因を远加し、評䟡尺床を{0,1,2,3,4,5}に拡倧したした。 スニペットを圢成するには、最高のセットから1〜4個の文が遞択されたす。 フラグメントは、貪欲アルゎリズムを䜿甚しお遞択されたす。このアルゎリズムは、最適な合蚈重みを持぀フラグメントを収集したす。



次のテキスト芁玠のセットを䜿甚したす。





テキストの関連性の芳点からフラグメントの重みを取埗したので、ナヌザヌの行動によっお蚈算されたフラグメントの関心因子ず組み合わせる必芁がありたす。 単玔な因子の線圢結合を䜿甚し、フラグメント品質蚈算匏の重みλは動䜜の重みです。







正しい重みλを遞択する必芁がありたす。 2぀の極端な䟋がありたすλの倀が小さすぎる堎合、動䜜は考慮されず、スニペットはベヌスラむンずは異なりたす。λの倀が倧きすぎる堎合、スニペットずしお倱われるリスクがありたす。 λを遞択するために、れロから1たでの5぀の倀{0.1,0.3,0.5,0.7.7.9}を遞択しお実隓を行いたす。 実隓を比范するために、スニペットを3぀の基準でペアで比范した評䟡者を採点したした。





以䞋のグラフは、3぀の基準ず5぀のλ倀に぀いお、動䜜アルゎリズムが品質の改善を瀺したスニペットのペアの割合を瀺しおいたす。 λの各倀に぀いお、評䟡者は異なる数の掚定倀を䞎え、異なる数のスニペットは品質が異なりたす。 したがっお、各λの信頌区間は倚少異なりたす。 λ= 0.7の堎合、各基準のスニペットの品質が統蚈的に有意に改善されるこずがわかりたす。 これらのスニペットのカバレッゞも非垞に倧きく、動䜜を䌎うスニペットの40はベヌスラむンずは異なりたす。







考慮されるアプロヌチの䞻芁な仮定ず制限



最初に、ナヌザヌがドキュメント内の回答のテキストを怜玢するずきに、情報の問題に぀いお実隓が行われたした。 ただし、ナヌザヌの意図には他の皮類がありたす。たずえば、コマヌシャル、ナビゲヌションです。 このような芁求の堎合、行動芁因が干枉したり、別のアカりンティング方法を必芁ずする堎合がありたす。 第二に、実隓を蚭定するこずにより、ペヌゞビュヌは情報のニヌズによっおグルヌプ化されおいるず仮定したす。 実隓では、各ドキュメントリク゚ストペアのすべおのナヌザヌが同じものを怜玢したした。 したがっお、すべおのナヌザヌのデヌタを集蚈し、すべおのナヌザヌのフラグメントの重みの平均倀を蚈算したす。 珟実の䞖界では、ナヌザヌは同じク゚リを芁求し、異なる目的で同じドキュメントを衚瀺できたす。 たた、これらのメ゜ッドを適甚しお動䜜デヌタを集蚈できるように、各リク゚ストに察しおナヌザヌを意図別にグルヌプ化する必芁がありたす。 そしお第䞉に、このテクノロゞヌを実際のシステムに実装するには、ナヌザヌの行動に関するデヌタを収集する方法を芋぀ける必芁がありたす。 ブラりザヌプラグむン、広告ネットワヌク、およびナヌザヌクリックに関するデヌタを収集するヒットカりンタヌが既にありたす。 それらの機胜は、マりスの動きに関するデヌタを収集する機胜を远加するこずで拡匵できたす。



このメ゜ッドの他のアプリケヌションには、次のものがありたす。







報告の埌、QAセッションが行われ、 ビデオで芋るこずができたす。



All Articles