むンタラクティブなリコメンダヌ䜜成方法、䜜業方法

掚奚システムの構築方法 どの機械孊習モデルを適甚できたすか むンタラクティブレコメンダヌはどのような問題を解決し、どの問題は解決したせんか eコマヌスポヌタルに圹立぀ツヌルは䜕ですか これに぀いお-EPAM ゚カテリヌナ゜テンコのビッグデヌタ゚ンゞニアのレポヌトで、圌女はこの春にサマラITsubbotnikで講挔した「むンタラクティブな掚薊者を構築するアプロヌチの抂芁」。 以䞋はレポヌトのビデオで、さらに䞋にはその抂芁がありたす。







すべおの始たり



EPAMは、eコマヌスポヌタルのむンタラクティブな掚薊者を必芁ずする有名な英囜のファッションハりスからアプロヌチされたした。 これに先立ち、EPAMは埓来のオフラむンレコメンダヌの実装を導入したした。 珟圚、顧客は、ナヌザヌの欲求に぀いお、リアルタむムではなく、リアルタむムで孊習したいず考えおいたした。 この問題を解決するために、カスタマヌポヌタルを調査し、䜜業で次の芁玠を遞択したした。



1.メむンペヌゞ

これは、ナヌザヌがただログむンしおいない堎合でもディレクトリを芋るペヌゞです。 すでに登録されおいるナヌザヌでも新芏登録されおいるナヌザヌでも、最初から興味を持っおいる必芁がありたす。 これを行うために、カテゎリフィルタヌを䜿甚した抂念を提案したした。「これよりももっず欲しい」ずいう原則に基づいお提案されたカテゎリヌセットから遞択し、正確に指定しない「これが欲しい」こずができたす。 これは、通垞の怜玢ずの違いです。ナヌザヌが自分の垌望を明確に定匏化しおいない堎合でも、ナヌザヌが興味のあるものをすばやく芋぀けるこずができるツヌルが提䟛されたす。 ここでは、ナヌザヌが新しいものを探しおいるのか、すでに銎染みのあるものを探しおいるのかを理解する必芁があるため、むンタラクティブな掚薊者が適切です。 この問題は、アルゎリズムのグルヌプ「マルチアヌムバンディット」マルチアヌムバンディットを䜿甚しお解決できたす。



2.メむンディレクトリ

埓来、ナヌザヌは、色、サむズ、およびその他の基準によるフィルタヌを䜿甚しお、カタログからアむテムを遞択できたした。 人の奜みがすでにわかっおいる堎合、最も関連性の高い芁玠の遞択を持぀カタログをすぐに想像できたす。 ナヌザヌ情報を䜿甚するアルゎリズムは、 人口統蚈ベヌスの掚奚者です。



しかし、ここで疑問が生じたす。ナヌザヌのコンテキストがわからず、ナヌザヌの遞択を決定するものがわからない堎合はどうでしょうか。 ここでは、 コンテキストベヌスのレコメンダヌが圹立ちたす。 さらに、掚奚事項をむンタラクティブに䜜成するこずもできたす。たずえば、ナヌザヌが画面のスクロヌルを開始した堎合、ナヌザヌは怜玢を続け、新しい補品を投げるこずを理解しおいたす。 すでに提瀺されおいるオプションが面癜くないこずを考慮したす。 ここでも、倚腕バンディットモデルを䜿甚できたす。



3.バスケット

ナヌザヌが遞択した堎合は、他のこずに興味を持たせるこずができたす。 これは、「圌らも賌入したす」ずいう圢匏の補品ラむンを䜿甚しお実装されたす。 この行を構築するには、 ランク付け孊習たたは連続パタヌンマむニングアルゎリズムが䜿甚されたす。



4.ギフト

このセクションの䞻な問題は、ナヌザヌが自分でギフトを遞択しないこずです。 あなたに぀いおではなく、誰がギフトを受け取るかに぀いおの情報を䜿甚する必芁がありたす。 ここでは、ナヌザヌの知識も協調フィルタリングも圹立ちたせん。 ナヌザヌが誰ず友達か、子䟛がいるかどうかなどの情報が必芁です。 ここでは、ナヌザヌ関係ずシヌケンシャルパタヌンマむニングに関する情報を䜿甚した人口統蚈ベヌスのレコメンダヌが圹立ちたす。



倉換



タスクずツヌルを決定したら、どのツヌルが最倧の倉換をもたらすかを理解する必芁がありたす。 アパレル店の䟋を考えおみたしょう。 ドむツでは、衣服を賌入する際のオンラむンショッピング䞭のナヌザヌの行動に関する調査が実斜されたした。 箄50人の女性が参加したした。 圌らは、レストランで卒業匏の䌚議に行く方法を芋぀ける必芁がありたした。 実隓の䞀環ずしお、圌らは䜕個でも賌入できたしたが、300ナヌロ以䞋しか費やせたせんでした。 収入、幎霢、ファッションの習慣に関するデヌタに基づいお、研究者は参加者をいく぀かのグルヌプに分け、統蚈を収集し始めたした。







この調査の結果から、ほずんどの堎合、参加者はフィルタヌず怜玢を䜿甚したした71。 フィルタヌの䞭で、圌らは色でフィルタヌを最も積極的に䜿甚し、次にサむズずコストでフィルタヌを䜿甚したした。 レコメンダヌに぀いお話す堎合、ほずんどの堎合、コラボレヌティブフィルタヌを䜿甚したしたが、他のツヌルはあたり䞀般的ではありたせんでした。



同時に、コンバヌゞョンの䞻な割合は怜玢62ずフィルタヌを䜿甚したナビゲヌション83によっお生成されたした。 これは、ナヌザヌが探しおいる堎合、ナヌザヌが䜕を望んでいるかを知っおいるため、ナヌザヌを邪魔する必芁がないこずを意味したす。 共同フィルタリング、「これを着る」こずを掚奚するスタむルガむドは、コンバヌゞョンの50未満を䞎えたした。 これは、人々が他人のように芋えるこずを望たず、自分の個性を匷調する傟向があるためです。 䞀方、50は悪くありたせん。適切に䜿甚すれば、このようなリコメンダヌは非垞に効果的です。 たずえば、「むベント/むベント」セクションでは100のコンバヌゞョンが発生したした。



それずは別に、セクション「トップセラヌのリスト、新䜜、季節限定のオファヌ」でコンバヌゞョンが0になったこずは泚目に倀したす。 これは絶察的な指暙ずみなすべきではありたせん。タスクを芚えおおく必芁があるからです。女性はカゞュアルな服を遞ばず、さらに、季節に䟝存したせんでした。 したがっお、他の条件では、このような掚奚事項が機胜する可胜性がありたす。



理論 掚奚システムの皮類









1぀たたは別のレコメンダヌを実装する方法を簡単に怜蚎したす。



1.協調フィルタリング

このアプロヌチの考え方は、人々がいく぀かの方法で評䟡するナヌザヌず芁玠があるずいうこずですような、評䟡など。 それらに基づいお、ナヌザヌ評䟡のマトリックスが構築されたす。 しかし、誰もが奜きではないので、このマトリックスは攟電され、タスクは欠萜しおいる評䟡を回垰するこずです。



この抂念を実装するアルゎリズムには2぀のタむプがありたす。



•近隣ベヌスメモリベヌスの方法。 通垞、非垞に倧きな完党な関係マトリックスを維持しながら、掚定倀を明瀺的に埩元するのに圹立ちたす。 これらの方法の䞻な欠点は、本圓にパヌ゜ナラむズされた評䟡を提䟛しないずいう事実による効率の䜎さです。

アルゎリズムの䟋 ナヌザヌベヌスのフィルタリングUBCF、アむテムベヌスのフィルタリングIBCF、スロヌプワン。



•モデルベヌスの方法。 圌らのアむデアは、評䟡を䞎える人々に基づいお隠れた芁因ナヌザヌの興味を特定するこずです。



アルゎリズムの䟋

o行列因子分解MF特異倀分解SVD、SVD ++、timeSVD ++、MSVD、非負のMFALS、因子分解マシン、確率的行列因子分解PMF

o RBM制限付きボルツマンマシン。

o共クラスタリングCOCL、ECOCLによるむンクリメンタルCF

o確率的䞻成分分析pPCA、確率的朜圚的意味分析pLSA、朜圚的ディリクレ配分LDAなど



協調フィルタリングの利点は、サブゞェクト領域党般に関する知識を必芁ずしない掚奚事項を䜜成するために、アむテムずナヌザヌに関する詳现を知る必芁がないこずです。 それらは、自己組織化モヌドで盞互にクラスタヌ化されたす。



欠点コヌルドスタヌトの問題新しいナヌザヌたたはアむテムが衚瀺された堎合、情報や評䟡がないため掚奚されたせん。



2.コンテンツベヌスのレコメンダヌ

コヌルドスタヌトの問題を解決し、新しい芁玠を掚奚するために、協調フィルタリングがコンテンツベヌスの掚奚ず統合される堎合がありたす。 このアプロヌチでは、すべおのアむテムを蚘述する必芁がありたす。 しかし、それらの特性は、法的たたは技術的な理由で垞に取埗されるずは限りたせん。



3.人口統蚈ベヌスのレコメンダヌ

ナヌザヌのコヌルドスタヌトが発生した堎合、ナヌザヌに関する情報を収集し、説明する必芁がありたす。



協調フィルタリングに関連するメ゜ッドのグルヌプの䞀般的な問題は次のずおりです。 倧量のデヌタに関しおのみうたく機胜したす。 これらの方法は、オブゞェクトの掚奚に適しおいたす。その遞択は、たずえば映画や音楜の掚奚など、ナヌザヌの奜みによっお異なりたす。 ただし、このアプロヌチは、車、䞍動産などの耇雑なオブゞェクトを掚奚する必芁がある堎合には効果的ではありたせん。 この堎合、知識ベヌスのレコメンダヌを䜿甚できたす。



4.知識ベヌスの掚薊者

これには、提案された斜蚭を評䟡し、ナヌザヌが遞択する基準を蚘述する専門家が必芁です。 これらの専門家は、あなたがどのタむプのナヌザヌに属し、どのくらい䜿いたいか、あなたを匕き付けるために補品が持぀べき特性をすべお知っおいるず信じられおいたす。 したがっお、問題はナヌザヌずアむテムの䞡方で解決されたす。 ただし、欠点がありたす。専門家は非垞に高䟡で信頌性が䜎いため、カタログのすべおのルヌルを垞に説明できるずは限りたせん。



5.コンテキスト認識レコメンダヌ

ナヌザヌがアむテムを遞択するコンテキストは評䟡の段階では䞍明であるため、オフラむンの専門家の評䟡は誀りで䞍完党な堎合がありたす。 コンテキストは時間ずずもに倉化する堎合がありたす。 たずえば、あなたはい぀もホラヌ映画を芋おいたしたが、子䟛が芋たいず思ったため、突然挫画を探し始めたした。 掚薊者の芳点からするず、あなたは倢䞭になっおいお、圌はホラヌ映画をあなたに掚薊し続け、い぀か回埩するこずを提案したす。 本圓にあなたに䜕が起こったのですか コンテキストが倉曎されたため、これに察応する必芁がありたす。これは、コンテキスト認識レコメンダヌができるこずです。



コンテキストの掚奚を効果的に行うには、時系列の意味での倉化点怜出の問題を解決する必芁がありたす。 ナヌザヌの行動が劇的に倉化するずいうこずは、コンテキストが劇的に倉化したこずを意味したす。 コンテキストを考慮に入れるこずができるさたざたな方法がありたす因子分解マシン、Byesian Probablistic Tensor Factorization。



6.むンタラクティブな掚薊者

圌らの䞻な目暙は、珟圚のナヌザヌのセッションモヌドで圌の垌望に最も関連するオプションを遞択するこずです。



人生の䟋

バヌで自分を思い出しおください。 玠晎らしい時間を過ごしたい。 ビヌルのタップが衚瀺され、䜕を飲むかを遞択し始めたす。 この時点で、あなたは問題を解決しおいたすなじみのない探玢ビヌルを飲むか、なじみのある搟取ビヌルを飲みたすか これは探査察です。 悪甚問題 。 むンタラクティブな掚薊者によっお決定されるべきです。 この問題を解決する方法



1.アクティブラヌニングALを䜿甚するず、怜玢スペヌスを削枛できたす

2.マルチアヌムバンディットMABアルゎリズムE-greedy、UCB、LinUCB、Tomson Sampling、Active Thompson SamplingATS

3.マルコフ決定プロセスMDP/匷化孊習RL

4.ハむブリッドスコアリングアプロヌチを怜蚎できたす-モデル構成を䜿甚したす。



MABアルゎリズムの䞻なタむプ









1. E-greedyは単なる頻床評䟡です。䜿甚頻床に基づいお、盗賊のどちらか䞀方の手を遞択したす。 バヌのタップを思い出したす。1぀たたは別のタップを䜿甚する頻床が高いほど、このビヌルが倧奜きになりたす。



2.信頌限界UCB-ナヌザヌが特定のアむテムを遞択するこずで埗られる喜びに感謝するよう努めおいたす。 タスクは、各ペンのこの喜びを正確に評䟡するこずです。 新しいアむテムの堎合、このアルゎリズムは朜圚的に最倧の報酬スコアを割り圓おたす。 盗賊が匕っ匵られるたびに、報酬スコアが曎新されたす。 このアルゎリズムは、垞に搟取よりも探怜に傟いおおり、あたりにも倚くのハンドの蚈算をサポヌトできたせん。



3.トム゜ンサンプリングTSは、確率分垃の圢でバンディットの各手を衚すこずができ、そのたびに、各手ず盞互䜜甚するずきに確率を単玔に再蚈算したす。 各ハンドはその履歎に基づいお遞択され、私たちの目暙は、ナヌザヌがMABず察話するずきに経隓する䞀般的なフラストレヌションを最小限に抑えるこずです。



原則ずしお、察話型リコメンダヌは単独では䜿甚されたせんが、たずえば協調フィルタリングず組み合わされたす。 実際には、線圢UCBおよびトンプ゜ンサンプリング+確率的行列因子分解は、よく衚れおいたす。



機胜に぀いお少し



レコメンダヌを䜜成するには、デヌタセットが必芁です。 モデルを説明する機胜が必芁です。 知る䟡倀のある2皮類の機胜がありたす。暗黙的フィヌドバックず明瀺的フィヌドバックです。 暗黙的なフィヌドバック -これは、ナヌザヌがスクロヌル、クリックなどを行うずきです。 そしお、 明瀺的なフィヌドバックずは、圌らが明瀺的に奜きたたは嫌いなずきです。 第二に䜕が危険ですか 明瀺的なフィヌドバック-評䟡、ナヌザヌからのいいね-は非垞にうるさいです。 同時に、暗黙的なフィヌドバック-スクロヌル、クリック、ビュヌ-は、掚奚事項に察しおはるかに優れおいたす。 ノむズが少ないのは、ナヌザヌの奜みずは䜕の関係もないからです。ナヌザヌの気分や「0から5たでのレヌト」の意味の理解に䟝存しないためです。 バむアスの問題を解決しないために、暗黙的なフィヌドバックを䜿甚できたす。 それだけでは䜜業できないこずは明らかであり、䞡方の信号を考慮する必芁がありたす。 したがっお、1぀および他のアプロヌチを考慮に入れるこずができるモデルがありたす。



Spotifyレコメンダヌの䟋



Spotifyには音楜レコメンダヌがいたす。 圌らは基瀎ずしお協調フィルタリングを䜿甚したす。圌らはナヌザヌの奜みを監芖し、それらをクラスタヌ化したす。 たた、特定の時間におけるナヌザヌの意図をナヌザヌの音楜的関心の空間に投圱したす。 さらに、SpotifyはNLPメ゜ッド自然蚀語凊理を䜿甚しおプレむリストを分析したす。 すべおのナヌザヌプレむリストに関するデヌタを収集し、プレむリストは同じテキストドキュメントであるず蚀いたす。 ここでは、テキストを操䜜しお、たずえばプレむリストのトピックなどを抜出するだけで、埓来のNLPツヌルを䜿甚できたす。 さらに、ディヌプラヌニングを䜿甚しおコンテンツを抜出したす。 圌らはトラックを取埗し、ディヌプニュヌラルネットワヌクに通しお、ナヌザヌが歌で評䟡する機胜を抜出したす。 これは、ディヌプラヌニングに基づくコンテンツベヌスのレコメンダヌです。 そのため、䌚瀟はアむテム自䜓に関するデヌタを収集したす。



レコメンダヌを䜜成するためのラむブラリずシステム



オヌプン゜ヌスは私たちに䜕を䞎えたすか テクニカルオファヌには、テクニカルラむブラリずシステムの2぀のレベルがありたす。



最も匷力なラむブラリは、Spark MLLib、RankSys、LensKitです。 C ++ラむブラリであるWafflesがありたす。

1぀のラむブラリ機械孊習サヌバヌよりも高いレベルのツヌルがありたす。 最も興味深いのは私にはPredictionIOのようです。



レコメンダヌを䜜成したい堎合は、レコメンダヌ、アルゎリズム、およびそれらの実甚的なアプリケヌションを構築するためのさたざたなアプロヌチに぀いお説明しおいる「Recommendation System Handbook、2nd Edition」をお読みください。



All Articles