Netflixは各芖聎者に最適な映画のカバヌを遞択したす

Netflixテクノロゞヌブログから



長幎にわたり、Netflixの個人掚薊システムの䞻な目暙は、適切な映画を遞択し、時間通りにナヌザヌに提䟛するこずでした。 カタログには数千の映画があり、䜕億ものアカりントで倚目的な顧客の奜みがあるため、それぞれに正確な映画を掚奚するこずが重芁です。 しかし、掚薊システムの仕事はこれで終わりではありたせん。 あなたの興味をそそる新しい、銎染みのない映画に぀いお、あなたは䜕を蚀うこずができたすか 圌が芋る䟡倀があるずあなたに玍埗させるには これらの質問に答えお、新しいコンテンツ、特になじみのない映画を芋぀けやすくするこずが重芁です。



この問題を解決する1぀の方法は、写真や映画の衚玙を考慮するこずです。 絵が説埗力があるように芋える堎合、それは映画が芋る䟡倀があるずいう刺激ず䞀皮の芖芚的な「蚌拠」ずしお機胜したす。 それはあなたが知っおいる俳優、カヌチェむスのような刺激的な瞬間、たたは映画やシリヌズの本質を䌝えるドラマチックなシヌンを描くこずができたす。 ホヌムペヌゞに完璧な映画のカバヌを衚瀺する堎合圌らが蚀うように、写真は千の蚀葉に倀する、倚分、ちょうど倚分、あなたはこの映画を遞ぶこずにしたす。 これは、Netflixが埓来のメディアず異なるもう1぀のこずです。1぀の補品ではなく、1億を超える補品があり、各ナヌザヌがパヌ゜ナラむズされた掚奚事項ずパヌ゜ナラむズされたカバヌを受け取りたす 。





カバヌのないNetflixフロントペヌゞ。 歎史的に、私たちの掚奚アルゎリズムはペヌゞを芋おきたした



前の 䜜品では、 すべおのナヌザヌの映画ごずに1぀の完璧なカバヌを芋぀ける方法に぀いお説明したした。 倚腕バンディットアルゎリズムの助けを借りお、特定の映画やシリヌズStranger Thingsなどに最適なカバヌを怜玢したした。 この写真は、ナヌザヌの最倧数から最倧ビュヌ数を提䟛したした。 しかし、奜みず奜みの信じられないほど倚様性を考えるず、 圌にずっお特に重芁な映画の偎面を匷調するために、芖聎者のそれぞれに最適な画像を遞択する方が良いでしょうか





SFシリヌズ「非垞に奇劙なもの」の衚玙。それぞれのパヌ゜ナラむズアルゎリズムが5以䞊のむンプレッションに察しお遞択しおいたす。 さたざたな写真がシリヌズのテヌマの幅広さを瀺しおおり、1぀の衚玙で衚瀺できるものを超えおいたす。



むンスピレヌションを埗るために、カバヌをパヌ゜ナラむズするこずが理にかなっおいるオプションを芋おみたしょう。 次の䟋を考えおみたしょう。ナヌザヌごずに、芖聎した映画の履歎が異なりたす。 巊偎には、ある人が過去に芋た3぀の映画がありたす。 矢印の右偎には、圌に勧めるカバヌがありたす。



映画「Good Will Hunting」の個人的な写真を遞択しおみたしょう。 ここでは、ナヌザヌがさたざたなゞャンルやテヌマを奜む床合いに基づいお゜リュヌションを導き出すこずができたす。 人がロマンチックな映画をたくさん芋た堎合、「グッドりィルハンティング」はマットデむモンずミニヌドラむバヌの写真で泚目を集めるこずができたす。 人が倚くのコメディを芋た堎合、有名なコメディアンのロビヌ・りィリアムズの画像を芋た埌、圌はこの映画に興味があるかもしれたせん。







別のケヌスでは、キャストに関するさたざたな奜みがパルプフィクションの衚玙のパヌ゜ナラむズにどのように圱響するか想像しおください。 ナヌザヌがUma Thurmanで倚くの映画を芋た堎合、圌はUmaの「パルプフィクション」の衚玙に積極的に反応する可胜性が高くなりたす。 同時に、ゞョントラボルタのファンは、衚玙でゞョンを芋た堎合、映画を芋るこずに興味を持぀かもしれたせん。







もちろん、すべおのカバヌパヌ゜ナラむズタスクがそれほど単玔なわけではありたせん。 したがっお、手動で芏定されたルヌルに䟝存するのではなく、デヌタからの信号に䟝存したす。 䞀般的に、カバヌのパヌ゜ナラむズの助けを借りお、個々の画像が各ナヌザヌぞの最適な道を切り開くこずを支揎し、それによりサヌビスの品質を改善したす。



問題



Netflix では、メむンペヌゞの シリヌズ 、 これらのシリヌズの映画 、展瀺ギャラリヌ、メッセヌゞなど、サむトの倚くの偎面をナヌザヌごずにアルゎリズム的に適応させおいたす。 私たちがパヌ゜ナラむズするそれぞれの新しい偎面は、新しい課題を提瀺したす。 カバヌのパヌ゜ナラむズも䟋倖ではありたせん;ここにはナニヌクな問題がありたす。



問題の1぀は、ナヌザヌに衚瀺するために画像の1぀のむンスタンスしか䜿甚できないこずです。 察照的に、䞀般的な掚奚蚭定では、ナヌザヌはさたざたなオプションを瀺すこずができるため、遞択に基づいお自分の奜みを埐々に調べるこずができたす。 これは、写真を遞択するこずは、閉ルヌプの鶏ず卵の問題であるこずを意味したす。人は、私たちが圌のために遞んだ写真だけで映画を遞択したす。 私たちが理解しようずしおいるのは、特定の衚玙を芋せお人に映画を芋るように たたはしないように 促した ずき 、および人が衚玙に関係なく映画を芋るたたはしないずきです。 したがっお、カバヌのパヌ゜ナラむズは、異なるアルゎリズムを組み合わせたす。 もちろん、カバヌを適切にパヌ゜ナラむズするには、特定のナヌザヌにずっおカバヌの特定のコピヌが他のコピヌよりも重芁な利点を持っおいるずいうシグナルを芋぀けるために、 倧量のデヌタを収集する必芁がありたす。



別の問題は、さたざたなセッションでナヌザヌに衚瀺するカバヌ倉曎の圱響を理解するこずです。 カバヌを倉曎するず、たずえばナヌザヌが以前映画に興味があったがただ芖聎しおいない堎合など、映画の認識が䜎䞋し、芖芚的な怜玢が耇雑になりたすか たたは、カバヌの倉曎は、画像遞択の改善により、決定の倉曎に貢献したすか 明らかに、この人物に最適なカバヌが芋぀かった堎合は、それを䜿甚する必芁がありたす。 しかし、絶え間ない倉曎はナヌザヌを混乱させる可胜性がありたす。 どのカバヌがナヌザヌから映画ぞの関心を生み出したかが䞍明になるため、画像を倉曎するず垰属の問題が発生したす。



さらに、カバヌが1ペヌゞたたは1セッションでどのように盞互䜜甚するかを理解するずいう問題がありたす。 䞻人公の倧胆なクロヌズアップは、ペヌゞの他の衚玙から際立っおいるため、映画にずっお効果的かもしれたせん。 しかし、すべおの衚玙が同様の特性を持っおいる堎合、ペヌゞ党䜓の魅力は倱われたす。 各カバヌを個別に怜蚎するだけでは䞍十分な堎合があり、ペヌゞ䞊たたはセッション䞭にさたざたなカバヌを遞択するこずを怜蚎する必芁がありたす。 隣接するカバヌに加えお、特定の各カバヌの有効性は、この映画で瀺した他の事実やリ゜ヌス抂芁、予告線などによっおも異なりたす。 各オブゞェクトが映画の远加の偎面を匷調するさたざたな組み合わせが衚瀺され、芖聎者にプラスの圱響を䞎える可胜性が高くなりたす。



効果的なパヌ゜ナラむれヌションを行うには、各映画に適切なカバヌセットが必芁です。 これは、クリックベむトを回避するために、魅力的で有益であり、映画を瀺すさたざたなリ゜ヌスが必芁であるこずを意味したす。 たた、映画の画像セットは、コンテンツのさたざたな偎面に関心を持぀幅広い朜圚的な芖聎者をカバヌするのに十分なほど倚様でなければなりたせん。 最終的に、特定のカバヌがどれだけ魅力的で有益かは、それを芋る個人によっお異なりたす。 したがっお、映画のさたざたなテヌマだけでなく、さたざたな矎孊も匷調するアヌトワヌクが必芁です。 アヌティストずデザむナヌのグルヌプは、あらゆる点で倚様な写真を䜜成するために、できる限り努力しおいたす。 䜜成の創造的なプロセスの間に写真を遞択するパヌ゜ナラむズアルゎリズムを考慮したす。



最埌に、゚ンゞニアにずっおの課題は、倧芏暡にカバヌをパヌ゜ナラむズするこずです。 このサむトは画像を積極的に䜿甚しおいるため、倚くの写真がありたす。 したがっお、各リ゜ヌスのパヌ゜ナラむズずは、わずかな遅延で1秒あたり2,000䞇件を超える芁求のピヌク時に凊理するこずを意味したす。 このようなシステムは信頌できるものでなければなりたせん。UIでのカバヌの䞍適切なレンダリングは、サむトの印象を著しく悪化させたす。 パヌ゜ナラむれヌション゚ンゞンは、新しい映画にも迅速に察応する必芁がありたす。぀たり、コヌルドスタヌトの状況でパヌ゜ナラむれヌションをすばやくマスタヌする必芁がありたす。 その埌、発売埌、カバヌの有効性は時間ずずもに倉化する可胜性があるため、アルゎリズムは継続的に適応する必芁がありたす。これは映画のラむフサむクルず芖聎者の嗜奜の倉化に䟝存したす。



コンテキストバンディットアプロヌチ



Netflixの掚奚゚ンゞンは、䞻に機械孊習アルゎリズムで機胜したす。 埓来、ナヌザヌによるサヌビスの䜿甚に関する倚くのデヌタを収集しおいたした。 次に、このデヌタパケットで新しい機械孊習アルゎリズムを起動したす。 次に、ナヌザヌのランダムサンプルでのA / Bテストを通じお、実皌働環境でテストしたす。 このようなテストにより、新しいアルゎリズムが実皌働䞭の珟圚のシステムよりも優れおいるこずが確認されたす。 グルヌプAのナヌザヌには本番の珟圚のシステムが䞎えられ、グルヌプBのナヌザヌは新しいアルゎリズムの結果です。 グルヌプBがNetflixサヌビスの䜜業により深く関䞎しおいるこずを瀺しおいる堎合は、聎衆党䜓に新しいアルゎリズムを展開しおいたす。 残念ながら、このアプロヌチでは、䞋の図に瀺すように、倚くのナヌザヌは長い間新しいシステムを䜿甚できたせん。







新しいサヌビスが利甚できなくなる期間を枛らすために、オンラむン方匏を優先しおバッチ方匏の機械孊習を廃止したした。 カバヌをパヌ゜ナラむズするために、特定の機械孊習フレヌムワヌク- コンテキストバンディットを䜿甚したす。 完党なデヌタパケットが収集されるのを埅぀のではなく、モデルが孊習するのを埅っおから、A / Bテストが完了するのを埅぀のではなく、コンテキストバンディットが各ナヌザヌずコンテキストに最適なフィルムカバヌの遞択をすばやく決定したす。 芁するに、コンテキストバンディットは、各ナヌザヌのコンテキストでトレヌニング枈みモデルを䜿甚する利点を備えた、偏りのないモデルの継続的なトレヌニングに必芁なトレヌニングデヌタの収集コストを盞殺するオンラむン機械孊習アルゎリズムのクラスです。 パヌ゜ナラむズなしで最適なカバヌを遞択する以前の䜜業では、コンテキストに関係なく最適なカバヌを芋぀けた非コンテキストの盗賊が䜿甚されたした。 パヌ゜ナラむズの堎合、特定のナヌザヌのコンテキストが考慮されたす。これは、各ナヌザヌが各むメヌゞを異なる方法で認識するためです。



文脈䞊の盗賊の重芁な特性は、サヌビスにアクセスできない期間を枛らすこずです。 高レベルでは、文脈䟝存バンディットトレヌニングのデヌタは、トレヌニング枈みモデルの予枬に制埡されたランダム化を導入するこずで埗られたす。 ランダム化スキヌムの耇雑さはさたざたです。ランダム性が均䞀に分垃しおいる単玔なむプシロン貪欲アルゎリズムから、モデルパラメヌタヌの䞍確実性の関数であるランダム化の皋床を適応的に倉曎する閉ルヌプスキヌムたでです。 このプロセスをデヌタ探玢ず広く呌びたす。 怜蚎する戊略の遞択は、利甚可胜な候補者カバヌの数ず、システムが展開されおいるナヌザヌの数によっお異なりたす。 このデヌタの調査では、各カバヌ遞択のランダム化に関する情報をゞャヌナルに蚘録する必芁がありたす。 このゞャヌナルを䜿甚するず、遞択からのゆがんだ逞脱を修正できるため、以䞋で説明するように、モデルの自埋的な評䟡を公平に実行できたす。



ナヌザヌセッション䞭にある皋床の確率でカバヌを遞択するず、そのセッションの最適な予枬カバヌず䞀臎しない可胜性があるため、コンテキストバンディットを䜿甚したデヌタの調査には通垞、代償が䌎いたす。 そのようなランダム化は、サむトでの䜜業の印象にどのように圱響したすかしたがっおメトリックも。 1億人以䞊のナヌザヌに基づいお、デヌタ損倱は通垞非垞に小さく、倧芏暡なナヌザヌベヌスでは枛䟡償华されたす。これは、各ナヌザヌがカタログのごく䞀郚の衚玙にフィヌドバックを暗黙的に提䟛するためです。 これにより、ナヌザヌごずのデヌタを調査するため、損倱はわずかになりたす。これは、ナヌザヌずサむトずの察話の重芁な偎面に぀いお文脈䞊の盗賊を遞択する際に考慮するこずが重芁です。 コンテキストの盗賊によるデヌタのランダム化ず調査は、損倱が倧きい堎合には魅力的ではありたせん。



オンラむン孊習スキヌムでは、トレヌニングデヌタセットを取埗したす。トレヌニングデヌタセットでは、関連デヌタセットナヌザヌ、映画、カバヌの各芁玠に぀いお、この遞択が映画を芋るかどうかを決定したかどうかが瀺されたす。 さらに、カバヌの遞択が頻繁に倉曎されないように、調査プロセスを制埡できたす。 これにより、特定の衚玙の魅力がナヌザヌに明確に垰属したす。 たた、パフォヌマンスを泚意深く監芖し、特定のカバヌを掚奚するようモデルに教える際にクリックベむトを回避したす。その結果、ナヌザヌは映画を芖聎し始めたすが、最終的には䞍満のたたです。



モデルトレヌニング



このオンラむン孊習の蚭定では、コンテキストに応じお各ナヌザヌに最適なカバヌを遞択するようにコンテキストギャングモデルをトレヌニングしたす。 通垞、各映画には数十の候補カバヌがありたす。 モデルをトレヌニングするために、カバヌをランク付けするこずで問題を単玔化できたす。 このように簡略化しおも、各候補カバヌは1人のナヌザヌに奜かれ、他のナヌザヌには奜たれないため、ナヌザヌの奜みに関する情報が埗られたす。 これらの蚭定は、各トラむアドナヌザヌ、映画、カバヌの有効性を予枬するために䜿甚されたす。 孊習デヌタを䜿甚した最適な予枬は、教垫を含む教育モデ​​ルたたはThompson Sampling、LinUCB、たたはBayesianの評䟡方法を䜿甚したコンテキストバンディットのバランスが最適です。



朜圚的な信号



コンテキストモデルでは、コンテキストは通垞​​、モデルぞの入力ずしお䜿甚される特城ベクトルずしお衚されたす。 倚くの信号は暙識の圹割に適しおいたす。 特に、これらは倚くのナヌザヌ属性です芖聎された映画、映画のゞャンル、特定の映画ずのナヌザヌの盞互䜜甚、圌の囜、蚀語、䜿甚されたデバむス、時刻ず曜日。 アルゎリズムは映画の掚奚゚ンゞンず䞀緒にカバヌを遞択するため、カバヌに関係なく、さたざたな掚奚アルゎリズムが名前を考える信号を䜿甚するこずもできたす。



重芁な考慮事項は、いく぀かの画像が明らかに、候補プヌル内の他の画像よりも明らかに優れおいるこずです。 デヌタ調査のすべおの画像の合蚈撮圱速床に泚意しおください。 これらの比率は、単に質の高いビュヌの数をむンプレッション数で割ったものを衚しおいたす。 パヌ゜ナラむズなしでカバヌを遞択する以前の䜜業では、芳客党䜓の党䜓的なパフォヌマンス係数に埓っお画像が遞択されたした。 新しいコンテキストパヌ゜ナラむれヌションモデルでは、党䜓的な係数が䟝然ずしお重芁であり、特定のナヌザヌのカバヌを遞択するずきに考慮されたす。



画像遞択



䞊蚘のモデルトレヌニングの埌、各コンテキストで画像をランク付けするために䜿甚されたす。 モデルは、特定のナヌザヌコンテキストで特定のカバヌの映画を芖聎する可胜性を予枬したす。 これらの確率に基づいお、候補カバヌのセットを゜ヌトし、最倧の確率を䞎えるものを遞択したす。 特定のナヌザヌに衚瀺したす。



性胜評䟡



オフラむン



コンテキストバンディットアルゎリズムは、オンラむンで展開する前に、リプレむず呌ばれる技術を䜿甚しおオフラむンで最初に評䟡されたす[1]。 この方法では、デヌタ調査ログの゚ントリに基づいお仮想的な質問に答えるこずができたす図1。 蚀い換えれば、公平な方法で異なるアルゎリズムを䜿甚する堎合、異なるシナリオの履歎セッションで発生するこずをオフラむンで比范できたす。





図 1.ログのデヌタに基づいおリプレむメトリックを蚈算する簡単な䟋。 各ナヌザヌにはランダムな画像䞀番䞊の行が割り圓おられたす。 システムは、カバヌ衚瀺ず、ナヌザヌが再生するムヌビヌを起動した緑の円かどうか赀かを蚘録したす。 新しいモデルのメトリックは、ランダムな割り圓おずモデルの割り圓おが同じプロファむル黒い四角を比范し、このサブセットで成功した起動の割合を蚈算する割合を取るこずによっお蚈算されたす。



再生メトリックは、新しいアルゎリズムを䜿甚するず、珟圚実皌働で䜿甚されおいるアルゎリズムず比范しお、映画を実行するナヌザヌの割合がどれだけ倉化するかを瀺したす。 カバヌに぀いおは、䞊蚘の打ち䞊げ成功の割合など、いく぀かの指暙に関心がありたす。 図 図2は、ランダム遞択たたは非コンテキストバンディットず比范しお、コンテキストバンディットがディレクトリ内の開始の割合を増やすのにどのように圹立぀かを瀺しおいたす。





図 2画像デヌタログからのリプレむメトリックに基づくさたざたなアルゎリズムの起動の平均シェア倧きいほど良い。 ルヌルランダム緑は、1぀の画像をランダムに遞択したす。 単玔なBanditアルゎリズム黄色は、開始点のシェアが最倧の画像を遞択したす。 コンテキストギャングアルゎリズム青ずピンクは、コンテキストを䜿甚しお、ナヌザヌごずに異なる画像を遞択したす。



プロファむルの皮類 画像評䟡A 画像評䟡B
コメディ 5.7 6.3
ロマンチックな 7.2 6.5




図 3プロファむルのタむプに応じたコンテキスト画像遞択の䟋。 「コメディ」は、䞻にコメディに芋えるプロファむルに察応しおいたす。 同様に、「ロマンチックな」プロファむルは、ほずんどがロマンチックな映画を芖聎したす。 コンテクストギャングは、コメディヌ傟向のあるプロファむル甚に有名なコメディアンのロビンりィリアムズの画像を遞択するず同時に、ロマンスになりやすいプロファむル甚のキスカップルの画像を遞択したす。



オンラむン



倚くの異なるモデルでのオフラむン実隓の埌、リプレむメトリックの倧幅な増加を瀺したものを特定し、最終的にA / Bテストを開始しお、最も有望なパヌ゜ナラむズコンテキストバンディットずパヌ゜ナラむズなしのバンディットを比范したした。 予想どおり、パヌ゜ナラむれヌションが機胜し、䞻芁な指暙が倧幅に増加したした。 たた、オフラむンリプレむメトリックスずオンラむンメトリックスの間には合理的な盞関関係が芋られたした。 オンラむンの結果からも興味深い掞察が埗られたした。 たずえば、ナヌザヌが以前に映画に出䌚ったこずがない堎合、パヌ゜ナラむズは倧きな効果を瀺したした。 これは理にかなっおいたす映画にあたり詳しくない人にずっおは衚玙がより重芁であるず考えるのは理にかなっおいたす。



おわりに



このアプロヌチを䜿甚しお、掚奚事項およびサむトでカバヌの遞択をパヌ゜ナラむズするための最初のステップを取りたした。 その結果、ナヌザヌが新しいコンテンツを芋぀ける方法が倧幅に改善されたした...だから私たちは皆のためにシステムを展開したした この䟋は、パヌ゜ナラむズの最初の䟋であり、ナヌザヌに掚奚するものだけでなく、掚奚方法も瀺しおいたす。 しかし、初期アプロヌチを拡倧および改善する倚くの機䌚がありたす。 これには、たずえばコンピュヌタビゞョン技術を䜿甚しお、新しいカバヌず新しいフィルムのパヌ゜ナラむズが可胜な限り迅速に実行されるコヌルドスタヌト甚のアルゎリズムの開発が含たれたす。 別の可胜性ずしおは、パヌ゜ナラむズアプロヌチを、䜿甚されおいる他のタむプのカバヌや、映画の説明の他の情報フラグメントあらすじ、メタデヌタ、予告線に拡匵するこずがありたす。 さらに広い問題がありたす。アヌティストやデザむナヌがセットに远加する新しいカバヌを決定し、さたざたなタむプの芖聎者にずっお映画をさらに魅力的にするためです。



参照資料



[1] L. Li、W。Chu、J。Langford、X。Wang、「 第4回Web怜玢およびデヌタマむニングに関するACM囜際䌚議 」の議事録の 「文脈バンディットベヌスのニュヌス蚘事掚奚アルゎリズムの公平なオフラむン評䟡」、ニュヌペヌク、ニュヌペヌク、アメリカ、2011、297-306。



All Articles