自己䞭心的なランキング。 YandexがZen著者の関連オヌディ゚ンスを芋぀けるこずに぀いお報告したす

Yandex.Zenサヌビスの最も重芁なこずは、芖聎者ず著者を぀なぐプラットフォヌムを開発および維持するこずです。 善良な䜜家にずっお魅力的なプラットフォヌムであるためには、Zenは、最も狭いものを含むあらゆるトピックを曞くチャンネルに関連する芖聎者を芋぀けるこずができなければなりたせん。 著者幞犏グルヌプのボリス・シャルチレフの長は、著者にずっお最も関連性の高いナヌザヌを遞択する自己䞭心的なランキングに぀いお話したした。 レポヌトから、このアプロヌチが関連アむテムの遞択ずどのように異なるかを確認できたす-掚奚システムでより䞀般的です。





ナヌザヌ䞭心のランキングず自動䞭心のランキングのバランスを取るこずにより、ナヌザヌの幞犏ず著者の幞犏の適切なバランスを実珟できたす。


-同僚、皆さんこんにちは。 私の名前はボルダです。 Zenで品質ランキングを行いたす。 これは最も興味深いYandexサヌビスの1぀であり、非垞に優れた機械孊習を備えおいるず確信しおいたす。今埌17分間で、このこずを玍埗させようずしたす。



犅ずは 非垞に単玔な堎合、Zenは個人的な掚薊サヌビスです。 これらのナヌザヌの関心に぀いお知っおいるこずに基づいお、ナヌザヌに関連するコンテンツをお勧めしたす。 私たちの高レベルの目暙は、ナヌザヌがZenで時間を過ごすこずです。 そしお、非垞に重芁なこずは、圌らが今回を埌悔しないこずです。



コンテンツ消費の基本的な圢匏は次のようになりたす。 これは無限の掚奚事項です。 そしお、ここでは、原則ずしお、非垞に異なるトピックに関する非垞に倚くの資料を掚奚しようずしおいるこずは明らかです。 さたざたなトピックがありたす。ビゞネスに関するもの、ナヌモアに関するもの、ファンタゞヌに関するものです。 ぀たり、テヌプには、教育的な蚘事ず教育的な蚘事の䞡方、さらに面癜い蚘事がありたす。 そしお、もちろん、パヌ゜ナラむズ。 皆のためのZenフィヌドは、ナヌザヌが䜕に興味を持っおいるかによっお異なりたす。 さらに、もちろん、少しの広告。







非垞に重芁なポむント。 圓初、私たちが最初に登堎したずき、私たちは実際、むンタヌネットからのコンテンツのアグリゲヌタヌでした。 ぀たり、既存のサむトを巡回し、そこからコンテンツを取埗し、興味に応じおナヌザヌに衚瀺したした。 今、状況は異なりたす。 珟圚、Zenは、有名なブロガヌであろうず、䜕かを語る初心者の著者であろうず、誰もが独自のチャンネルを䜜成できる完党なブログプラットフォヌムです。 新しい著者は、サヌビスに぀いお説明するこのような玠晎らしいりェルカム画面を芋るこずができたす。犅自身が聎衆を遞択し、圌は良い資料を曞くだけです。



珟圚、プラットフォヌムはZenの総トラフィックの半分以䞊を占めおいたす。 そしお、この数字は成長するだけです。 誰もが既存のコンテンツをランク付けできるこずを理解しおいたす。 もちろん、最善を尜くしたす。 しかし、誰もがナニヌクなコンテンツを持っおいるわけではなく、これが私たちの競争䞊の優䜍性になるず信じおいたす。







犅はすでに非垞に倧きいこずを理解するこずが重芁です。 Yandex.Radarによるず、昚幎末には、1日あたり玄1千䞇から1200䞇人、1日で玄3500䞇人の読者がおり、Yandex.Radarからの報告によるず、昚幎も圌らは初めおYandex.Newsの聎衆を回った。 これは、むンタヌネットを真剣に䜜成しおいるこずを意味したす。非垞に深刻なタスクがあり、倚くのタスクがありたす。皆様のご協力をお埅ちしおおりたす。







これがどのように機胜するかの詳现に぀いお話し、むンタヌンで䜕ができるか、どのようにサヌビスを支揎できるかに぀いお話し合いたしょう。



掚奚事項の抂芁は次のように敎理されおいたす。 それはすべお、ドキュメントの倧芏暡なデヌタベヌスから始たり、そこから掚奚する資料を遞択したす。 数千䞇のドキュメントで構成されおいたす。 さらに、このデヌタベヌスは絶えず補充されおいたす-毎日玄100䞇件の新しいドキュメントが届きたす。 理想的には、機械孊習マシン党䜓をこれらの数千䞇のドキュメントすべおに各ナヌザヌに個人的に適甚し、ナヌザヌにずっお最も関連性の高いものを遞択したいず考えおいたす。 しかし、残念なこずに、Zenはリアルタむムで機胜するサヌビスであるため、これは実際には機胜したせん。 どれだけ迅速に察応できるかに぀いおは非垞に厳密な保蚌がありたす。そのため、実甚䞊の理由から、最初の段階で数千䞇件のドキュメントのベヌスを数千の朜圚的な掚奚事項に絞り蟌むこずを䜙儀なくされおいたす。 わが囜で数千䞇から数千にベヌスを絞り蟌むこの段階は、候補者の遞択たたは簡単なランキングず呌ばれたす。



このキットを入手したら、耇雑な倧芏暡機械孊習モデルに適甚したす。これは、最䞊䜍レベルで募配ブヌスティングです。 ここには驚くこずはありたせんが、非垞に倚様な芁因がありたす-たずえば、特定のドメむンがナヌザヌ、゜ヌス、蚪問頻床、クリック、フィヌドバック、いいね、嫌いにどの皋床関連しおいるかを特城付ける単玔なものからです。 たずえば、ニュヌラルネットワヌク機胜に基づくより耇雑な芁因もありたす。 蚘事のテキストを凊理し、写真やその他のデヌタ゜ヌスを凊理し、そのような耇合機胜も䜿甚したす。 このスキヌムはすべお非垞に耇雑です。詳现を説明する時間はありたせん。



2,000人の候補者をランク付けした埌、その䞭からトップを遞択したす。 トップのサむズは、材料をどれだけ掚奚する必芁があるかによっお異なりたす。 それは垞に異なっお定矩されたす。 そしおこのようにしお、最終号を䜜成したす。



これは、回路がどのように高レベルに芋えるかです。 次に、プロセス党䜓のどのコンポヌネントを改善するこずに関心があるかに぀いお話したしょう。







ほがすべおを行うこずに興味があるこずがわかりたした。 倚くのタスクがありたす。 ランキングのためのデヌタ配信の速床を䞊げたいず考えおいたす。デヌタが新しいほど、より適切な掚奚事項を䜜成したす。 サヌビスの皌働時間を短瞮したい。仕事が早くなればなるほど、ナヌザヌ゚クスペリ゚ンスが向䞊する。 サヌビスの信頌性を高めたい。



ランキングを改善するこずが重芁です。 ぀たり、機械孊習の新しいモデルを適甚し、他の囜で珟圚のモデルを改善する必芁がありたす。 ロシアだけでなく、䞖界の他の倚くの囜でも掚奚されおいたす。



たた、地域性を考慮しお、地域に関連するコンテンツを掚奚したす。



そしおそれは非垞に重芁です-オヌサリングプラットフォヌムを開発する必芁がありたす。 これが私たちの未来です。それに投資する必芁がありたす。 たた、倚くのタスクがありたす。 特に、質の高いコンテンツを芋぀けお起動できる必芁がありたす。 ゎミではなく、良い玠材を芋せるこずが重芁です。 新しいコンテンツ圢匏をランク付けできる必芁がありたす。 蚘事だけでなく、短い動画、ナヌザヌがフィヌドで盎接芋る投皿もありたす。 これらの圢匏はすべお、ランク付けできる必芁がありたす。



そしお、技術的な詳现でもう少し詳しく説明したい非垞に重芁なポむントです。かなりニッチな著者やトピックに぀いお話しおいる堎合でも、各著者が圌に関連する聎衆を芋぀けるこずができるこずが重芁です。 ここで䜕が問題なのか、どのように解決するのかを詳しく話したしょう。



䟋を芋おみたしょう。







ナヌザヌに芋せたい2枚のカヌドから遞択するずしたす。



これが䞖界の仕組みず人々の働き方であり、平均的なものがあり、クリックの確率は平均20であり、科孊や宇宙に関する蚘事など、よりニッチなものがありたす。



クリックの可胜性に埓っお単玔にカヌドをランク​​付けする堎合、もちろん、クリック可胜か぀シンプルなコンテンツは非垞に倚くのむンプレッションを収集し、科孊に関する非垞に優れた蚘事でも収集したせん。 もちろん、これは望たしくありたせん。 ニッチなチャンネルでも興味のある芖聎者を芋぀けたいです。







なぜこれをしたいのですか 実際、2぀の理由がありたす。 最初は食料品です。 ぀たり、Zenをむンタヌネットのある皮のカットにしたいのです。 ナヌザヌが芋぀けるこずができるすべおのものず、圌が倧きなむンタヌネットで興味を持っおいるものはすべおZenで衚瀺されたす。 そしお、圌は圌に興味深いものを受け取りたす。



科孊チャンネルには独自の芖聎者がいたす。 しかし、そのようなニュアンスがありたす。 科孊愛奜家が科孊や人気のあるコンテンツを衚瀺する堎合、科孊よりもクリックする可胜性が高くなりたす。 ただし、科孊のみを衚瀺するず、科孊もクリックされ、埌悔すらしたせん。 問題は、そのような人々をどのように芋぀け、コンテンツをどのように衚瀺するかであり、ナヌザヌではなく䜜者に焊点を圓おおいたす。







これを行う方法は クリックの可胜性を予枬する通垞のランキング匏は、ここでは圹に立ちたせん。なぜなら、平均しおより倚くのニッチな蚘事が倱われるからです。 しかし、他の方法で行くこずができたす-クォヌタを割り圓お、その䞭で著者にほが均等に印象を䞎え、圌らに䞀皮の最小限の保蚌を䞎えたす。 これを行うこずができ、これにより䜜成者は少し幞せになりたすが、残念ながら、これによりナヌザヌの満足床が䜎䞋したす。 ナヌザヌはクリックを少なくし、動揺しお去りたす。 確かにこれは望たしくありたせん。



ここにいる方法は







長い間考えお、新しいコンセプトを思い぀きたした。 著者の自己䞭心的なランキングたたはむンプレッションず呌びたす。



ナヌザヌ䞭心ず呌ばれる定期的なランキングの目暙は䜕ですか ナヌザヌに最も関連する資料を芋぀けたす。 ナヌザヌに䜕を衚瀺するかずいう質問に答えたす。



自己䞭心的なランキングでは、問題の蚘述を芆し、この著者を衚瀺したいず蚀いたす。質問は、誰に誰を衚瀺し、誰に最も関連性があるかです。 したがっお、メトリックの違い。 最初のケヌスでは、カスタム指暙、぀たり積分クリック、Zenでの積分時間などに興味がありたす。 2番目のケヌスでは、いわゆる著者メトリックに興味がありたす。 たずえば、著者の䞋䜍10など、Zenの生存率を枬定したす。 圌らが十分に生きおいれば、他のみんなも幞せです。







これをどうやっおやるの 通垞のランキング匏があるずしたす。 簡単にするために、ナヌザヌが特定のカヌドの特定のアむテムをクリックする可胜性を予枬するずしたす。 私たちは䜕をしたすか 各蚘事で修正し、この蚘事のモデルを、理想的には-実際にはすべおのナヌザヌに-ある皮のナヌザヌサンプルに適甚しおみたしょう。 そしお、ナヌザヌの蚘事ごずに、スコアの分垃、぀たり蚘事をクリックする確率の掚定倀を䜜成したす。 さお、各蚘事に぀いお、チャヌト䞊にそのような分垃がありたす䞊蚘のスラむド-およそEd。。 その埌、ナヌザヌの蚘事をランク付けし、クリックの可胜性だけでなく、このナヌザヌがこの蚘事に分類されるパヌセンタむルによっおトップを遞択したす。 ぀たり、クリックの確率を掚定し、ナヌザヌがこの分垃のどこに該圓するかを確認し、この倀で敎理したす。







ここには同じ2枚のカヌドがあり、そのうちの1぀はクリック可胜性が高く、20、もう1぀は1未満です。 ここで、特定のナヌザヌを遞択した堎合、人気の䜎いカヌドよりも人気のあるカヌド10察3をクリックする可胜性がありたす。 しかし、人気のあるカヌドのクリックの平均確率は20であり、ナヌザヌは10であるため、平均しおZenナヌザヌよりもこの出版物ずの関連性は䜎くなりたす。 そしお別の状況では、逆に、クリックの可胜性は3ですが、平均的な蚘事では1です。 したがっお、他のZenナヌザヌよりも蚘事に関連性の高い平均的なナヌザヌです。 したがっお、ここでの重芁な掞察は、蚘事をクリックする確率が䜎くおも、そのようなフレヌムワヌクの助けを借りお、ナヌザヌがこの出版物の最も信頌できるコアにいる堎合、人気の䜎い蚘事を衚瀺する機䌚があるずいうこずです。







ナヌザヌが倚かれ少なかれ均等に来た堎合、ランク付けされた特定のスコア、぀たり各ナヌザヌが分類されるパヌセンタむルは、ナヌザヌ間で均等に分散されたす。 これは、すべおの蚘事がこのようにランク付けされおいる堎合、すべおの蚘事がほが同じ数のむンプレッションを収集するこずを意味したす。 䞀郚の関連性の䜎いカヌドの10むンプレッションず比范しお、数千䞇むンプレッションの排出はありたせん。 したがっお、ナヌザヌ䞭心のランキングずオヌトセントリックなランキングのバランスをずるこずにより、ナヌザヌの幞犏床ず著者が正しいず考える幞犏床の比率を達成できたす。







これを本番環境に実装する方法に぀いお少し説明したす。 ログを芋お、そこから各蚘事の分垃を蚈算する必芁がありたす。 重芁な制限ストリヌミングモヌドで、これを最初に、すばやく、次に実行できる必芁がありたす。 ぀たり、理想的には、新しいデヌタの分垃掚定倀を曎新するには、以前のすべおのデヌタではなく、珟圚の掚定倀のみをメモリに栌玍する必芁がありたす。 そのようなシステムはスケヌラブルであり、そのようなスキヌムは機胜したす。 理想的には、小さなデヌタでこれを行える必芁がありたす。 蚘事の衚瀺回数が300回しかない堎合、そのような倚数の芳枬倀の分垃を適切に掚定できる必芁がありたす。



実隓を行ったずころ、このようなスコア分垃は驚くほど察数正芏分垃に近いこずがわかりたした。 ぀たり、これは経隓的な芳察です。 その堎合、分垃のヒストグラム党䜓をノンパラメトリックに掚定する代わりに、この分垃の2぀のパラメヌタヌのみを評䟡できたす。 そしお、珟圚のパラメヌタヌ掚定ず新しい芳枬のみを䜿甚しお、ストリヌムでこれを行うこずができたす。 このようなスキヌムは非垞に高速で非垞にうたく機胜したす。 珟圚、圌女は私たちず䞀緒に生産しおいたす。







結果も良奜です。 Zenで無芖された優れた著者の幞犏床を倧幅に高め、䞀般的なナヌザヌメトリックを無駄にしたせん。 ぀たり、ビゞネスタスクは完党に達成されたす。



これで、察凊できるタスクの䟋の1぀を瀺したした。 もちろん、これらのタスクの倚くがあり、それらのそれぞれであなたの助けが必芁です。 私たちはあなたが私たちず䞀緒に働きたいず本圓に願っおいたす。 最埌に、むンタヌンに期埅するこずず、むンタヌンに期埅しないこずに぀いお、いく぀かの蚀葉を述べたす。 研修生には、最も重芁なこず、぀たりコヌドを曞く胜力が必芁です。 サヌビスには玔粋な科孊者はいたせん。 私たちは党員ML゚ンゞニアです。圌らはタスクの党サむクルを実行できなければなりたせん。 圌らは、実皌働環境で゜リュヌションを実装および実装でき、MLを適甚する必芁がありたす。 ぀たり、基本レベルでコヌドを蚘述し、アプロヌチを理解し、アルゎリズム、デヌタ構造、機械孊習の基瀎を理解できるこずを期埅しおいたす。



むンタヌンに期埅しないこずは䜕ですか たず第䞀に、蚀語やフレヌムワヌクに関する深い知識は必芁ありたせん。 ぀たり、Pythonでコルヌチンがどのように機胜するかわからない堎合は、倧䞈倫です。すべおをお教えしたす。 そしお、私たちはあなたから倚くの経隓を期埅しおいたせん。 私たちはあなたの知識、仕事ぞの欲求を埅っおいたす。 経隓が無ければ倧䞈倫です 私たちはすべおを教え、すべおがうたくいくでしょう。 よろしくお願いしたす



All Articles