コンテンツを掚奚しない方法



メディアず通信するずき、 Relap.ioで私たちは倚くの堎合、誰もが信じおいる倚くの誀解に遭遇したす。 サむトには「Read Also」や「Hottest」などのブロックがありたす。 䞀蚀で蚀えば、すべおが蚘事の結合を構成し、芪愛なる読者のUXを補完しようずしおいたす。 メディアがコンテンツの掚奚事項を䜜成する際にどのような誀解を持っおいるかを説明し、それらを数字で远い払いたす。



HAbr1





タグで掚奚



最倧か぀最も人気のある誀解。 ほずんどの堎合、メディアはタグに関する蚘事の最埌に掚奚事項を䜜成したす。 これは、たずえば、Look At MeずRBCが行うこずです。 タグ付きの玠材がありたすトラクタヌ、プヌチン、チヌズ。 トラクタヌ、プヌチン、チヌズに関するテキストが圌に衚瀺されたす。 䞀芋、論理的です

村

実生掻での同様の掚奚メカニズムは、このようになりたす。 食料品店に行きたす。 そしお、バタヌをバスケットに入れたす。 コンサルタントが興奮しお汗をかいお手のひらであなたに近づき、こう蚀いたす。 さらに5皮類のクリヌミヌな村ずヒマワリずダギのバタヌを取りたす。」 普通に起こる可胜性のある最倧倀-車に぀いお䜕かを読んだ堎合、圌らはあなたにトランスミッションを提䟛したす。 そしお、それはすでにロケット科孊ず芋なされたす。



しかし、タグで掚奚できる状況がありたす。たずえば、補品レビュヌのあるWebサむト-人が䌌たような圧力鍋や電話のいく぀かのレビュヌを読みたいず仮定するこずができたす。 ただし、タグを付ける゚ディタヌを信頌するべきではありたせん。異なる人はテキストを異なる方法で認識したす。耇数の゚ディタヌがいる堎合、倚かれ少なかれ同じこずを蚘述するタグの倚様性は驚くべきものです。



マシンに䟝存しお、テキストからキヌワヌドを自動的に抜出するこずをお勧めしたす。 この堎合、特定のテキストに重芁な単語およびより安定したフレヌズ、コロケヌション、しかしこれは少し異なるストヌリヌのみを取埗し、完党に異なるトピックに関する別の100䞇の蚘事に衚瀺される可胜性のある名前/商暙のリストは取埗したせん。



キヌワヌドをテキストから分離する最も簡単なそしお倚くの堎合非垞に効果的な方法は、 tf-idfずその倚くのバリ゚ヌションを䜿甚するこずです。



tf-idf- 期間頻床逆文曞頻床 。 ドキュメントで䜿甚される単語ず頻床を調べ、コヌパスでめったに芋られない単語を重芖したす。 蚀い換えるず、テキストに「sepulka」ずいう単語が1回しか出珟しおいなくおも、たずえば「Shrovetide」ずいう単語よりも重芁なタグになる可胜性がはるかに高くなりたすsepulkariaの取匕専甚サむトをむンデックスに登録する堎合を陀く。

芚えおいない人のために、䜏宅の逆呚波数 idf は次のように蚈算されたす。







どこで inline_formula -ケヌス自䜓倚くの文曞 inline_formula 、および inline_formula -期間。 䞀般に、リレヌションの察数を取る必芁はありたせん。単調な関数はすべお萜ちたすWikipediaでは、この匏の倚数の倉圢を芋るこずができたす。䞻なこずは、過床の人気を「眰する」こずです。 ケヌスが十分に倧きい堎合は、察数を䜿甚するこずは理にかなっおいたす。

甚語の頻床はさらに単玔です







どこで inline_formula 文曞内の甚語の出珟回数 inline_formula 、分母の合蚈は、単に文曞内の単語の総数です。

重芁床によっお単語をランク付けするには、次の2぀の数倀を単玔に乗算したす。







䜓党䜓で逆の頻床が蚈算され、甚語の頻床が分析したい文曞に䟝存しおいるこずは簡単にわかりたす。 ロシア語の堎合、テキスト内のすべおの単語を蟞曞圢匏にするか、少なくずも補題化するこずは実際には必芁ですが実際には必芁です、これに぀いおは珟時点では説明しおいたせん興味のある人は、Porterアルゎリズムのプロセスに慣れるこずができたす 。



コヌパスを蚈算し、倀を降順にしお各ドキュメントの単語をランク付けする堎合 inline_formula 、その埌の最初の数語は、ドキュメントの内容に぀いおかなり適切なアむデアを提䟛したす。 このような単語はタグずしお䜿甚できたすが、既に述べたように、ニュヌスサむトでこれを行うべきではありたせん。最終的には、降雪による亀通枋滞に関するニュヌスだけで十分です。 2012幎に枋滞で高速道路xxxがどのようになっおいたかを芚えおおく必芁はありたせん。



衝撃的な真実



䞖界はもう少し耇雑です。 実際、すべおは次のように機胜したす。ナヌザヌはサむトにアクセスし、ドル為替レヌト、新しいiPhoneのレビュヌ、パンダの写真を確認したす。 したがっお、すでにドルずiPhoneを芋おいた別の人は、それがどんなに奇劙に聞こえおも、パンダを芋たいず思うでしょう。 これは、協調フィルタリングず呌ばれたす。 コンテンツの読者の関心を最倧限に高めるのに圹立぀ナヌザヌずパタヌンのクラスタヌがありたす。



詊隓結果



A / Bテストの結果によるず、远加の蚭定なしでの協調フィルタリングは、遞択されたタグよりも20〜30倚くのクリックをもたらしたす。 そしおこれは、誰もタグに基づいお「Read Also」ブロックを䜜成しおはならないこずを意味したす。


画像

協調フィルタリングは、ある皋床tf-idfを䜿甚しお意味のある情報を分離するずいう考え方の継続ですが、単語の頻床ではなく、読者の異なる重みの「​​音声」を䜿甚したす。 音声ずは、䜕らかのアクションを意味したすペヌゞの衚瀺、最埌たでスクロヌルする、䜕か他のもの-䞀連のむベントは、数孊者の想像力ずプログラマヌこの壮倧さをすべお考慮しおコヌドを曞くの自由時間のみに䟝存したす。



むベントの数を数えるだけでは間違っおいるので、再び投祚の重みを蚈算したす。 読者は評䟡を䞎えないのでさらに、村評議䌚の端で育ったベニテングタケに関する蚘事を読むこずさえ知らないか、考えおいないので、速報速報コヌドの読曞蚭定に関する統蚈を収集するのに圹立ちたす、「重芁性」を決定する必芁がありたす匿名でかなり限られた情報のみを䜿甚しお投祚する。



読者の声の重芁性は、吊定的な兆候はあるものの、圌がどれだけ掻発であるかによっお異なりたす。ナヌザヌが䞀定期間たずえば、12時間に読む蚘事が倚いほど、圌の声は安くなりたす。 音声の重みは、リ゜ヌスで読み取られた蚘事の数の枛少関数です。 さらに、トップを切り捚おるのは理にかなっおいたす同じサむトで1日に100件以䞊の蚘事を読んだ人は、このサむトの線集者、たたはマニアやボットのいずれかであり、おそらく私たちは圌の掚奚を必芁ずしたせん。



重みは、たずえば次のように蚈算できたす。







どこで inline_formula 声の重み inline_formula ナヌザヌ inline_formula このナヌザヌの投祚数。 繰り返したすが、察数の䜿甚を匷制する人はいたせん-単調枛少関数 inline_formula 厳密に蚀えば、投祚数がれロの読者も考慮に入れないでください「反察」列は投祚から削陀されたした。 これに䜕か他のものを远加するこずができたす䟋えば、読んだ蚘事の数を数えるだけでなく、読んだ時間、䞎えられた成瞟そのような情報が利甚可胜な堎合、その他も考慮に入れたす。





同じセクションのコンテンツを掚奚する



前の誀りの2番目の化身は、セクションごずに掚奚事項をセグメント化するこずです。

バタヌ郚門のコンサルタントが「今日はバタヌだけを買う、そうそう、たくさんのバタヌを買うだろう」ずいう蚀葉であなたを人質に連れお行くず想像しおください。あなたはドアを開けお叫び、この店には決しお戻りたせん。



詊隓結果



1぀のグルヌプのナヌザヌが掚奚をセグメント化したこずを瀺したした。ある人が「Society」セクションのニュヌスを読む-「Society」セクションの蚘事のみを掚奚したす。 別のグルヌプは、サむト党䜓から掚奚事項を受け取りたしたクロスセグメントの掚奚事項。 セクションを陀く掚奚事項を含むりィゞェットのCTRは2倍高く、拒吊の割合は16䜎く、サむトで費やされた時間は23長くなりたした。 読者を1぀のセクションに限定するこずは意味がありたせん。 掚奚事項を倚様化したす。


画像

同じセグメント内での協調フィルタリングず自動タグ蚈算がより悪いこずに気付くのは簡単です-サむトのコンテンツをセグメントに分割し、各セグメント内で掚奚倀を蚈算した埌、より小さなサンプルで同じアプロヌチを䜿甚したす。 さらに、ナヌザヌアクティビティの歪んだ画像を取埗したす。



最終的に、ナヌザヌをランク付けするずき、私たちは、その人が1日に読んでいる倩気に぀いおの蚘事の数ではなく、ネットワヌク䞊でどれだけアクティブになっおいるかに興味がありたす。 さお、この堎合、関心の盞関関係を忘れるこずができたすあるセクションから別のセクションに移動する条件付き確率に興味がないたたは、興味があるが、蚈算のための統蚈を収集しないため、セクションセルに掚奚事項をロックしないでください。奜きではありたせん。





人気をお勧めしたす



人気のあるニュヌスを掚奚するこずは、誰もがすでに芋た䞍芁なニュヌスを掚奚するこずです。 人気は、倚くの人が芋おいるコンテンツです。 それが人気のある方法です。 サむトでこのようなブロックを䜜成するたびに、この申し出を芚えおおいおください。 これは誰もが芋たニュヌスです。



詊隓結果



A / Bテストでは、䞀般的なフィルタリングず共同フィルタリングを比范したした。 協調フィルタリングを䜿甚したCTRりィゞェットは7倍高くなりたす。 これは、アルゎリズムが非垞に優れおいるこずを意味するものではありたせん。 これは、サむトで人気のあるブロックが吞い蟌たれ、だれも必芁ずしないこずを意味したす。 このサむトの人気ブロックはほずんどのメディアにずっお必須のものであるず理解しおいたすが、この誀解に別れを告げる時が来たした。


画像

人気のあるニュヌスがボタンアコヌディオンに倉わり、倚くの人が今興味を持っおいるものをお勧めするのに時間がかかるのは悪い考えではありたせん。 読者の興味が薄れ始めたら、YouTubeで新鮮なゞョヌクを芋぀けようずしおいるずきに「ルヌビン」などしか衚瀺されたせん。 この動画の再生回数は10億回に達しおいるため、非垞に䟿利です。



ご想像のずおり、むベントの幎霢の枛少関数は、ナヌザヌが実行したアクションの数の枛少関数がボットやマニアを取り陀くのに圹立ったのず同じように私たちを助けたす。 確かに、芖聎幎霢の堎合、各投祚の重みははるかに速く枛少するはずです。倚くのナヌザヌがいお、午前䞭に1,000回再生されおも、誰かが朝の亀通枋滞に぀いお昌食を読みたいずは限りたせん。 ビュヌの察数ぞの逆䟝存性は、1人のナヌザヌの投祚を評䟡するずきにうたく機胜したす。人気を刀断するには、負の幎霢の方が適切です。 inline_formula どこで inline_formula 声の重み inline_formula 蚘事甚 inline_formula 、 inline_formula 読み取りからの経過時間、および inline_formula ある皮の定数。 ニュヌスはに埓っおランク付けする必芁がありたす inline_formula 頻繁に行うず、掚奚事項の関連性が倱われたす。



最埌の匏を3秒以䞊芋るず、重みの合蚈はそれほど重芁ではなく、成長の速床が重芁であるず結論付けるのは簡単です。 したがっお、ニュヌスを「メリットの党䜓性」に埓っおランク付けするのではなく、これらのメリットの採甚のスピヌドに埓っおランク付けするこずがさらに良いです。 実際、この速床を慎重に怜蚎するず、投皿のりむルス性を予枬し、他の宇宙的なこずを行うこずを孊ぶこずができたすただし、この堎合、りむルス性はただ予枬されおいないが、早期に怜出されるこずに泚意しおください。





制限時間を蚭定しないでください



6か月前にニュヌス出版物がニュヌスを掚奚する理由を理解するこずは困難です。 このアプロヌチにより、次のようなワむルドな䟋が生たれたす。

スノブ

メディアは、ナヌザヌが以前にこのトピックで䜕が起こったかを知りたいず考えおいたす。 いいえ、圌は望んでいたせん 圌は興味がなく、誰も興味がありたせん。



詊隓結果



ニュヌスメディアでのテスト䞭に、蚪問者に掚奚されるべきニュヌスに最適な幎霢を芋぀けたした。 3぀のオプションがテストされたした。発行日から72、48、24時間です。 テストサンプルは270䞇人の読者で、テストは1か月で実斜されたした。 私たちの同僚のほずんどは24時間に賭けおいたす。なぜなら、ニュヌスはすぐに時代遅れになり、昚日のニュヌスは誰も読たないように思えたからです。 48時間で信じる人の数はやや少なかった。 どうやら、誰もがその日の関連ニュヌスを読む時間がないので、ほずんどの堎合、昚日䜕かを芋逃しお远い぀きたいからです。 誰も72時間で信じおいたせん...はい、72時間は勝ちたした。 この範囲では、ナヌザヌは最も興味深い資料を芋぀け、そのようなニュヌスから収集されたブロックは、48時間以䞊4.2、24時間以䞊10.9クリック可胜です。 これはおそらく、人々がメディアが生成する情報の党量を消費する時間がないたたは単にしたくないためです。 したがっお、昚日リリヌスされたニュヌスはただ圌らに関連しおいたす。 䟋倖はニュヌス速報です。


画像

根拠にならないように、たずえば100䞇のむベントペヌゞ遷移などの比范的倧きなサンプル前の段萜で説明したものよりも少ないでのペヌゞアクセスの統蚈を芋お、読んでいる蚘事の幎霢を芋おみたしょう。



たず、サンプルに含たれる異なるペヌゞの数を芋おくださいすべおのむベントは1぀の倧きなニュヌスサむトで収集されたす。次のこずがわかりたす。

幎霢時間 ペヌゞ数
0-24 719
24-48 841
48-72 581
72-96 368
96-120 238
120-144 73
144-168 85
168-192 147
192-216 141
216-240 110
> 240 8152
合蚈 11455


叀いURLがたくさんあるこずは明らかですが、蚪問したURLだけでなくトラフィックの分垃を考慮する必芁があるこずも明らかです。 蚪問数を芋おみたしょう。

蚘事の幎霢時間 むベント数
0-24 771 435
24-48 130 431
48-72 26,233
72-96 21 536
96-120 5,214
120-144 673
144-168 287
168-192 965
192-216 1 001
216-240 1,642
> 240 40 583
合蚈 1,000,000




予想どおり、トラフィックの90以䞊は過去72時間に公開された蚘事からのものです。



これらは、すべおのメディアの5぀の普遍的なルヌルです。 同時に、各サむトには独自の行動パタヌンがありたす。 それらに応じお、アルゎリズムが構成されたす。 同じ法埋ず犁止のセットは、私たちのサむトのいずれかのために策定するこずができたす。



この蚘事があなたの線集スタッフの仕事ずむンタヌフェヌスの蚭蚈に圹立っおくれたらずおも嬉しいです。 あなたが私たちず䞀緒に実装したい質問、クレむゞヌな仮説やアむデアがある堎合は、lab @ relap.ioに曞いおください



圓瀟の技術を䜿甚し、読者を匕き付け、䞀般的にサむト䞊のコンテンツの掚奚事項を自動化する堎合は、喜んでお手䌝いしたす。 電子メヌルsupport@relap.io



質問しおください。 コメントで回答したす。




All Articles