👩‍👧 👩🏼‍🤝‍👩🏻 👍🏾 ユーザーの評価に基づいたコンテンツの並べ替えについて：パート3 📘 🎱 🛷

前の記事で、記事の評価とサイトの平均評価に基づいて評価を予測する式を推測しました。この記事では、その予測の質を示し、分散による予測を改善すると考えました。ただし、別の問題が発生しました。

$画像$

この式は、将来の記事の評価を予測します。

マイノリティの問題

ただし、予測が100％正しい場合でも、サイトのすべてのユーザーが記事に与える評価については何も言いません。彼は、どの平均評価がユーザーによって付けられ、ユーザーがそれに切り替えて投票するかを予測します。

つまり 2つの条件があります。

ユーザーは記事にアクセスする必要があります
ユーザーは投票する必要があります

2番目の条件はそれほど重要ではありません-ランダムな割合のユーザーが投票すると仮定できます。ただし、最初の条件では、そのような仮定を立てることはできません。ユーザーは記事のタイトルとその発表を読みます。たとえば、ハブでは、Photoshopに関する記事は少数の人にしか興味がありませんが、よく書かれていれば、すべてのデザイナーが5つ星を付け、より多くの読者に他の記事を追い越します。ポルノサイトのより良い例は、この問題をよりよく示しています。写真のどの部分があらゆる種類の倒錯であり、少数派のみが興味を持ち、ほとんどが嫌悪感を引き起こしています。

「一票」の問題の代わりに、「少数派」の問題が生じます。サイトでこのような問題が発生した場合、投票数に応じて評価を線形に依存させる必要があります。たとえば、nのルートの代わりに、この記事の冒頭の式にnを書くだけです。ただし、この場合、金持ちはより豊かになります。

倒錯は全体的な評価から除外することができますが、絶対的な大多数のユーザーがHabréで好むようなトピックがない場合はどうすればよいでしょうか。

プラス

この写真の特徴は、1つの可能性のある評価、つまりプラスだけです。単一の音声の問題はありませんが、投票数はビューに線形に依存するため、「リッチリッチ」問題は強力です。減らすことができます。

並べ替えのために「好き」のクリック数を増やすタスクがあるとします。これは、サイトを引き起こすポジティブな感情の良い指標です。さらに、このボタンをクリックすると、ソーシャルサービスのあるサイトへの追加のトラフィックが集まります。このボタンがVKontakteまたはFacebookの場合はネットワーク。これは優れた指標であり、評価ほど抽象的ではありません。

5つ星の評価で行ったように、予測できます。これを行うには、平均CTRを計算し、wikiのいくつかの式を使用します。たとえば、ガラス上の数式（ウィルソンの数式でもあります）。次に、重量のどの部分が信頼できないかを見つけ、それを平均に置き換えます。

$画像$

ウィルソンは長すぎるため、通常の近似の例を示します。

$画像$

再びnのルートを取得します。最後の記事の式は正規分布から推定されるため、これは二項分布の正規近似です。ただし、多くの場合、出力は単純にプラスの数でソートするよりも悪化します。

何を予測しますか？

100％の精度で予測を行うKassandraアルゴリズムを開発したとします。記事への移行がなかったとしても。ただし、ほとんどの場合、ページビューの数が減少するため、クリック数は減少します。

記事への移行回数は、トピック、タイトル、発表に依存するという事実を考慮しませんでした。パブリックトピックに関する優れた記事と、狭いトピックからの優れた記事が重複している場合があります。

これを回避するには、何らかの方法で記事の発表のCTRを予測する必要があります。最も簡単な方法は、メインメニューから記事のカテゴリへの遷移数を計算し（またはGoogleアナリティクスでカテゴリページへの訪問数を調べ）、記事のCTRをカテゴリの人気に比例させることです。 CTR自体にはほとんど関心がありませんが、あるカテゴリのCTRが他のカテゴリよりも多いことに最も関心があります。評価全体に特定の数を掛けても、ソート順は変わりません。

ただし、記事のクリック率は、発表とトピックだけでなく、ページ上のその場所にも依存します。各記事には特定のCTRが10位にあり、1から9までは、どれだけ増加するかについて特定の要因があると仮定できます。ただし、発行が保守的である場合、係数の計算結果は統計的に信頼できません。これは、特定の場所に1つの記事しか存在しないためです。

このことから、問題を「希釈」する必要があります。自動A / Bテストを行うか、ポジション間のCTR差を計算して、すべてのポジションを1つの記事に順番に置き換える必要があります。これらのオプションのどれを-より速く、より簡単に-私は暇なときに考えます。

ユーザーの評価に基づいたコンテンツの並べ替えについて：パート3

マイノリティの問題

プラス

何を予測しますか？

More articles: