この式は、将来の記事の評価を予測します。
マイノリティの問題
ただし、予測が100%正しい場合でも、サイトのすべてのユーザーが記事に与える評価については何も言いません。 彼は、どの平均評価がユーザーによって付けられ、ユーザーがそれに切り替えて投票するかを予測します。
つまり 2つの条件があります。
- ユーザーは記事にアクセスする必要があります
- ユーザーは投票する必要があります
2番目の条件はそれほど重要ではありません-ランダムな割合のユーザーが投票すると仮定できます。 ただし、最初の条件では、そのような仮定を立てることはできません。ユーザーは記事のタイトルとその発表を読みます。 たとえば、ハブでは、Photoshopに関する記事は少数の人にしか興味がありませんが、よく書かれていれば、すべてのデザイナーが5つ星を付け、より多くの読者に他の記事を追い越します。 ポルノサイトのより良い例は、この問題をよりよく示しています。 写真のどの部分があらゆる種類の倒錯であり、少数派のみが興味を持ち、ほとんどが嫌悪感を引き起こしています。
「一票」の問題の代わりに、「少数派」の問題が生じます。 サイトでこのような問題が発生した場合、投票数に応じて評価を線形に依存させる必要があります。 たとえば、nのルートの代わりに、この記事の冒頭の式にnを書くだけです。 ただし、この場合、金持ちはより豊かになります。
倒錯は全体的な評価から除外することができますが、絶対的な大多数のユーザーがHabréで好むようなトピックがない場合はどうすればよいでしょうか。
プラス
この写真の特徴は、1つの可能性のある評価、つまりプラスだけです。 単一の音声の問題はありませんが、投票数はビューに線形に依存するため、「リッチリッチ」問題は強力です。 減らすことができます。
並べ替えのために「好き」のクリック数を増やすタスクがあるとします。これは、サイトを引き起こすポジティブな感情の良い指標です。 さらに、このボタンをクリックすると、ソーシャルサービスのあるサイトへの追加のトラフィックが集まります。 このボタンがVKontakteまたはFacebookの場合はネットワーク。 これは優れた指標であり、評価ほど抽象的ではありません。
5つ星の評価で行ったように、予測できます。 これを行うには、平均CTRを計算し、wikiのいくつかの式を使用します 。 たとえば、ガラス上の数式(ウィルソンの数式でもあります)。 次に、重量のどの部分が信頼できないかを見つけ、それを平均に置き換えます。
ウィルソンは長すぎるため、通常の近似の例を示します。
再びnのルートを取得します。 最後の記事の式は正規分布から推定されるため、これは二項分布の正規近似です。 ただし、多くの場合、出力は単純にプラスの数でソートするよりも悪化します。
何を予測しますか?
100%の精度で予測を行うKassandraアルゴリズムを開発したとします。 記事への移行がなかったとしても。 ただし、ほとんどの場合、ページビューの数が減少するため、クリック数は減少します。
記事への移行回数は、トピック、タイトル、発表に依存するという事実を考慮しませんでした。 パブリックトピックに関する優れた記事と、狭いトピックからの優れた記事が重複している場合があります。
これを回避するには、何らかの方法で記事の発表のCTRを予測する必要があります。 最も簡単な方法は、メインメニューから記事のカテゴリへの遷移数を計算し(またはGoogleアナリティクスでカテゴリページへの訪問数を調べ)、記事のCTRをカテゴリの人気に比例させることです。 CTR自体にはほとんど関心がありませんが、あるカテゴリのCTRが他のカテゴリよりも多いことに最も関心があります。 評価全体に特定の数を掛けても、ソート順は変わりません。
ただし、記事のクリック率は、発表とトピックだけでなく、ページ上のその場所にも依存します。 各記事には特定のCTRが10位にあり、1から9までは、どれだけ増加するかについて特定の要因があると仮定できます。 ただし、発行が保守的である場合、係数の計算結果は統計的に信頼できません。これは、特定の場所に1つの記事しか存在しないためです。
このことから、問題を「希釈」する必要があります。 自動A / Bテストを行うか、ポジション間のCTR差を計算して、すべてのポジションを1つの記事に順番に置き換える必要があります。 これらのオプションのどれを-より速く、より簡単に-私は暇なときに考えます。