![](https://habrastorage.org/storage2/22a/6bf/5a5/22a6bf5a50010f3e3a871617ce8f4d1e.jpg)
映画の検索に関する映画の1つを見て、ある日突然彼の評価が急落したことを知りました。 予期しない結果を引き起こさないように、映画の名前とユーザーのニックネームを意図的に示すことはしません。 その理由を調べてみたところ、次のことがわかりました。評価が常に同じとは限らないことがわかりました。 映画検索のすべてのユーザーは2つのグレードに分けられます。その評価は評価で考慮されるため、考慮されません。 多くのユーザーの評価の統計、プロファイル、履歴を調査し、評価の分布を分析する小さなプログラムを作成して、これがどのように起こるかを見つけました。
最初は、投票数が非常に少ない場合、評価はまったく表示されませんが、監督または俳優のプロフィールで見ることができます。 次に、投票数がまだ少ない場合、評価は単純に算術平均として計算されます。 そしてその後、映画が十分な数の票(通常50〜100)を獲得したときに、主な公式が作用します。 top-250の計算に関する映画検索の助けで、それは書かれています:
ユーザー評価に基づいて、KinoPoiskはTop-250 Best Films評価を形成します。 一部のユーザーは、複数のアカウントを登録したり、フィルムを数個または数十個だけ公開したりして、最高のフィルムのランキングに影響を与えたいと考えています。 したがって、映画とその印象を正直に評価する定期的な投票ユーザーのみがこの評価の計算に参加します。
映画のページの評価については何も言われていませんが、明らかに同様のフィルターが上位250の計算だけでなく、他のすべての映画にも使用されています。 これを見つけて、私は当然、誰がどの成績を考慮に入れ、誰が考慮に入れないかを彼らがどのように決定するのか興味を持ちました。 政権はこの情報を開示しておらず、理解できる:このようなフィルターを導入する主な目的は、一部の映画の評価を故意に過小評価し、他の映画を過大評価する悪徳ユーザーを排除することでした。
映画の検索では、評価は1000分の1単位で正確に表示されるため、100票未満の映画については、投票数を簡単に判断できます。 丸めを考慮した推定値の整数和の除算が指定された数と正確に等しい場合、オプションの数はそれほど多くありません。通常は1〜3オプションです。 1から100までの可能性のある評価の数ごとに金額を計算し、切り上げ、除算して、目的の評価と比較する必要があります。
このように、私は興味のある映画に付けられたほぼ100の評価のうち、考慮されたのは30だけであると判断しました。評価)タイムライン上の映画の場合:
![](https://habrastorage.org/storage2/d29/1ac/165/d291ac1651b160384a4784f3cd5a0c6f.jpg)
投稿の公開後、ほとんどの評価がhabraユーザーによって設定されたことは明らかです。 これらの推定値の70%は考慮されていません。 私の知り合いから判断すると、IT関連の問題に関連する人々は、映画検索に積極的に参加していないことが多く、彼らの多くは長年そこに登録されていますが、この間、彼らはほとんど評価を与えませんでした。 したがって、この映画では、rutrackerのレビューから判断すると、同様の写真が観察されました。
初めてトラッカーの誰かに感謝します。
最後に、毎日走り回って更新を監視するのに十分なほど興味を持ったものがありました!
そのようなメッセージは、ルートトラッカーで長年初めて書いた人々からのものを含め、かなりの数がありました。 この映画は非常にユニークであるため、人々は最初に映画の検索で評価しました。 記事の冒頭の図は、この特定のケースのグラフィック表示です:1つの評価で構成される評価の統計。 そして、そのためだけの多くの人が、この唯一のマークを与えるために登録しました。 そして、彼らの意見は考慮されませんか? 私には不公平なようです。
成績が考慮されているかどうかを判断するのは簡単です。 約50〜100の評価数の映画を見つける必要があります。 投票数が多すぎる場合、評価による評価の変更は目立たないだけで、少なすぎる場合は、すべての評価が考慮される映画のカテゴリに分類されます。 その後、投票する必要があります。 評価が変更された場合(およびページを更新した直後に変更された場合)-あなたの意見が考慮されます。 忠実に再現するには、いくつかのフィルムを試してください。 ただし、正直なユーザーとしては、視聴した映画のみに投票する必要があるため、評価を削除します。
私は選択基準が何であるかを知ることにしました。 すべての見積もりとその正確な金額は当社に知られています。 どの見積もりが考慮されるかを見つけることは残っています。 しばらくの間、すべての評価の合計が必要な数になるようにオプションを手動で選択しようとしましたが、時間がかかりました。 そのため、可能な限りの配布オプションを再帰的にソートして、何十、9などを正確にソートする小さなプログラムを作成しました。 すべての評価のうち、最終評価で考慮されました。
メインループは次のとおりです。
private void count_cases(int iter, int prev_sum, int max_rest) { // . max_rest = max_rest - max[iter] * iter; // , // - int cmin = (sum - prev_sum - max_rest + iter - 1) / iter; if (cmin < min[iter]) cmin = min[iter]; // , // int cmax = (sum - prev_sum) / iter; if (cmax > max[iter]) cmax = max[iter]; // for (int i = cmin; i <= cmax; i++) // count_cases(iter - 1, prev_sum + i*iter , max_rest); }
その結果、10のネストされた再帰にもかかわらず、プログラムは、可能なすべてのオプションをすばやく表示します。次に例を示します。
![](http://habrastorage.org/storage2/34e/061/91a/34e06191a55a649fb51c57389ada36ea.jpg)
現在は、ユーザープロファイルを見て、各ユーザーの評価が考慮されない理由を提案するだけです。 基準は次のようになります。短い経験、いくつかの評価、または以前に学んだように、評価自体は映画検索がそれらを信頼しないようなものです。
多くのオプションがあり、統計が十分ではないため、特定の数字を特定することはまだできていませんが、あなたの意見が考慮されるように、数ヶ月の経験が必要であり、数百の評価を置く必要があるとすでに言うことができます。 さらに、それらを1日ではなく、かなり長い時間をかけて配信します。 これはすべて非常に簡単です。 しかし、評価の歴史を研究して、私は多くの興味深いことがわかりました。 それらのほとんどはかなり標準に見えますが:
![](http://habrastorage.org/storage2/718/886/0f7/7188860f7adcb38f8c393043c06aaa22.jpg)
または、評価は少し下または上に偏っています:
![](http://habrastorage.org/storage2/668/059/4c6/6680594c63b3fc8987db22db1a061eb6.jpg)
しかし、特殊なケースがあります。たとえば、典型的なカテゴリ別のケースなどです。 一般的には1000の評価もあり、10の評価もあります。 私は言わなければならない、これは非常に一般的です、つまり、あなたが普通の映画のために設定された10代を見るならば、あなたはたぶんまさにこの絵を見つけるでしょう:
![](http://habrastorage.org/storage2/4f3/cc2/5f3/4f3cc25f3c6e50f111ca22cb3cc09f9e.jpg)
「疑わしい過去」を持つ人もいます。 当初、彼らは10kのみを配置し、その後、推定値は正規分布を取得しました。
![](http://habrastorage.org/storage2/032/66f/fbf/03266ffbf236385ca0efbd882a596976.jpg)
最終的には、人が見た1000本の映画のうち、半分が傑作であることがわかります。 映画の検索がそのような意見を不適切と考えることは明らかです。 そのようなユーザーを「修正」するには、「すべての評価を削除」ボタンを押すか、10個と10個すべてを慎重にレビューして、それらを差別的に配置するだけです。
まったく気に入らない人もいます。
![](http://habrastorage.org/storage2/728/01e/e7f/72801ee7f395d8c215168f610bdb0b3c.jpg)
私はもっと多くの興味深いグラフを見ました。実際、それらを使用して映画検索のユーザーのライフラインを調べることができます。 それらを分析し、グレードの可能な分布オプションを選択し、それぞれのケースでこれらすべてのデータを相互に比較することにより、上で書いたように、どのグレードを考慮するかを決定することができました。 もちろん、他の完全に非標準の選択基準が存在する可能性があるため、私は間違っている可能性があります。 プロセスの詳細については説明しませんが、それについての記事全体を書くことができますが、最終的には次のように言えます。
映画の検索では、アクティブユーザーでない場合、評価は映画の評価にまったく影響しません。 しかし、これはあなたがそれらを無駄にするという意味ではありません。 わずか5〜10票の希少映画でカウントされます。 関心事で友人を検索し、見たいものの推奨事項を選択する際に考慮されます。 そしてもちろん、あなたの評価を考慮に入れ、より多くの評価を入れたいなら、最終的には、時間の経過とともに、あなたの意見が考慮されるユーザーのカテゴリーに移動します。