個人評価の作成について。 IMHO.netのような

過去の記事で、単純な評価のトピックに触れました。 コメントでは、各ユーザーに独自の評価を与える評価のトピックを描くように頼まれました。





他のユーザーの評価を使用して、現在のユーザーの映画の評価を予測する必要があります。 つまり 私たちのタスクは、特定のユーザーの評価を予測することです。



はじめに


評価の基準となるユーザーは批評家と呼ばれます

評価を検討するユーザーをユーザーと呼びます



ユーザーと批評家は同じデータベース内にあり、交差していますが、異なる方法で呼び出す方が便利です。 ユーザーが1つの投票権を持つ場合、何かを予測できます。 しかし、1つの声を持つ批評家は役に立たない。 また、評論家として、映画の平均評価またはIMDBおよび映画の検索評価を追加することもできます。



映画の平均評価は、評論家の平均評価(評論家が何度も投票している)として、統計的に信頼できる(映画の投票数が多い)と考えています。 これらの2つの値を予測し、評価から少数の評価を持つ評論家や映画を削除することができます。



10ポイントスケールのすべての評価は1〜10であると想定します。どのスケールでも、評価オプションが多ければ多いほど良いのですが、これは事実です。 ただし、推定値については±私はそれがうまくいくか疑問があります。 「いいね」または「購入」の評価の場合、この方法は機能しますが、他のオプションがあります。



最高の批評家を選ぶ


簡単な例から始めましょう。 毎週土曜日に映画を見に行きます。 しかし、豚に突っ込んで行かないようにするために、5〜6紙の新聞で最初に映画批評のコラムを読みました。 最近、私たちは5つの新聞を読むのが面倒なので、映画評論家の評価が可能な限りあなたのものに似ている新聞を選ぶ必要があります。 つまり あなたの好みと映画評論家の好みは可能な限り一致します。



たとえば、ここに2人の映画批評家の表があります

あなたの評価:|  5 |  8 |  7
映画評論家1:|  5 |  8 |  4
映画評論家2:|  4 |  6 |  8




最初の映画評論家では、1つを除くすべての評価が一致しています。 しかし、この評価は非常に異なっています。 別の方法では、すべての評価がわずかに異なります。 問題は、どちらが近いかです。



問題は、批評家とあなたの好みの近接度をどのように数値で推定するかです。 これを定義するメトリックは無限にあります。 最も単純な2つは、ユークリッド(学校のカリキュラムからの2点間の距離)とマンハッタン(ニューヨーク地域に敬意を表して)です。



ユークリッドvsマンハッタン


マンハッタンメトリックは、座標軸に平行にしか移動できない場合に、垂直の道路がある大都市を移動するのに必要な距離を反映しているため、そのように命名されています。

Piccy.info-無料の画像ホスティング



マンハッタンを数える場合:

映画評論家1:/ 5-5 / + / 8-8 / + / 7-4 / = 3

映画評論家2:/ 5-4 / + / 8-6 / + / 7-8 / = 4

最初の方が良い



ユークリッドを数える場合

映画評論家1:(5-5)^ 2 +(8-8)^ 2 +(7-4)^ 2 = 9

映画評論家2:(5-4)^ 2 +(8-6)^ 2 +(7-8)^ 2 = 6

2番目の方が優れています。 私は根をとらなかったが、それをとるかどうかに関係なく不平等は続くだろう。



メトリックは、多次元空間の距離を反映します。 数学では、メトリックは空間の特性と見なされ、それは与えられたとおりです。 そして、どれが最高の哲学的質問です。 哲学的な観点からは、仮説が単純であるほど、正しい可能性が高くなります。 この点から、ユークリッドの方が優れています。彼は、座標軸に平行でない移動を妨げる障害物を暗示しません。 正方形は滑らかな関数であり、乗算の特殊なケースであり、乗算の特別なケースです。 モジュールは条件付き関数です。 さらに、最小二乗法があり、それを使って惑星セレスを発見しました。



実際に議論する場合、すべてがそれほど単純ではありません。 表の最後の映画のように、正方形は単一の強いシフトの重要性を高めます。 これは一方では良いことです-大きな変化はより重要です。 ただし、ユーザーと批評家の両方のランダムエラーの重要性は高まります。



画像



ユーザーと評論家の間の距離は、同じ映画に対する評価間の距離になります。 批評家とユーザーの両方が投票した映画の数は批評家によって異なるため、平均距離と呼ばれる試合の合計で割る必要があります。 また、統計誤差があるため、平均距離をその予測(以降RPS)に置き換えます。



画像



Dすべてのユーザー評価からのすべての批評家の評価の大きな平均距離(定数に置き換えることができます)-距離の信頼できない部分をそれらに置き換えます。 f(n)は、距離の信頼できない部分の推定値です。 0.5 / sqrt(n)最も単純な場合。



勇気とS


ユークリッドの別の問題は、彼が勇気を罰することです。 評論家の平均評価の変動が小さければ小さいほど、この評論家を選択する可能性が高くなります。 たとえば、サイトの平均評価が5である場合、5人だけの批評家が最も多くのユーザーを獲得します。 1と9に均等に投票する批評家は、最少数のユーザーを受け取ります。 彼らの勇気に関係なく、ユーザーにとって平等なチャンスを得るために、批評家のバランスを取る価値はありますか?実際に見る必要があります。



ユーザーと批評家の索(ユーザー評価と平均映画評価の間の平均距離)を考慮し、批評家を検索するときにこれを考慮することができます。 最も単純なバージョンでは、ユーザーと批判に仮想映画「s索」を追加します。



複数の批評家オプション


同じ方法で解決されます。 問題は、彼らの成績のバランスを取る方法です。 それらの加重平均を計算し、それぞれにそのRPSに反比例する係数を持たせることができます。 ユーザーが映画に与える予測式は次のとおりです。



画像

di c dotは、ユーザーから批評家までの距離を予測します。 Ri-この映画に対する批評家の評価。



ご覧のように、理論的に複雑なものはありません。実際に速度を最適化し、評価を調整する必要がある場合、問題が発生します。



All Articles