未来を予測します。 いいえ、予測者ではありません。 私はデータ処理の専門家です。 疑わしいですね。 実際、誰も未来を予測することはできません。これはスピルバーグの「特別な意見」ではありません。 しかし、イベントが発生する確率とシナリオは非常に現実的です。
私はすでにデータとゲームでの分析の使用について書き、予測分析の問題を提起しました。 これ以降の記事では、これについて詳しく説明します。
ビッグデータ分析は大きく前進し、ユーザーの行動を本当に正確に予測できるようになりました。 したがって、私は社会学とコンピューター科学の方法を使用して研究を行うことができます。
ゲーム業界における予測とは、戦略を開発し、製品を改善し、価値のあるプレイヤーを保護し、新しい収益化方法を適用するためのプレイヤーの行動を予測する能力を意味します。
しかし、私は自分より少し先に進んでいます。 最初に、予測モデリングの基本を見てみましょう。そして、それがどのように、そしてなぜ機能するかを見てみましょう。
詳細に触れない場合、予測モデリングの原理を理解するのは非常に簡単です。 例としてコンピューターゲームを取り上げます。 ゲームで発生するすべてを記録および追跡し、時間が経つにつれてコンピューターがパターンをキャッチし始めると想像してください。 いくつかのシナリオは繰り返され、いくつかのシナリオは繰り返されません。 プログラムが重複シナリオを検出すると、それらを「記憶」し、繰り返しを予期してから、次のシナリオについて予測します。
たとえば、ABCDスクリプトが何度も繰り返されると、プログラムはある時点でそれを認識し始めます。 これが発生すると、システムに予測を行うように指示できます。ABCスクリプトが実行されると、プログラムは次に表示される要素を予測します(この場合はもちろんDになります)。 さらに、プログラムはそのような予測の正確さを計算できます。 場所Dは、デザイン、ユーザー維持、または収益化に重要な任意の要素にすることができます。 Dがゲームを離れ、レベルを完了し、またはストアで購入していると想像してください。
これはどのように可能で、なぜ重要なのですか? シーケンスDが常に要素Dに続くとは限らず、シーケンスABCXを定期的に取得するとします。 つまり、アルゴリズムが処理できるデータが多いほど、確率をより正確に決定し、予測がどのくらいの頻度で実現したかという質問に完全に答えることができます。
以上です。 これは予測です。 このような予測の正確性について話す場合、科学的方法の使用を提供します。 データ処理の専門家が予測モデルを検証するために使用するいくつかのテストがあります。 検証とは、「将来を予測でき、明日は機能することがわかっている」ということではなく、「はい、このモデルが機能した」ことを意味します。 何も変わらなければ、明日彼女のために働いてみませんか? 「明日」が意図したシナリオと異なる場合、障害が発生します。 テロ攻撃があった場合、または学年が終了した場合、私たちの仮定が間違っていることが判明する可能性があり、したがって、今後の出来事を予測することはできません。 そして、学年の終わりを繰り返しシナリオに含めることができる場合、これは原則としてテロ攻撃では機能しません。
一般的な検証方法の1つは相互検証です。 次のように機能します。プログラムは膨大なデータ(ゲームデータなど)を2つの等しい部分に分割します。 次に、彼女は最初の部分を分析し、繰り返しのシナリオを探してモデルを作成します。 その結果、式:ABCシナリオが得られ、その後75%のケースで要素Dが続き、その後、プログラムはデータの2番目の生の半分に対するモデルの精度をチェックします。 2番目の部分でABCDシナリオがケースの75%で発生する場合、予測は非常に正確であると判明したと想定できます。 実際、この予測には75%の自信があります。つまり、75%が信頼性の程度です。
なぜ100%ではないのですか? 100%確実であることは不可能であるという声明は、大学の統計学のコースを思い起こさせます。 しかし、予測の精度について話している場合、絶対的な精度を疑う理由は多少異なります。 私たちは現実の世界で人間の行動を予測しようとしているので、プログラムが考慮できないいくつかの要因を考慮しなければなりません。 たとえば、ジョンが朝に大きなコーヒーを買うことに気づき、明日も同じことをするとします。 簡単ですね。 しかし、突然彼がコーヒーを買うのを妨げる何かが起こりますか? たとえば、貧しいジョンは事故に遭うでしょうか? これを何らかの方法で想定することはできず、確かにモデルにそのような可能性をもたらすことはありませんでしたが、これはモデルが間違っているという意味ではありません。 それは単に不完全であり、100%正確ではありません。
予測モデルが100%正確であると見なさないもう1つの理由があります。すべての疑似科学者がシステムを欺いてはいけません。 たとえば、予測には例外なくすべてのユーザーが含まれ、偽陽性および偽陰性の結果は考慮されません。 これは科学的アプローチと矛盾します-誰でもモデルにすべてのプレーヤーを含めることができ、明日、各プレーヤーが10ドルで購入することを予測できます。 予測は視聴者全体に適用されるため、どのプレイヤーが購入するかを予測する精度は100%になります。 ただし、ほとんどのプレーヤーの動作を予測することは正しくありません。
このようなケースは、予測分析に影を落とし、本来あるべきよりもはるかに一般的です。 したがって、予測の正確性を確認するには、「インデックスF」が役立つことを示す証拠が必要ですが、他にも注目に値する指標があります。 このインデックスの計算は次のとおりです。インディケーターは偽陽性と偽陰性の結果に対して調整され、平均値はそれらから導き出されます。 結果はパーセンテージで表され、高い信頼性を備えています。
それを偽造することは不可能であるため、作成された予測によって得られた結果をうまく排除します。 ゲームはデータの優れたソースですが、高いFインデックスを取得するには、分析に含める変数を知る必要があります。 ちなみに、プログラマーは通常これにあまり詳しくありません。 社会学者は理解していますが、通常は技術的な側面を完全に理解していません。 したがって、最も正しい決定は両方のアプローチを組み合わせることであり、これは成功した専門家が行うことです。 たとえば、電気通信業界では、良いFインデックスは40%です。 ゲーム業界では、より多くの視覚データがあるため、より良い結果を得ることができます。 良好なインデックスは50〜70%に等しいと見なされ、それよりも高い-ほとんど信じられません。 覚えておいてください:F指数は2つの指標を平均することで得られ、正味の割合ではありません。 実際、これは非常に近似した指標です。
最終的に、確実性の程度は予測モデルの重要な要素です。 プロジェクトの経済モデルとリスクの程度を考慮して、予測に基づいて意思決定できる自信を知る必要があります。 これらのインデックスの利点は、科学的指標へのアクセスを提供することです-透明性と証明可能性。 誰もあなたの言葉を信じません。 データにそれ自体を語らせてください。 それらを聞いてください-そして、あなたは望みの絵ではなく、実際の状況を見ることができます。