情報ノイズでの占い

将来、人類はそれ自体が加速的なペースで生成する情報のなだれにdrれるリスクがあるというかなり根拠のある意見があります。 そして、私たちのさらなる発展のために、 アルコールはこの雪崩を制御する能力においてますます重要な役割を果たすでしょう。 また、ここでは、情報の流れを必要なものと不要なものに分けるだけでなく、「ホワイトノイズ」さえも有用にする方法についても話し合っています。



カリフォルニア州パロアルトにあるHPソーシャルコンピューティングラボの科学者もこの方向に進んでいます。 たとえば、最近では従業員のSitaram Asur(Sitaram Asur)とBernardo Huberman(Bernardo A. Huberman)が興味深い作品を発表しました。 その枠組みの中で、彼らはよく知られているTwitterを使用して...将来の予測に着手しました。 確かに、そう遠くない。



しかし、黄色いプレスのスタイルでかすかなキャッチーなフレーズをまだ放棄している場合、作品はリリースされる前に興行収入を予測することについて話します。 Twitterでの映画の議論の分析に基づく予測の精度は、映画業界で「ゴールドスタンダード」として採用されているハリウッド証券取引所の評価の精度よりも高くなっています。 これは、オンラインゲームの副産物であり、その参加者は、お金をかけるために俳優、監督、映画などの仮想「株式」を売買できます。 かつて、この評価は真のブレークスルーにもなりました。



シタールとベルナルドは、Twitter Search APIを使用して、3か月以内に選択した24の新しい映画に言及したすべてのツイートを収集しました。 その結果、彼らは289万エントリのデータベースの所有者になりました。各エントリには、正確な公開時刻、著者の名前、ツイートの全文が含まれていました。 スキャンは1時間に1回実行されました。 検索クエリとして、映画のタイトルに含まれるすべての単語が使用され、金曜日(米国初演の伝統的な日)に公開された絵画のみが考慮されました。 しかし、明白な理由で、科学者は、例えば、映画「2012」を考慮しませんでした。



広告、宣伝...


最初の分析では、各映画への最も多くの言及は、その初演後の最初の週末に見つかることが示されました。 このメインピークから2週間以内に、集中的な集中はもはや特定の曜日に結び付けられなくなります。



1.時々の映画に関するツイートの数の依存。 ゼロとして受け入れられる初日



別の予想される結論は、映画の開始前の1週間、広告機がフルスピードになったとき、映画に関するすべてのツイートの平均40%に外部ソース(ポスター、予告編、プロモーションサイトなど)へのリンクが含まれていることを示しています ただし、リンク付きのツイート数と興行収入の映画の実際の成功を比較すると、このような「正面」広告キャンペーンが最終興行収入にほとんど影響を与えないことわかりました(決定係数 0.39)。 このことから、愚かにもユーザーを他のリソースにリダイレクトするためだけにTwitterを使用することは意味がないと結論付けることができます。



予測料金


映画の周りのツイッターの活動の尺度として、科学者は、1時間あたりの映画に関するツイートの数を表すツイート係数を導入しました。







ツイート係数と興行収入の平均相関係数は0.90であり、これらの値の間に強い線形関係があります。 これに基づいて、シタールとベルナルドは、映画の初演に先立つ各曜日の7つの平均ツイート係数を変数として依存関係の回帰分析を行いました。



このようなモデルにより、予測で0.93の決定係数を達成することがすでに可能になりました。これは、従属量の非常に高い予測可能性を意味します。 そして、映画が上映される予定の映画館の数の追加変数としての導入により、係数は0.973に上昇しました。



この段階で、科学者たちは、ハリウッド証券取引所(HSX)の予測の精度を超えていることを発見しました。 以下のチャートは、ツイート率の予測(Tweet-rate)とHSXの予測を、完全に正確な予測(赤い線)と比較して示しています。





2.予測品質の比較



あなたが私たちが研究のために取るグロスフィルムが低いほど、予測の精度が低いことに気付くかもしれません。



ダークホースと欺かれた期待を軽くする


一般的な状況には例外があり、映画の収益は時間の経過とともに徐々に低下します。 たとえば、映画「The Invisible Side 」はあまり上手く開始しませんでした(興行収入で3,400万ドル)が、2番目の週末(4,000万ドル)で撮影しました。 一方、広告のおかげで最初の週末に1億4,200万ドルを獲得したトワイライトニュームーンの 3部作の一部は、すでに2番目の週末に観客の興味を大きく失いました。



その理由は、映画を見た観客のレビューです。 彼らがポジティブなら、それはホールに新しい人々を引き付けるでしょう。 否定的な場合、それは初演の前に映画を待っていた人々を追い払うでしょう。



このようなターンを予測するために、私たちの研究者は、 LingPipeソフトウェアパッケージと、さまざまな作品のライブボランティアを提供するAmazon Mechanical Turkサービスという 、誰もが利用できるテキストの言語分析のツールを基盤としていました。



映画についての各ツイートの気分(ポジティブ、ニュートラル、ネガティブ)を98%の精度で自動的に認識するパッケージを教えたSitarsとBernardoは、映画の潜在的な成功の別の数値尺度としてポジティブツイートとネガティブツイートの比率を導入しました。 それが高いほど、人々が映画に行く可能性が高くなります。







判明したように、「インビジブルサイド」の場合、この態度は初演以来ほぼ倍増しています(5.02から9.65)。 「ニュームーン」の場合、6.29から5に低下しました。初演後に得られたツイート係数に加えてこのデータを使用すると、「ゼロ日」後の非常に長い時間の後でも高い精度で料金を予測できます。



未来の一般的な予測


もちろん、科学者の喜びは、この特定の例とは別に、予測の一般的なモデルを考慮しようとしない場合、不完全です(そして彼らの仕事-劣る)。



その結果、公に宣伝されている製品の商業的成功を予測するための公式を開発しました。







ここで、yは製品から受け取った収入を示します。 A-聴衆の間の注意の量(特定のケースに応じてさまざまな方法で測定されたツイート係数の類似物); P-気分レビュー; Dは、市場での製品の入手可能性のパラメーターです(考慮されるケースで映画が上映される映画館の数の類似物)。 βの値は回帰係数を反映し εは誤差を反映します。



次の作業は、このモデルの適用範囲を生活の他の領域に拡大することです。 たとえば、良い目標は、選挙の結果を予測することです。 もちろん、ここでyが事前にわかっている場合を除きます。



All Articles