IMDBを使用したデータセットの研究





発行



映画はクールであり、映画は私たちにインスピレーションを与え、自信を与え、一般的に私たちに多くを与えます。 したがって、この記事では、サイエンススラムITMOユニバーシティ2.0の最終版で既に発表されたデータ分析ツールを使用して、現代映画のトレンドの研究についてお話ししたいと思います。 完全なリリースはこちらから入手できます



キノポイスクに着いたとき、私はなじみのない映画に出会いました。 VHS時代の悪名高いテープである「グリーンエレファント」であることが判明しました。 彼について聞いた人は、ウィキペディアでこの映画に関するページを読んだ後に感じた印象を理解することができます...









しかし、愚かな映画は1ダースであり、少なくとも注意を払う必要がありますか? しかし、この映画の評価は異常に高かった。 そして、これは非常に驚くべきことでした。なぜなら、そのような率直な映画のような「スラグ」は、平均を上回る評価を獲得しているからです(すべての映画について)。



だから、私はYandex評価システムに懐疑的で不信感を抱いていたため、Pythonスタック(sklearn、pandas、matplotlib、numpy)に基づいてデータを分析および視覚化するツールを身に付け、そのような映画が適切な評価を得ることができる理由を理解することにしました。 カットの下で、現代の(そしてそうではない)映画についての興味深い、明白でない結論と、それらのための多くのイラストを見つけるでしょう。



最初のデータ



そのため、実際に分析するデータを検索することから始める必要があります。 もちろん、手動でデータを収集したくありませんでしたが、すぐに分析に集中したかったのです。 そこで、すぐにインターネット上で適切なデータセットを探し始めました。 サイトkaggle.comで最初に見る価値のある場所で見つけました。 有名な映画館サイトimdbの 5,000を超える映画を含むデータセットであることが判明しました。 各フィルムの特徴的な説明には、データセットページであるデータセットページで見つけることができる多くのカテゴリおよび素材の特徴が含まれていました。



しかし、私はもともとキノポイスクの評価に興味を持っていたため、目的のデータセットの検索は継続されました。 KinopoiskのIPAは終了し、サービスのhtmlページのパーサーの作成が面倒で、調査の妨害のために時間がありませんでした。 したがって、私は、アカデミックな目的のためだけに研究用のデータセットを提供することを要求して、キノポイスクのサポートサービスに連絡しました。 驚いたことに、彼らは私にさえ答えましたが、否定的に答えました。 その結果、他には何も見つかりませんでした。 私は間違いなくキノポイスクから日付を収集しますが、セッション後より早くはありません。 そして今、分析のために、そのIMDBデータセットを取得する必要がありました。



記事の構成



見つかったデータセットの研究は、2つのボリューム部分に分けられました。



  1. 予測アルゴリズムのトレーニング(フィルム評価がターゲットラベルです)
  2. データの興味深い相関関係を検索します


この記事では、研究の第2部にさらに注意を払いたいと思いますが、第1部では多数の異なるモデルを訓練しようとしたことに注意してください。 勾配ブースティングを使用して達成された予測の精度は、IMDBスケールで0.4ポイント(mseエラー)です。 しかし、予測モデルを構築するプロセスは別の記事に値するものであり、この点で2番目のポイントに焦点を当てることを提案します。



始めましょう



私の研究の第2部は、第1部で訓練された投げ縄正則化を伴う線形回帰アルゴリズムを採用し、特性の重み付け特性をプロットすることから始まりました。 それを見てみましょう:





列「Director」、「[123] Actor」は、それぞれのパーソナリティのFacebookのいいねの数に対応しています。 「フォーマット」は、画像のアスペクト比です。 「顔」は、映画のポスターの顔の数を反映する興味深い素材の特徴です。 残りの機能の重要性は明らかです。 この図では、いくつかの興味深い点に注目できます。



  • 映画の長さは映画の評価に積極的に貢献します(視聴者にとっては、明らかに長い映画の方が優れています)
  • 1年はマイナスの貢献をします(つまり、映画が新しいほど、評価が低くなる可能性が高くなります)
  • ポスターの人数もマイナスになります。


映画「ホテルグランドブダペスト」のファンとしての最後のポイントIは、怒りを引き起こしましたが、アルゴリズムについて議論することはできません。



ジャンル



では、映画の主な特徴である「ジャンル」を見てみましょう。











最初のチャートは、ジャンルの最初のトップ10、平均評価で11から20の2番目のジャンルを示しています。



ドキュメンタリー、伝記、歴史映画が最高の評価を得ていることがわかりました。 ひいては、ホラー映画が大幅に低い評価を得ています。



生産国



さまざまな国の映画の平均評価を反映した、かなり興味深い結果が図で確認できます。 平均評価で上位6か国を見てみましょう。







ご覧のとおり、最も評価の高い映画(平均)は英国で撮影され、続いてフランスで撮影されていますが、3位のオーストラリアは非常に興味深い驚きでした。 個人的には、 少なくともオーストラリアの高評価の映画をすぐに思い出すことは困難でした。 グーグル、最近リリースされた映画「マッドマックス:怒りの道」を見つけることができました。 しかし、アメリカ人がトップ3以外の場所を占めたという事実は非常に驚くべきことです。



それでは、映画の制作に必要な各国の費用である金融要素を見てみましょう。





ここではすべてが非常に期待されており、米国は大きなマージンでリードしていますが、これは前のチャートには当てはまりません。 アメリカ人は、より多くを費やしても質を失う場合、リソースを悪用することがわかります。 誰も彼らが質ではなく量を取ることができることを否定しませんが。



時間



次に、映画のさまざまな機能が時間にどのように依存するかを見てみましょう。 このグラフには、ある時点での映画の平均評価が表示されます。







映画の平均評価は、映画が公開された年に反比例して増加していることがわかります。



同様に、この事実は、次のグラフの内容とドッキングしません。







このグラフには、映画の平均予算の変化のダイナミクスが表示されます。 最後の2つのグラフから、長年にわたって映画に多くを費やしていると結論付けることができますが、品質は低下しています。



また、非常に興味深い画像は、時間の平均映画の持続時間の依存によって与えられました:





70年代に最も長い映画が撮影されたことがわかります。 説明するのは非常に難しく、これに対する正確な答えを誰も知らないことを確信できます。 70年代にビデオとオーディオ機器が深刻な発展を遂げたと同時に、監督と脚本家は多くのアイデアを持っていたため、思考の流れを止めることは困難であったと推測できます。 そして、私たちの時代にはすでに多くの映画が撮影されており、何か新しいものを思い付くのはすでに困難であるため、映画は短くなっています。



結論



ご覧のように、データマイニングの研究は非常に興味深い結果をもたらし、世界で最もダイナミックで急速に発展している産業の1つにおけるさまざまな現在のプロセスの分析に使用できます。 これらの依存関係を実際に使用する良い例は、「House of Cards」シリーズです。 Netflixがデータ分析方法を使用してどのようにディレクターとアクターを選択したかについては、 こちらをご覧ください



All Articles