Netflix:フードの下:世界映画の分析





/ 写真ブライアン・カントーニ CC



ブログの前半で、ビッグデータが企業顔をどのように変えているか、 クラウドサービスを使用する興味深い方法について議論しました。 今日は、Netflixのようなサービスの登場により、映画の世界がどのように変化したかについてお話します。



あなたがNetflixユーザーなら、おそらく奇妙なジャンルの映画が提供されることがあることに気づいたでしょう。 The AtlanticのAlexis Madrigalは、動画コンテンツプロバイダーが77,000の異なる説明とタグで映画やテレビ番組をマークアップできることを発見しました。



もちろん、Netflixなどの企業の推奨アルゴリズムの部分的なリバースエンジニアリングでさえかなりの時間を必要としますが、すでに仕事の最初の段階で、Alexisは各映画とテレビ番組を慎重に分析してマークアップするようにしました。



このシステムを発明したTodd Yellin氏によると、同社は映画を見たり、関連するメタデータを収集したりしたため、アートワークのさまざまな側面を評価するために特別に設計されたトレーニングマニュアルに基づいていました。



Netflixは、アメリカ人向けの映画の好みのデータベースを作成しました。これは、「House of Cards」などの独自のテレビ番組を作成する際の便利なツールとして役立ちました。



データ収集作業は、Web用のスクリプト作成を簡素化するUBot Studioと、このタスクを習得するために約1日作業しなければならない通常のAsusラップトップを使用して実行されました。 さらに、結果のジャンルのリストからいくつかの例を示します。



インディペンデントシネマ:感情的なスポーツ映画

1930年代のスパイ映画とアドベンチャー映画

邪悪な子供たちとのカルトホラー映画

カルトスポーツ映画

1970年代の感傷的なヨーロッパのドラマ


データの初期分析では、Netflixには独自の辞書があり、説明には特定の作品のスクリプトのアイデアの起源も示されました。 エントリーの数によって、最も人気のあるトピックが結婚と社会のエリートの生活であるという事実を確立することが可能になりました。



ジャンルを形成する基本的なテンプレート、研究者は次のように発表しました:



ロケーション+形容詞+名詞+に基づく... +撮影された... +監督から... + O ... + X〜Y世代


文法をより完全にデコードするために、 AntConcが使用されました。これは、日本の教授によって開発された無料のプログラムです。 通常、このソフトウェアは、デジタル人文科学センターの言語学者が大量のテキストを処理するために使用します。



AntConcは、基本的にテキストを管理しやすいデータセットに変換します。 プログラムは、たとえばNetflixデータベース内のテキスト内の単語数を計算できます。 そのため、「…」で始まるフレーズを検索すると、会社には0〜2歳、0〜4、2〜4、5〜7、約8〜10の子供向けのコンテンツがあることがわかります。 11〜12歳。



辞書に基づいて、いくつかの文法が提案されました。 作業の過程で、見出しの容認できる形容詞の数が調整され、さまざまな文法構造の実験が行われましたが、元のアプローチの本質は決して達成されませんでした。 そのため、会社の代表者と会うことが決定され、このシステムの直接の開発者と話をすることができました。







/ 写真オースティンスクエアパンツ CC



トッド・イェリンはジャーナリストを彼のオフィスに招き、彼のコンテンツ記述システムの装置の本質を伝えようとしました。 Netflixコンテンツを推奨する古い方法は、現在の方法とは大きく異なります。 エンジニアによると、「Netflixの量子理論」と呼ばれる新しいプロジェクトのドキュメントの開発にのみ、会社の専門家の数ヶ月の作業が必要でした。



主な焦点は、理解可能な言語でコンパイルされ、より正確な推奨事項を作成する記述にありました。 「マイクロタグ」の一部は「スカラー」(1〜5)になり、ジャンルは3つの主な要因によって制限されました(ところで、5つ以上の記述子を持つジャンルが欠落しています)。



1)名前の最大50文字。

2)特定のジャンルに十分な量のコンテンツを蓄積するための条件。

3)構文的に「正しい」ジャンルの条件。



もちろん、ジャーナリストはそのようなニュアンスを考慮することができず、彼らのジェネレーターは非常に面白い説明を与えましたが、研究自体は、機械学習、アルゴリズム、および構文が、周囲の状況を理解する人々の能力を改善および低下させる大きな可能性があると推測していますいいえ。 この場合、「何を見るべきか」という永遠の質問は、非常に論争の的となる結果につながる可能性があります。



PS私たちは、仮想インフラストラクチャ1 クラウドを提供するためのサービスに取り組んでいる私たち自身の経験だけでなく、知識の関連分野についても話そうとしています。



友人のHabréに関するブログを購読することを忘れないでください!



All Articles