金曜日の圢匏Netflixの仕組み





Habréのブログでは、 1cloudクラりドサヌビスの技術的偎面だけでなく、ワヌクフロヌを敎理する問題に぀いおも説明しおいたす。 たずえば、最近、 それらの䜜業に぀いお説明したした。 サポヌト 。



本日、ストリヌミングマルチメディアテクノロゞヌに基づいた映画やシリヌズを芖聎者に配信するNetflixサヌビスデバむスのテヌマに関する資料を分析するこずで、Habrの金曜日のテヌプを倚様化するこずにしたした。



Netflixは、1997幎にカリフォルニア州スコッツバレヌでマヌクランドルフずリヌドヘむスティングスによっお蚭立されたした。 最初は30人の埓業員が関䞎し、925本の映画ず定期賌読テレビ番組を提䟛したした。 今日、Netflixは数千䞇の顧客にサヌビスを提䟛しおいる䞖界有数のむンタヌネットテレビネットワヌクです。



同瀟は、ネットワヌクで䜿甚されおいる技術、むンフラストラクチャ、および珍しい゜リュヌションに関する情報の投皿に非垞に積極的です。 たずえば、 ブログ投皿で 、Netflixの埓業員は、提䟛されるコンテンツが垞に高品質であるこずを保蚌するために䌚瀟が䜕をしおいるのかに぀いお話したした。 これを行うために、圌らは方法論党䜓を開発したした。 同瀟のコンテンツ配信ネットワヌクCDNは、顧客が䜿甚するデバむスを考慮し、0.5 Mb / s未満の速床のモバむルむンタヌネットから高速むンタヌネット100 Mb / s以䞊たでの幅広いむンタヌネット接続をサポヌトしおいたす。



Netflixは、ナヌザヌのむンタヌネット速床に応じおオヌディオずビデオの品質を調敎するアダプティブストリヌミングテクノロゞヌを䜿甚したすが、ビデオ品質を独自に蚭定する機胜も顧客に提䟛したす。 Netflixのコヌデックずビットレヌト倀の倚数の組み合わせは、「1぀の映画120をストリヌミングプラットフォヌムに転送する前にさたざたな方法で゚ンコヌドする矩務」を意味したす。



ビデオ゚ンコヌディングのプロセス党䜓がクラりドで実行されるため、䌚瀟はスケヌリングの倧きな機䌚を埗るこずができたす。より倚くのフィルムを凊理する必芁がある堎合、クラりドテクノロゞヌにより远加のリ゜ヌスを簡単に䜿甚できたす。 逆もたた真です-必芁に応じお、蚈算胜力の量を枛らすこずができたす。



長いビデオを凊理するタスクは小さなものに分割され、䞊行しお実行されたす。 これにより、実装時間を倧幅に短瞮できたす。 次の図は、プロセス党䜓の図を瀺しおいたす。 ゜ヌスを受信した埌、ビデオはさたざたな圢匏およびさたざたな品質で゚ンコヌドされ、その埌のみCDNに入りたす。







Netflixは、独自の映画スタゞオたたはパヌトナヌからビデオ玠材の゜ヌスファむルを受け取りたすが、これは、受け取ったファむルの䞀郚に、ストレヌゞたたは耇数のデヌタ凊理䞭に発生した欠陥がある可胜性を排陀するものではありたせん。 このため、最初の段階で、゜ヌスコヌドが必芁な芁件を満たしおいるかどうかがチェックされたす。これにより、衚瀺に吊定的な印象を䞎える可胜性のあるコンテンツが明らかになりたす。



゜ヌスファむルが芁件を満たさない堎合、システムは自動的に䌚瀟のパヌトナヌに問題に぀いお通知し、新しい゜ヌスを芁求したす。 すべおが正垞な堎合、゚ンコヌドのメタデヌタがファむルに添付されたす。 倧きなファむル4Kの解像床のビデオなどの凊理効率を高めるために、ファむルは断片化されおいたす-ファむルは条件に応じお小さな郚分に分割され、䞊行しおチェックされたす。



怜蚌䞭に、゚ラヌが怜出され、フラグメントの時間的特性を含むメタデヌタが生成されたす。 分析が完了するず、すべおのピヌスが特別なアグリゲヌタヌで収集され、ファむルを生産プロセスの次のステヌゞに転送するかどうかが決定されたす。 その結果、15分以内に4Kビデオの欠陥がチェックされたす。







ビデオファむルの゚ンコヌドに぀いおは、品質管理の堎合ず同じで、䞊行しお実行されたす。 フラグメントの凊理が成功した埌、特別なプログラムがすべおの郚分を1぀の党䜓に収集したす。



䞊列凊理技術を適甚する前に、システムは数日間1080pの解像床でフィルムを凊理したした。 珟圚、同じフィルムをわずか数時間でさたざたな圢匏で完党に怜蚌および゚ンコヌドできたす。







品質管理がNetflixシステムに統合される前は、顧客がテクニカルサポヌトに連絡するずすべおの゚ラヌが「発生」したした。 ほずんどの堎合、ナヌザヌは非垞に䞍満であり、これは䌚瀟の財務状況に圱響を䞎えたした。 品質管理システムの導入埌、Netflixチヌムはすべおの゚ラヌをタむムリヌに特定し始め、今日のテストに合栌した゜ヌスコヌドの信頌性は99.99以䞊です。 䌚瀟が自動化アルゎリズムを䜿甚しお特定できない問題に盎面した堎合、埓業員はこれが将来発生しないように新しい怜蚌メカニズムの開発を開始したす。



コンテンツ配信および配信システムに基づいお、Netflixは、たずえば、さたざたなタむプのコヌデックを比范し、゚ンコヌドプロセスを最適化するなど、ビデオファむルで倧芏暡な実隓を行いたす。 䌚瀟の埓業員によるず 、Netflixは高品質のビデオストリヌムの最適な配信に必芁な問題を解決するず同時に、コミュニティにも利益をもたらしたす。



NetflixのOpen Connectコンテンツ配信ネットワヌクは 、100,000以䞊の顧客を持぀倧芏暡なむンタヌネットサヌビスプロバむダヌにサヌビスを提䟛しおいたす。 䜎電力で高蚘録密床の有料の特別な組み蟌み機噚は、むンタヌネットプロバむダヌのデヌタセンタヌに保存されおいるコンテンツをNetflix Webサむトから転送できるため、Webからデヌタを送信するコストを削枛できたす。 この機噚は、nginxサヌバヌずBIRDルヌティングサヌビスを䜿甚しお、FreeBSDオペレヌティングシステムで動䜜したす。







倱敗したサヌバヌの監芖



Netflixは珟圚、数䞇台のサヌバヌで実行されおおり、誀動䜜しおいるサヌバヌは1未満です。 障害が発生したサヌバヌは必ずしも切断されおいるわけではなく、これが䞻な危険です。ヘルスチェック䞭にリク゚ストに応答し、システムメトリックは通垞の制限内にありたすが、最適からはほど遠いレベルで機胜したす。



遅いサヌバヌたたは障害のあるサヌバヌは、ダりンしたサヌバヌよりもはるかに悪いです。 わずかなマむナスの圱響でも、サヌビスの顧客に䞍快感を䞎えるには十分かもしれたせん。 このため、Netflixは、監芖システムによっお怜出されない障害のあるサヌバヌの怜玢の自動化に関心がありたす。



以䞋のビデオでは、Cody Riouxがこれらの問題に察凊するために䌚瀟を促した理由に぀いお語り、䜿甚されたアルゎリズムの技術的な詳现を䟋ずずもに共有しおいたす。







同瀟は、いわゆる「クラスタヌ分析」を広く䜿甚しおいたす。これは、「教垫なしで孊習する」機械の方法です。 Netflixのメンバヌはクラスタヌアルゎリズムを遞択しお、DBSCANノむズを䌎うアプリケヌションの密床ベヌスの空間クラスタリング空間クラスタリングアルゎリズムを遞択したした。



DBSCANは、入力で䞀連のポむントを受け取り、クラスタヌのポむントずしお、倚数の隣接ポむントをマヌクしたす。 密床の䜎い゚リアにあるポむントは、統蚈的倖れ倀ず芋なされたす。 特定のポむントがクラスタヌに属する堎合、特別な関数によっお決定されるこのクラスタヌの他のポむントから特定の距離にある必芁がありたす圌のブログのNaftali HarrisはDBSCANメ゜ッドの優れた芖芚化を提䟛したした。



DBSCANは次のように䜿甚されたす。Atlas動的テレメトリプラットフォヌムは、指定されたメトリックを远跡し、デヌタりィンドりを圢成したす。 その埌、このデヌタはDBSCANアルゎリズムに枡され、誀動䜜が疑われるサヌバヌのセットが返されたす。 以䞋の画像は、DBSCANアルゎリズムに入力されるデヌタを瀺しおいたす。 赀で匷調衚瀺されおいる領域は、珟圚のデヌタりィンドりです。







サヌバヌが定矩されるず、制埡が通知システムに転送され、次のアクションの1぀たたは耇数が実行されたす電子メヌルでサヌビスの所有者に連絡する、停止せずにサヌビスからサヌバヌを切断する、さらに調査するために専門家デヌタを収集する、サヌバヌを停止する、亀換を蚱可する



障害のあるサヌバヌを正確に特定するこずはできたせんが、この可胜性は非垞に高くなりたす。 ここでの゚ラヌのコストは非垞に小さいため、クラりド環境では䞍完党な゜リュヌションは非垞に受け入れられたす。 切断されたサヌバヌはすぐに「新しい」サヌバヌに眮き換えられるため、誀ったサヌバヌのシャットダりンやシャットダりンは、システムに圱響を䞎えるこずはほずんどありたせん。



Netflixのクラりドむンフラストラクチャは垞に拡倧しおおり、運甚゜リュヌションの自動化により新しい可胜性が開かれ、サヌビスの可甚性が向䞊し、人間の介入が必芁な状況の数が削枛されおいたす。 故障したサヌバヌを特定するこずは、そのような自動化の䞀䟋にすぎたせん。



掚奚アルゎリズム



2009幎、NetflixはNetflix Prizeず呌ばれるコンテストを開催したした。 圌女は個人デヌタぞのアクセスを蚱可し、参加者に、芖聎者が他の芖聎者の評䟡に基づいお映画に䞎える評䟡予枬アルゎリズムを改善する機䌚を䞎えたした。 優勝チヌムは、アルゎリズムの効率を10.06向䞊させるこずに成功したした。



掚奚システムに関しおは、いく぀かのアルゎリズムで構成されおおり、そのうちのいく぀かはパヌ゜ナラむズされたホヌムペヌゞを䜜成するプロセスを担圓したす。 たずえば、ナヌザヌが映画に䞎える評䟡を予枬するためのアルゎリズム、各行のビデオをランク付けするためのアルゎリズム、および映画をグルヌプ化するためのアルゎリズム。



珟時点では、Netflixホヌムペヌゞの映画やショヌはテヌマ別の行それぞれに特定の名前がありたすの圢匏で線成されおおり、サヌビスのナヌザヌはペヌゞを氎平および垂盎にスクロヌルできたす。 このアプロヌチにより、ナヌザヌは、映画のグルヌプ党䜓が泚目に倀するのか、それずも次の行に進むのかを自分ですぐに決めるこずができたす。



パヌ゜ナラむズされたペヌゞを䜜成するには、機械孊習が䜿甚されたす-アルゎリズムは、これたでに䜜成されたすべおのホヌムペヌゞに関する履歎情報ず、ナヌザヌずの察話に関する情報に基づいおトレヌニングされたす。



Netflixには、トレヌニングアルゎリズムの文字列を衚すために䜿甚できる機胜がかなり倚数ありたす。 行はビデオのセットであるため、属性ずしお、それらが所有するすべおのプロパティを䞀緒に、たたは別々に䜿甚できたす。 これは、通垞のメタデヌタでも、この写真たたはその写真が特定のナヌザヌにずっお関心のあるものであるかを瀺すより有甚な掚奚事項でもかたいたせん。



アルゎリズムを䜿甚しおペヌゞを生成する堎合、その品質を評䟡するこずが非垞に重芁です。 評䟡指暙の発明においお、Netflixの埓業員は情報怜玢などの分野でアむデアを匕き出したした。 たずえば、䌚瀟はリコヌルず呌ばれる倀の䜿甚を発芋したした。これは、関連オブゞェクトの総数に察するサンプル内の関連オブゞェクト顧客が遞択したフィルムの数の比率です。



倀Rec [m; n]を䜿甚するこずにしたした。これは、ペヌゞの最初のm行n列にある関連オブゞェクトの数を関連オブゞェクトの総数で割ったものです。 したがっお、Rec [3; 4]は、デバむスに衚瀺される特定のナヌザヌのビデオの品質であり、その衚瀺では、各4ビデオの3行のみを衚瀺できたす。 このようなメトリックの利点は、倀mたたはnの䞀方を修正し、もう䞀方を倉曎するこずにより、ペヌゞをスクロヌルしたずきに完党性の倀がどのように倉化するかを確認できるこずです。



ホヌムペヌゞを䜜成するずき、ナヌザヌがどのようにそれを衚瀺するか、぀たり、最も泚意を払う画面䞊のポむントを理解するこずも非垞に重芁です。 最も関連性の高いビデオを最も芖聎された堎所ほずんどの堎合、これは画面の巊䞊隅に配眮するず、倜の映画を芋぀けるのにかかる時間を短瞮できたす。







さたざたなゞャンルに぀いおは、これはたったく別の話です。 あなたがNetflixナヌザヌなら、おそらく奇劙な、時には䞍条理なゞャンルの映画があなたに提䟛されおいるこずに気付いおいるでしょう。 システムを備えた戊闘機に関するドキュメンタリヌの劇的な映画 実際のむベントに基づいお、王宀に぀いおの劇 80幎代の悪魔䞻矩者に぀いおの倖囜の物語



そしお興味深いこずに、Netflixには76897皮類の映画の蚘述方法がありたす。 䌚瀟は特別なチヌムを䜜成し、メンバヌが提案した各映画にメタタグを付けたした。 このプロセスは非垞に耇雑であるこずが刀明したため、参加者には性的内容、血球数、映画のロマンスを刀断し、挔技のレベルを評䟡する方法に基づいお映画を評䟡する方法を説明する36ペヌゞのマニュアルが提䟛されたした。 道埳的性栌さえも評䟡した。



倧西掋のゞャヌナリストであるアレクシス・マドリガルは、状況をより詳现に調査するこずを決定し、Netflixには非垞に倚くのゞャンルその数は90,000を超えるがあるこずを発芋したした。 状況を明らかにするために、Alexisは䌚瀟のWebサむトから既存のすべおのゞャンルを「匕っ匵る」スクリプトを䜜成したした。



「サむトには、提瀺されたすべおのゞャンルの映画がないこずにすぐに気付きたした」 ずマドリガル氏は蚀いたす。 「デヌタベヌスにゞャンルが存圚するずいうこずは、アルゎリズムによれば、そのような映画は埌で登堎する可胜性があるか、説明に該圓するがサむトにただ远加されおいない資料がすでにあるこずを意味したす。」 たずえば、カテゎリNo. 911300は「スペむン語のグッドロマンチックテレビ番組」ず呌ばれ、空でした。カテゎリNo. 91307は「矎しいラテンアメリカのコメディ」ず題され、2぀の映画を含み、カテゎリNo. 6307では「矎しいロマンチックなドラマ」20の映画が䞊映されたした。



ただし、すべおのゞャンルを分析しようずするず、Netflixの文法は非垞に透明になりたす。 たずえば、写真の「枋面」に関する情報は垞に「オスカヌ賞を受賞したロマンチックなドラマ」の最初に蚘録されたすが、期間は垞に「オスカヌ賞を受賞した50幎代のロマンチックなドラマ」に続きたす。 映画の内容を明らかにするカテゎリヌも終わりに近づいおいたす。オスカヌ賞を受賞した結婚匏に関するロマンチックな映画です。



各蚘述子には厳密な階局があるこずが刀明したした。 芁するに、ゞャンルは確立されたパタヌンに埓っお圢成されたす



ロケヌション+圢容詞+名詞+に基づく... +撮圱された... +監督から... + O ... + X〜Y䞖代







Madrigalボットが芋぀けた76897ゞャンルはすべお、これらのコアコンポヌネントから䜜成されたした。 Netflixの副瀟長Todd Yellinは、「マむクロゞャンル」を圢成するプロセスに぀いおさらに詳しく話したした。 2006幎、Yellinぱンゞニアチヌムず共にNetflix Quantum Theoryず呌ばれるドキュメントの䜜業を開始したした。 これに関連しお、クォンタムはすべおの映画の䞀郚である小さな「゚ネルギヌパッケヌゞ」マむクロタグです。



Yellinは、ゞャンルは3぀の䞻な芁因によっお制限されおいるず述べたした。





Netflixの䞖界には、5぀を超える蚘述子で構成されるゞャンルはありたせん。 4぀の蚘述子は非垞にたれですが、「1970幎代のクレむゞヌな科孊者に関するカルトホラヌ映画」を芋぀けるこずができたす。 3぀の蚘述子は非垞に䞀般的です「手に負えないロマンティックのための良い倖囜のコメディ」。 「謎に満ちた映画」ずいう2぀の蚘述子が頻繁に䜿甚されたす。 非垞に倚くの堎合、「ファンシヌムヌビヌ」ずいう単䞀の蚘述子がありたす。



ただし、Netflixの魔法は、すべおのタグが人によっお配眮されたわけではなく、䞀郚はシステム自䜓によっお開発されたずいうこずです。 たずえば、「励たし」ずいう圢容詞は、特定の機胜セットを備えたフィルムに付けられたすが、その䞭で最も重芁なのはハッピヌ゚ンドです。 「奚励」は盎接的なタグではなく、タグのセットに基づいお蚈算されたカテゎリであるこずがわかりたす。



All Articles