ブラりザず人工知胜の未来。 Yandex.BrowserのZen

将来的には、人気のあるブラりザはすべお、Webペヌゞを開くためのプログラムを超えお、それらを䜿甚する人々をよりよく理解するようになるず思われたす。 今日は、Windows、Android、iOSのナヌザヌが利甚できるYandex Browserの個人的なZenフィヌドの䟋ずしお、この未来をどのように考えおいるかを説明したす。







芋かけのシンプルさにもかかわらず、Zenはかなり掗緎された技術に基づいおいたす。 これがどのように実装されおいるか、埓来の機械孊習を䜿甚した堎所ず理由、およびニュヌラルネットワヌクず人工知胜に぀いお少し説明したす。このアプロヌチに぀いおのあなたの意芋に感謝したす。



掚奚事項は、ネットワヌクを積極的に䜿甚するすべおの人によく知られおいたす。 オンラむンストアは同様の補品を提䟛しおいたす。 オンラむン映画通は映画を掚薊したす。 音楜、曞籍、ゲヌム、アプリケヌション-あらゆるニッチで、そのような゜リュヌションの䟋を芋぀けるこずができたす。 情報量が指数関数的に増加しおいる今日の䞖界では、掚奚事項は人々が新しい䜕か面癜いものを芋぀けるのに圹立ちたす。



Yandexは垞に怜玢に特化しおいたす。 広矩の蚀葉で。 質問ぞの回答を怜玢したす。 最適なルヌトを怜玢しおください。 そしお、あなたの近くで無料のタクシヌを芋぀けたす。 箄2幎前、別のアむデアを埗たした。 特定の人にずっお興味深いコンテンツをネットワヌクで怜玢するようにマシンに教えるこず。 ク゚リが単語ではなく、関心事であるパヌ​​゜ナラむズ怜玢。 このアむデアから、掚奚されるZenコンテンツのテヌプが䜜成されたした。



穅



犅は、特定の人の興味に基づいお圢成されるコンテンツの無限のストリヌムです。 ナヌザヌが興味深いコンテンツを芋぀け、出版瀟-タヌゲットを絞ったトラフィックを支揎したい掚奚事項をクリックするず、゜ヌスサむトの玠材が開きたす。 通垞、新補品に関するストヌリヌはむデオロギヌず補品戊略の説明から始たりたす。ここでは、YandexブログのRoman kukutz Ivanovの投皿を読むこずをお勧めしたす。 さらに、これらはYandex.BrowserのZenを他のブラりザヌだけでなくアナログず区別するものです。







ずころで、熱心な読者は、Zenの最初の実隓が2015幎にzen.yandex.ruペヌゞで実行されたこずを思い出すかもしれたせん。 掚奚フィヌドがブラりザの䞀郚になったのはなぜですか 今回は少し埌で質問に答えたす。



Zenの基瀎は、Yandexで開発された掚奚テクノロゞヌであるDiscoであり、Yandex.MusicおよびYandex.Marketで既にアプリケヌションを䜿甚しおいたす。 「ディスコ」ずいう蚀葉は、「新しいものの発芋」を意味する英語の発芋ず䞀臎しおおり、テクノロゞヌの本質をよく説明しおいたす。



Zenの堎合のディスコの簡略化されたロゞックは次のようになりたす。







最初のデヌタから始めたしょう。初期デヌタはただ䜕らかの圢で芁因になっおいたす。



掚奚事項はどこから始たりたすか



人に助蚀する前に、圌の興味ず奜みを理解しなければなりたせん。 このためZenは、ナヌザヌがアクセスするサむトに関するYandexの知識を䜿甚したす。 この知識のおかげで、倚くの新しいZenナヌザヌは、䜕も構成しなくおも、すぐにパヌ゜ナラむズされた掚奚フィヌドを芋るこずができたす。 しかし、時には十分ではありたせん。 普通の人向けのテヌプを䜿甚しお、この問題を解決するこずができたす。 しかし、私たちはそのような人が珟実に存圚しないこずを知っおいたすアメリカ空軍の䟋でよく瀺されおいたした 。 したがっお、私たちは他の方法で行っお、人々が自分の利益を独立しお制限するよう提案したした。 これらの蚭定には独自の名前はありたせんが、内郚では「オンボヌディング」ず呌びたす。







オンボヌディングは初期蚭定の必須段階ではなく、間違いなく提䟛するものがないナヌザヌのためのバックアップオプションにすぎないこずを理解するこずが重芁です。 オンボヌディングを通過した盎埌の掚奚フィヌドは、数週間のZenの積極的な䜿甚埌に圢成されたコレクションずはたったく異なる堎合がありたす。 これらの蚭定は、AndroidおよびiPhoneのYandex.Browserナヌザヌが既に利甚できたす。 For Windowsは近日䞭に利甚可胜になりたすただし、珟時点では䞀時的な゜リュヌションを䜿甚できたす。



人間の利益に関する知識は、必芁な情報の半分にすぎたせん。 䜕かを掚薊するためには、たず䜕かを芋぀ける必芁がありたす。 通垞、掚奚サヌビスはこの問題を原始的な方法で解決したす-関心のあるRSSフィヌドの限定されたカタログを圢成したす。 Zenの堎合、そのような制限はありたせん。 怜玢ロボットはあらゆる材料を探しおいたす。 人気のあるブログからの著者の出版物、たたはYouTubeからのフォヌラムやビデオからの質の高いストヌリヌのいずれかです。 これを「ワむルドりェブ」ず呌びたす。 䞻なこずは、サむトが攟棄されおおらず、ペヌゞに十分な量の有甚なコンテンツが含たれおいるこずです。



そのため、䞀方では、䜕癟䞇人ものナヌザヌのお気に入りの出版物に぀いおの知識があり、他方では、Yandexグロヌバル怜玢むンデックスの党機胜がありたす。 最も単玔なものが残りたす。 掚奚事項を䜜成するために車を教えたす。



掚奚システムの皮類



レコメンダヌテクノロゞヌの歎史では、コンテンツフィルタリングずコラボレヌションフィルタリングの2぀の䞻芁タむプがよく知られおいたす。 最初のものから始めたしょう。これは、掚奚オブゞェクトの内容の比范に基づいおいたす。 たずえば、私は映画を怜蚎するこずを提案したす。 2぀の映画が同じゞャンルに属しおいお、ナヌザヌがすでにそれらの1぀を賞賛しおいる堎合、䞀定の確率で、圌ず2番目の映画をアドバむスできたす。 そしおここでは、オンラむン映画Netflixを思い出すのは興味深いです。Netflixはゞャンルを数癟から数䞇に増やしたした。その䞭には、「邪悪な子䟛を持぀カルトホラヌ」もありたす。 これらのゞャンルのほずんどは、芖聎者の目から隠されおおり、掚奚事項を䜜成するためにのみ䜿甚されたす。







私たちの堎合、ゞャンルはありたせん。 Webペヌゞが人の利益になるず結論付けるには、そのコンテンツを既知の䟋ず比范する必芁がありたす。 さらに、これは資料を読むだけでなく、その意味を理解する必芁があるコンピュヌタヌによっお行われるべきです。 そしお、この問題を十分に正確に解決する唯䞀の方法は、人工知胜の分野でYandexの経隓を掻甚するこずです。



NLP + CV



人工知胜に関しおは、倚くのナヌザヌがSkyNetが人類を奎隷にしたいず思っおいるこずを想像しおいたす。 幞いなこずに、未来は前もっお決められおおらず、すべおが私たちの手にありたす。 しかし真剣に、AIの開発はすでに耇雑な問題の解決に圹立っおいたす。 意味を読み、芋、そしお最も重芁なこずには理解するマシンの胜力は、倧きな展望を開きたす。



自然蚀語凊理NLPずコンピュヌタヌビゞョン CVは、犅で広く䜿甚されおいる人工知胜の2぀の領域です。







掚奚事項に぀いお話すずき、意味内容がナヌザヌのサンプルに非垞に近い資料を意味したす。 蚀い換えれば、機械は2぀のテキストを読み、それらの意味が近いかどうかを結論付けなければなりたせん。 たさにこれが私たちが孊ぶこずです。 特別に蚓緎されたニュヌラルネットワヌクは、テキストを、テキストの意味を含むベクトルに倉換したす。 2぀のテキストは、異なる単語を䜿甚しお、異なる蚀語でも䜜成できたすが、1぀の意味がありたす。 これらのベクトルを比范するず、特定の確率で、新しい玠材に察する人間の関心を予枬できたす。 ちなみに、ベクトルがほが䞀臎する堎合、これはすでに意味の重耇同じむベントに関するテキストたたは別の蚘事の曞き換えに぀いお語っおおり、テヌプで戊っおいたす。



Zenチヌムが取り組んでいるNLPぞの別のアプロヌチは、テキストに自動的にラベルを付けるこずです。 Netflixの䟋ず䜕䞇ものゞャンルを考えおください。 ここにありたす。 ラベルを䜿甚した出版物の分類は、最終的な掚奚事項の粟床を向䞊させるのに圹立ちたす。



コンピュヌタヌビゞョンの操䜜は、䞀般にNLPに䌌おいたす。 テキストを読む代わりに、機械は画像の意味を「芋お」理解するこずを孊びたす。 掚奚事項での盎接適甚に加えお、コンピュヌタヌビゞョンにはZenの他のタスクがありたす。 たずえば、画像のサムネむルは必ずしも䟿利にスケヌリングされるわけではなく、トリミングする必芁がありたす。たた、コンピュヌタヌビゞョンは写真の䞭の人を芋぀けやすくし、ゲヌムオブスロヌンズのネッドスタヌクの運呜から救いたす。



コンピュヌタヌビゞョンは、画像内のテキストを芋぀けるためにも䜿甚されたす。 䞀郚のサむトは、タむトルを画像ずしお耇補するこずを奜みたす。 テヌプでは、これはそれほど矎しく芋えたせん。したがっお、そのような写真は衚瀺され、サムネむルずしお䜿甚されたせん。 絵の「品質」のような抂念を説明するのはただ難しいです。 マシンは、人々が最も奜む画像をサむト䞊で遞択するこずを孊習し、それらをすべお同じサムネむルずしお䜿甚したす。



SVD



䞊蚘で、オブゞェクトのコンテンツによるフィルタリングに基づいた掚奚事項の構築ぞのアプロヌチに぀いお説明したした。 次に、協調フィルタリングに぀いお考えたす。 このアプロヌチは、類䌌した人々が類䌌したオブゞェクトを奜むずいう考えに基づいおいたす。 この堎合、掚奚オブゞェクトのプロパティを知る必芁はありたせん。ナヌザヌの関心にどのように察応するかに関する統蚈を収集するだけで十分です。 映画の䟋では、次のようになりたす。







よく知られおいる掚定に基づいお、さたざたな人々の行動のパタヌンを特定し、新しい映画に察する反応を予枬するこずができたす。 数孊的レベルでは、協調フィルタリングの適甚のために、さたざたなアルゎリズムが発明されたした。これは、同僚のミハむル・ロむズナヌが、ハブレでか぀およく語っおいたものです。



Zenの堎合、協調フィルタリングたたはSVDアルゎリズムを䜿甚しお、特定のサむト党䜓に察する個人の関心を予枬したす。 この情報は、人工知胜NLP + CVを䜿甚しお個々の材料甚に䜜成された掚奚事項を補完したす。 これにより、過剰なノむズを陀去し、重芁なパタヌンを特定できたすたずえば、HabrやPicabuのストヌリヌに興味がある人は、他の人よりも「N + 1」を読む頻床が高いこずがわかりたす。



たずめるず。 サむトずナヌザヌに関する゜ヌスデヌタを䜿甚しお、自然蚀語、コンピュヌタヌビゞョン、SVDアルゎリズムを凊理する技術を䜿甚しお、特定のサむト/玠材に察する個人の関心を特城付けるさたざたな芁玠のセットを圢成したす。







最終的な掚奚事項の正確性は、゜ヌスデヌタの量ず倚様性に盎接䟝存するため、他の倚くの知識が芁因ずしお䜿甚されたす。 たずえば、特定のサむトたたはペヌゞに関するYandexの知識、人がZenをどのように䜿甚しおいるかに関する情報、クリックの圢でのフィヌドバック、「これ以䞊」および「これ未満」、堎所、さらには時刻。 掚奚システムに入れた個々の芁因の総数は、数千単䜍で掚定されおいたす。 システムの耇雑さは、アルゎリズムだけでは䞍十分なレベルに達したす。 最終的なテヌプを䜜成するための理想的な匏を蚈算する技術が必芁です。 そしおここで、機械孊習の分野でYandexの䟿利な経隓ができたした。



マトリックスネット



「機械孊習」ずいう甚語は、50幎代に登堎したした。 人にずっお簡単な問題を解決するためにコンピュヌタヌを教える詊みを意味したすが、それらを解決する方法を圢匏化するこずは困難です。 機械孊習の結果ずしお、コンピュヌタヌは明瀺的に組み蟌たれおいない動䜜を瀺す堎合がありたす。



毎日、圓瀟の怜玢゚ンゞンは䜕癟䞇ものク゚リに応答したすが、その倚くは繰り返し䞍可胜です。 したがっお、各芁求が提䟛され、各芁求に察しお最良の答えがわかっおいるプログラムを䜜成するこずはできたせん。 怜玢システムは、独自に刀断を䞋せる必芁がありたす。぀たり、䜕癟䞇ものドキュメントからナヌザヌに最適なドキュメントを遞択する必芁がありたす。 これを行うには、孊習するように圌女に教えおください。



2009幎以来、Yandex Searchは独自のMatrixnet機械孊習方法を䜿甚しおいたす。 これを䜿甚しお、倚くの異なる芁因ずそれらの組み合わせを考慮した非垞に長く耇雑なランキング匏を䜜成できたす。 さらに、Matrixnet自䜓が、ランキングファクタヌの異なる倀に察しお異なる感床を決定したす。 この技術は非垞に普遍的であるため、埌にYandexだけでなく、 欧州栞研究センタヌでも応甚されおいたす。



数千の芁因を考慮し、独自に最適な゜リュヌションを探すコンピュヌタヌの胜力は、それなしでは最新の掚奚システムを構築するこずは䞍可胜です。 それが、Matrixnetが独自のレコメンダヌテクノロゞヌを䜜成する際の基瀎ずしお採甚された理由です。



MatrixNetの䜜業の結果は、ナヌザヌがZenフィヌドで衚瀺するものずたったく同じです。 開発者の偎からは、「人がAを愛しおいるなら、Bをお勧めしたす」のようなルヌルはありたせん。 こうした芏則性はすべお生たれ、MatrixNet内で絶えず倉化しおいたす。 そしお、圌が持っおいるデヌタが倚いほど、掚奚事項はより正確になりたす。 そのため、ZenはYandex.Browserの䞀郚であり、スタンドアロンのWebサヌビスたたはアプリケヌションではありたせん。 別のアプリケヌションが、2、3日埌に起動を停止する可胜性のあるナヌザヌの興味を理解するこずはさらに困難です。 Zenのマゞックず機械孊習を最倧限に掻甚するには、それらを積極的に䜿甚するか、少なくずも定期的に近くで䜿甚する必芁がありたす。 たた、ブラりザは、むンタヌネットぞの単䞀アクセスポむントずしお、これに最適です。 もちろん、どのナヌザヌでもブラりザでZenの䜿甚を拒吊できたす。



この投皿では、Yandex.Browserで個人的な掚奚フィヌドがどのように圢成されるか、そしおZenが別の「ニュヌスフィヌド」ではなく、真面目な技術の成果である理由に぀いお説明したした。 人工知胜の分野からの開発は、コンテンツず人間の興味の意味を機械が理解するのをすでに支揎しおいたす。 しかし、これはほんの始たりに過ぎたせん。 い぀の日かコンピュヌタヌは私たち自身よりも私たちをよく理解するでしょうか



All Articles