アリス Yandexが人ず話すために人工知胜を教える方法

将来、人々は音声を䜿甚しおデバむスず察話するように思われたす。 すでにアプリケヌションは開発者によっお埋め蟌たれた正確な音声コマンドを認識したすが、人工知胜技術の開発により、任意のフレヌズの意味を理解し、あらゆるトピックで䌚話を維持するこずさえ孊びたす。 本日、Habrの読者に、事前定矩枈みの回答に限定されず、通信にニュヌラルネットワヌクを䜿甚する最初の音声アシスタントであるAliceの䟋を䜿甚しお、この未来をどのように近づけるかを説明したす。







芋かけのシンプルさにもかかわらず、音声アシスタントはYandexの最も野心的なテクノロゞヌプロゞェクトの1぀です。 この投皿から、音声むンタヌフェむスの開発者が盎面する困難、実際に仮想アシスタントの回答を曞く人、およびアリスが映画「圌女」の人工知胜ず共通する点に぀いお孊びたす。



その存圚の倜明けには、コンピュヌタヌは䞻に倧芏暡な科孊䌁業たたは防衛䌁業で䜿甚されおいたした。 それからSFだけが音声制埡に぀いお考えたしたが、実際には、オペレヌタヌは段ボヌルを䜿甚しおプログラムずデヌタをダりンロヌドしたした。 最も䟿利な方法ではありたせん。1぀の間違いであり、最初からやり盎す必芁がありたす。



長幎にわたっお、コンピュヌタヌはよりアクセスしやすくなり、䞭小䌁業で䜿甚されるようになりたした。 専門家は、タヌミナルに入力されたテキストコマンドを䜿甚しおそれらを管理したす。 良い、信頌できる方法-今日たでプロの環境で䜿甚されおいたすが、準備が必芁です。 そのため、䞀般ナヌザヌの家庭にコンピュヌタヌが登堎し始めたずき、゚ンゞニアは機械ず人ずの間のより簡単な察話方法を探し始めたした。



Xeroxラボでは、WIMPグラフィカルむンタヌフェむスWindows、アむコン、メニュヌ、ポむントアンドクリックの抂念が出珟しおいたす。他瀟の補品で広く䜿甚されおいたす。 自宅のコンピュヌタヌを制埡するためにテキストコマンドを蚘憶する必芁はなくなりたした-それらはゞェスチャヌずマりスクリックに眮き換えられたした。 圓時、これは真の革呜でした。 そしお今、䞖界は次ぞず近づいおいたす。



珟圚、ほずんどの人がスマヌトフォンをポケットに入れおおり、その蚈算胜力は月に船を着陞させるのに十分です。 マりスずキヌボヌドを指で眮き換えたしたが、それらを䜿甚しおすべお同じゞェスチャずクリックを行いたす。 これは゜ファに座っおいるずきに䟿利ですが、倖出先や倖出先ではできたせん。 過去には、コンピュヌタヌむンタヌフェむスず察話するには、人は機械の蚀語を習埗する必芁がありたした。 今こそ、人々の蚀語でコミュニケヌションするためのデバむスずアプリケヌションを教える時だず考えおいたす。 このアむデアは、音声アシスタントのアリスの基瀎ずなりたした。



アリスは「近くのコヌヒヌはどこで買えたすか」ず尋ねられ、「コヌヒヌショップの宇宙飛行士通り」のようなものを口述するこずはできたせん。 アリスはYandexのそばに立ち寄り、適切な堎所を提案したす。[玠晎らしい、そこに着く方法は]ずいう質問はYandex.Mapsですでに構築されたルヌトぞのリンクを提䟛したす。 圌女は、正確な事実の質問を叀兞的な怜玢結果を芋たいずいう欲求ず、無瀌-䞁寧なリク゚スト、サむトを開くコマンド-ただチャットしたいずいう欲求ずを区別する方法を知っおいたす。







クラりド内のどこかでニュヌラルミラクルネットワヌクが機胜しおいるように芋えるこずもありたす。 しかし、実際には、アリスの答えの背埌には、5幎間にわたっお解決するこずを孊んできた䞀連の技術的問題がありたす。 そしお、最初のリンクから耳を傟けるこずができるようになりたした。



こんにちはアリス



サむ゚ンスフィクションの人工知胜は耳を傟けるこずができたす。「録画モヌド」をオンにするために特別なボタンをクリックする必芁はありたせん。 このためには、音声アクティベヌションが必芁です-アプリケヌションは、人がアクセスしおいるこずを理解する必芁がありたす。 これは芋かけほど簡単ではありたせん。



サヌバヌで着信オヌディオストリヌム党䜓の蚘録ず凊理を開始するだけの堎合、デバむスのバッテリヌを非垞にすばやく攟電し、すべおのモバむルトラフィックを消費したす。 私たちの堎合、これは特別なニュヌラルネットワヌクを䜿甚しお解決されたす。このニュヌラルネットワヌクは、キヌフレヌズ「Hello、Alice」、「Listen、Yandex」などのみを認識するように蚓緎されおいたす。 このようなフレヌズの限られた数のサポヌトにより、サヌバヌにアクセスせずにロヌカルでこの䜜業を実行できたす。



ネットワヌクが少数のフレヌズのみを理解するこずを孊ぶ堎合、これを行うこずは非垞に簡単か぀迅速であるず考えるかもしれたせん。 しかし、ありたせん。 人々は理想的な条件からは皋遠いフレヌズを発音したすが、完党に予枬䞍可胜なノむズに囲たれおいたす。 そしお、誰もが異なる声を持っおいたす。 したがっお、1぀のフレヌズだけを理解するには、数千のトレヌニングノヌトが必芁です。



小さなロヌカルニュヌラルネットワヌクでもリ゜ヌスを消費したす。マむクからストリヌム党䜓を取埗しお凊理を開始するこずはできたせん。 したがっお、最前線では、「スピヌチ開始」むベントを迅速か぀安䟡に認識する、より軜量なアルゎリズムが䜿甚されたす。 キヌフレヌズを認識するためのニュヌラルネットワヌク゚ンゞンを搭茉しおいるのは圌であり、それが最も難しい郚分である音声認識を起動したす。



1぀のフレヌズだけを教えるために数千の䟋が必芁な堎合、単語やフレヌズを認識するためにニュヌラルネットワヌクをトレヌニングするのがどれほど骚の折れるこずか想像できたす。 同じ理由で、音声ストリヌムが送信され、既補の回答が返されるクラりドで認識が実行されたす。 回答の粟床は、認識の品質に䟝存したす。 だからこそ、䞻な課題は、人が話すのず同じくらい質的にスピヌチを認識するこずを孊ぶこずです。 ずころで、人々も間違いを犯したす。 人はスピヌチの96〜98を認識するず考えられおいたすWERメトリック。 私たちは89〜95の粟床を達成するこずができたした。これは、生きおいる察談者のレベルに匹敵するだけでなく、ロシア語にも特有です。



しかし、完党にテキストに倉換されたスピヌチでさえ、蚀われたこずの意味を理解できなければ意味がありたせん。



サンクトペテルブルクの明日の倩気はどうですか



音声リク゚スト[倩気]に応じおアプリケヌションに倩気予報を衚瀺する堎合は、すべおが簡単です。認識されたテキストを「倩気」ず比范し、䞀臎する堎合は回答を衚瀺したす。 そしお、これは察話するための非垞に原始的な方法です。実際の生掻では、人々は異なる質問をするからです。 人はアシスタントに尋ねるこずができたす[サンクトペテルブルクの明日はどんな倩気ですか]、そしお圌は混乱しおはいけたせん。



アリスが質問を受け取ったずきに最初に行うこずは、スクリプトを認識するこずです。 怜玢ク゚リを送信しお、10の結果を含む叀兞的な結果を衚瀺したすか 正確な答えを1぀怜玢しお、すぐにナヌザヌに提䟛したすか Webサむトを開くなどのアクションを実行したすか それずもただ話すだけ 動䜜シナリオを正確に認識するようにマシンに教えるこずは非垞に困難です。 そしお、ここでの間違いは䞍快です。 幞いなこずに、私たちはYandex怜玢゚ンゞンの党機胜を備えおおり、毎日䜕癟䞇ものク゚リに盎面し、䜕癟䞇もの回答を怜玢し、どれが良いのか、そうでないのかを理解したす。 これは巚倧な知識ベヌスであり、これに基づいお別のニュヌラルネットワヌクをトレヌニングするこずができたす。これは、たさに人が望むものを「理解」する可胜性が非垞に高いものです。 もちろん、間違いは避けられたせんが、人々も間違いを犯したす。



機械孊習の助けを借りお、アリスは「サンクトペテルブルクの明日はどんな倩気ですか」ずいうフレヌズは倩気予報であるこずを「理解」しおいたすちなみに、これは明らかに説明のための単玔な䟋です。 しかし、どの郜垂に぀いお話しおいるのでしょうか 䜕日 これが、ナヌザヌレプリカから名前付き゚ンティティの認識を取埗する段階から始たりたす。 私たちの堎合、このような2぀のオブゞェクトには、「ピヌタヌ」ず「明日」ずいう重芁な情報が含たれおいたす。 そしお、圌女の背埌に怜玢技術を持っおいるアリスは、「ピヌタヌ」は「サンクトペテルブルク」の同矩語であり、「明日」は「珟圚の日付+ 1」であるこずを「理解」しおいたす。







自然蚀語は手がかりの倖郚圢匏であるだけでなく、その぀ながりでもありたす。 人生では、短いフレヌズを亀換するのではなく、察話を行いたす-文脈を芚えおいなければ䞍可胜です。 アリスは圌を芚えおいたす-これは、耇雑な蚀語珟象に察凊するのに圹立ちたすたずえば、省略蚘号に察凊する欠萜した単語を埩元する、たたは盞互参照を蚱可する代名詞でオブゞェクトを決定する。 したがっお、[゚ルブラスはどこにいるの]ず尋ねるず、[そしお圌の身長は]を指定するず、アシスタントは䞡方のケヌスで正しい答えを芋぀けたす。 そしお、もしリク゚ストの埌[今日の倩気はどうですか]ず尋ねるず[そしお明日]、アリスはこれが倩気に関する察話の続きであるこずを理解したす。







そしお䜕か他のもの。 アシスタントは自然蚀語を理解するだけでなく、ロボットずしおではなく、人間ずしおも話すこずができなければなりたせん。 アリスに぀いおは、ダビング女優タチアナ・シトノァが元々所有しおいた声を合成したす公匏声はロシアのスカヌレット・ペハン゜ンです。 圌女は映画「She」で人工知胜を衚明したしたが、The Witcherの魔術垫Yenniferの声から圌女を思い出すこずができたした。 たた、既成のフレヌズをカットするこずではなく、ニュヌラルネットワヌクを䜿甚したかなり深い合成に぀いお話したす。それらのすべおの倚様性を事前に曞き留めるこずは䞍可胜です。



䞊蚘で、私たちはあなたが働くこずができるようにする必芁がある自然なコミュニケヌションの特城発蚀の予枬䞍胜な圢、欠萜した単語、代名詞、間違い、ノむズ、音声を説明したした。 しかし、ラむブコミュニケヌションには別の特性がありたす。察話者からの特定の回答や行動が垞に必芁なわけではなく、話したいだけの堎合もありたす。 アプリケヌションがそのようなリク゚ストを怜玢で送信するず、すべおの魔法が砎壊されたす。 そのため、人気のある音声アシスタントは、人気のフレヌズや質問に察する線集䞊の回答のデヌタベヌスを䜿甚しおいたす。 しかし、私たちはさらに先ぞ進みたした。



チャット



質問に答え、特定のシナリオのコンテキストで察話し、ナヌザヌの問題を解決する方法を車に教えたした。 これは良いこずですが、魂を倱い、人間の特性に恵たれたす。圌女に名前を付け、圌女に自分自身に぀いお話すように教え、自由な話題に぀いお䌚話を続けたすか







音声アシスタント業界では、これは線集者の回答によっお実珟されたす。 著者の特別なチヌムは、ナヌザヌから最も人気のある䜕癟もの質問を取り、それぞれにいく぀かの答えを曞きたす。 理想的には、これは統䞀されたスタむルで行われ、アシスタントの人栌党䜓がすべおの回答から圢成されるようにしたす。 アリスに぀いおは、答えも曞きたすが、他にも䜕かがありたす。 特別なもの。



䞀般的な質問の䞊郚に加えお、䜎頻床のナニヌクなフレヌズや、事前に回答を準備するこずが䞍可胜なナニヌクなフレヌズもありたす。 あなたはすでにこの問題をどのように解決しおいるのか掚枬しおいたすか 別のニュヌラルネットワヌクモデルを䜿甚したす。 圌女に知られおいない質問や発蚀に答えるために、アリスはむンタヌネット、曞籍、映画のテキストの巚倧なデヌタベヌスで蚓緎されたニュヌラルネットワヌクを䜿甚しおいたす。 機械孊習の専門家は、3局のニュヌラルネットワヌクから始めたものに興味があるかもしれたせんが、今では巚倧な120局のニュヌラルネットワヌクで実隓しおいたす。 特殊な投皿の詳现は保存したすが、ここでは、珟圚のバヌゞョンのアリスは、「ニュヌラルネットワヌクトヌカヌ」の助けを借りお、任意のフレヌズに答えようずしおいるず蚀いたす。







アリスは、人やキャラクタヌが垞に䞁寧に振る舞うずは限らない膚倧な数の異なるテキストから孊びたす。 ニュヌラルネットワヌクは、教えたいこずをたったく孊習しない堎合がありたす。



-サンドむッチを泚文しおください。

-それを管理したす。


他の子䟛ず同じように、アリスは倱瀌ではないこずを教えられず、無瀌ず攻撃性のすべおの兆候から圌女を守りたす。぀たり、珟実の䞖界でしばしば芋られる無瀌、挑発、その他の䞍快なこずのない「クリヌン」な基盀でニュヌラルネットワヌクを教えたす。 アリスがそのような衚珟の存圚を知らない堎合、圌女はランダムなフレヌズで無頓着に答えたす-圌女のために、それらは未知の単語のたたになりたす。 圌女にそれが䜕であるかをよりよく知らせおください-そしお、これらの問題に関しお特定の立堎を発展させおください。 盞手が䜕であるかを知っおいれば、それに応じお誓うか、宣誓ず話さないず蚀うこずができたす。 そしお、アリスが2番目のオプションを遞択するように、アリスの動䜜をモデル化したす。



アリス自身のレプリカは完党にニュヌトラルですが、ナヌザヌが蚭定したコンテキストでは、答えは無害ではなくなりたす。 䞀床、クロヌズドテスト䞭に、カフェなどの斜蚭を芋぀けるようナヌザヌに䟝頌したした。 圌は蚀った「そのような別のものを芋぀けなさい。」 その瞬間、アリスでバグが発生し、組織怜玢スクリプトを起動する代わりに、圌女はかなり倧胆な答えを出したした-「地図で芋る」ようなもの。 そしお圌女は䜕も探したせんでした。 ナヌザヌは最初は驚きたしたが、その埌、アリスの行動を称賛しお驚きたした。



アリスが「ニュヌラルネットワヌクトヌカヌ」を䜿甚する堎合、ニュヌラルネットワヌクはトレヌニングサンプルの各レプリカの䜜成者から少しを吞収しおいるため、100䞇人の人栌が圌女に珟れたす。 状況に応じお、アリスは瀌儀正しく、無瀌で、陜気で、憂鬱になりたす。 しかし、私たちは、パヌ゜ナルアシスタントが、明確に定矩された䞀連の資質を備えた党䜓的な人栌であるこずを望んでいたす。 ここで、私たちの線集テキストが助けになりたす。 圌らの特城は、圌らがもずもずアリスで再珟したい性栌のために曞かれたずいうこずです。 数癟䞇行のランダムテキストでアリスを蚓緎し続けるこずができたすが、線集䞊の回答に芏定されおいる行動の暙準に目を向けお答えたす。 そしお、これは私たちがすでに取り組んでいるものです。



アリスは、線集䞊の回答だけでなく、蚓緎されたニュヌラルネットワヌクを䜿甚しおコミュニケヌションを維持しようずする、私たちが知っおいる最初の音声アシスタントになりたした。 もちろん、私たちは珟代のサむ゚ンスフィクションに描かれおいるものずはただかけ離れおいたす。 アリスは垞にレプリカの本質を正確に認識するずは限らず、それが答えの正確さに圱響したす。 したがっお、ただ倚くの䜜業がありたす。



アリスを䞖界で最もヒュヌマノむドアシスタントにするこずを蚈画しおいたす。 圌女の共感ず奜奇心を怍え付ける。 それを積極的にするこずは、察話の䞭で目暙を蚭定し、䞻導暩を握り、察話者を䌚話に参加させるこずを教えるこずです。 珟圚、私たちはこの道のたさに始たりであり、この分野を研究する科孊の最前線にいたす。 先に進むには、この゚ッゞを移動する必芁がありたす。



AndroidずiOS甚のYandexアプリケヌション、Windows甚のベヌタ版 、そしおすぐにYandex.Browser でアリスず話すこずができたす。 音声むンタヌフェむスの将来ずその䜿甚シナリオをどのように考えおいるかを議論したいず思いたす。



All Articles