話し蚀葉を理解するためのEnd2Endアプロヌチ

口語スピヌチマシンを理解するには、いく぀かのアプロヌチがありたす。叀兞的な3コンポヌネントアプロヌチ音声認識コンポヌネント、自然蚀語理解コンポヌネント、特定のビゞネスロゞックを担圓するコンポヌネントを含むおよび4぀の実装モデルを含むEnd2Endアプロヌチ盎接、協調、マルチステヌゞ、マルチタスク。 Googleの実隓に基づくものを含む、これらのアプロヌチのすべおの長所ず短所を怜蚎し、End2Endアプロヌチが埓来のアプロヌチの問題を解決する理由を詳现に怜蚎したす。







AI MTSセンタヌNikita Semenovの䞻芁な開発者にフロアを提䟛したす。



こんにちは 序文ずしお、有名な科孊者のゞャン・ルクン、ゞョシュア・ベンゞオ、ゞェフリヌ・ヒントンを匕甚したいず思いたす。これらは最近、情報技術分野で最も暩嚁ある賞の1぀であるチュヌリング賞を受賞した人工知胜の先駆者です。 Nature誌の2015幎の号の1぀で、圌らは非垞に興味深い蚘事「ディヌプラヌニング」をリリヌスしたした。興味深いフレヌズがありたした。「ディヌプラヌニングには、手䜜りの機胜を必芁ずせずに生信号を凊理する胜力が玄束されおいたした」。 正しく翻蚳するこずは困難ですが、意味は次のようなものです。「深局孊習には、手䜜業で暙識を䜜成するこずなく生の信号に察凊する胜力が玄束されおいたす。」 私の意芋では、開発者にずっおこれは既存のものすべおの䞻な動機です。



叀兞的なアプロヌチ



それでは、叀兞的なアプロヌチから始めたしょう。 機械ず話すこずの理解に぀いお話すずき、私たちは自分の声の助けを借りおいく぀かのサヌビスを制埡したい、たたは䜕らかの論理で圌の音声コマンドに応答するシステムの必芁性を感じおいる特定の人がいるこずを意味したす。



この問題はどのように解決されたすか クラシックバヌゞョンでは、前述のように、音声認識コンポヌネント、自然蚀語理解コンポヌネント、特定のビゞネスロゞックを担圓するコンポヌネントの3぀の倧きなコンポヌネントで構成されるシステムが䜿甚されたす。 最初にナヌザヌが特定の音声信号を䜜成したす。音声信号は音声認識コンポヌネントに到達し、音声からテキストに倉わりたす。 次に、テキストは自然蚀語理解コンポヌネントに分類され、そこから特定のセマンティック構造が取り出されたす。これは、ビゞネスロゞックを担圓するコンポヌネントに必芁です。







セマンティック構造ずは䜕ですか これは、いく぀かのタスクを1぀にたずめる䞀般化/集玄の䞀皮です-理解を容易にするために。 構造には3぀の重芁な郚分が含たれたすドメむンの分類トピックの特定の定矩、意図の分類実行する必芁があるこずの理解、および次の段階の特定のビゞネスタスクに必芁なカヌドに蚘入するための名前付き゚ンティティの割り圓お。 セマンティック構造が䜕であるかを理解するために、Googleが最もよく匕甚しおいる簡単な䟋を怜蚎できたす。 「アヌティストの曲を再生しおください」ずいう簡単なリク゚ストがありたす。







このリク゚ストのドメむンず䞻題は音楜です。 意図-曲を再生したす。 「歌を再生する」カヌドの属性-どんな皮類の歌、どんな皮類のアヌティスト。 このような構造は、自然蚀語を理解した結果です。



䌚話音声を理解する耇雑で倚段階の問題を解決するこずに぀いお話す堎合、私が蚀ったように、それは2぀の段階から成りたす。最初は音声認識で、2番目は自然蚀語の理解です。 叀兞的なアプロヌチでは、これらの段階を完党に分離したす。 最初のステップずしお、入力および出力で音響信号を受信する特定のモデルがあり、蚀語および音響モデルず蟞曞を䜿甚しお、この音響信号から最も可胜性の高い蚀語仮説を決定したす。 これは完党に確率的な話です-既知のベむズ匏に埓っお分解し、サンプルの尀床関数を蚘述しお最尀法を䜿甚できる匏を取埗できたす。 単語シヌケンスWにこの単語シヌケンスの確率を掛けるず、信号Xの条件付き確率がありたす。







最初の段階-音声信号から蚀葉の仮説を埗たした。 次に、2番目のコンポヌネントがありたす。このコンポヌネントは、この非垞に蚀語的な仮説を採甚し、䞊蚘のセマンティック構造を抜出しようずしたす。



蚀語シヌケンスWが入力にある堎合、意味構造Sの確率がありたす。







別々に教えられるこれらの2぀の芁玠/ステップで構成される叀兞的なアプロヌチの悪い点は䜕ですか぀たり、最初に最初の芁玠のモデルを蚓緎し、次に2番目のモデルを蚓緎したす





End2Endアプロヌチ



叀兞的なアプロヌチずは䜕か、問題は䜕かを理解したした。 End2Endアプロヌチを䜿甚しお、これらの問題を解決しおみたしょう。



End2Endずは、さたざたなコンポヌネントを単䞀のコンポヌネントに結合するモデルを意味したす。 アテンションアテンションモゞュヌルを含む゚ンコヌダヌデコヌダヌアヌキテクチャヌで構成されるモデルを䜿甚しおモデル化したす。 このようなアヌキテクチャは、音声認識の問題や、自然蚀語の凊理、特に機械翻蚳に関連するタスクでよく䜿甚されたす。



私たちが区別する前に提起された叀兞的なアプロヌチの問題を解決できるようなアプロヌチの実装のための4぀のオプションこれらは盎接、共同、マルチステヌゞおよびマルチタスクモデルです。



ダむレクトモデル



盎接モデルは、入力の䜎レベルの未加工の属性、぀たり 䜎レベルのオヌディオ信号、および出力ですぐにセマンティック構造を取埗したす。 ぀たり、1぀のモゞュヌル、぀たり叀兞的なアプロヌチからの最初のモゞュヌルの入力ず、同じ叀兞的なアプロヌチからの2番目のモゞュヌルの出力を取埗したす。 たさにそのような「ブラックボックス」。 ここからいく぀かのプラスずマむナスがありたす。 モデルは入力信号を完党に転写するこずを孊習したせん-これは明確なプラスです。倧きな倧きなマヌクアップを収集する必芁がないため、倚くのオヌディオ信号を収集する必芁がなく、それをマヌクアップ甚のマヌカヌに䞎える必芁がありたせん。 この音声信号ず察応するセマンティック構造が必芁です。 そしおそれだけです。 これにより、デヌタのマヌクアップに䌎う劎力が軜枛されたす。 おそらく、このアプロヌチの最倧のマむナス点は、条件付きで2぀の問題を即座に解決しようずする「ブラックボックス」にずっおタスクが耇雑すぎるこずです。 最初に、圌は自分の内郚で、ある皮の文字起こしを構築し、次にこの文字起こしから意味構造を明らかにしようずしたす。 これはかなり難しいタスクを起こしたす-転写の䞀郚を無芖するこずを孊ぶこず。 そしお、それは非垞に難しいです。 この芁玠は、このアプロヌチのかなり倧きなマむナスです。



確率に぀いお話す堎合、このモデルは、モデルパラメヌタヌΞをも぀音響信号Xから最も可胜性の高い意味構造Sを芋぀ける問題を解決したす。







ゞョむントモデル



代替手段は䜕ですか これは共同モデルです。 ぀たり、䞀郚のモデルは盎線に非垞に䌌おいたすが、1぀の䟋倖がありたす。出力は既に蚀語シヌケンスで構成されおおり、セマンティック構造は単玔に連結されおいたす。 ぀たり、入力には音声信号ずニュヌラルネットワヌクモデルがあり、出力には既に音声による曞き起こしず意味構造の䞡方がありたす。







長所からシンプルな゚ンコヌダヌ、シンプルなデコヌダヌがただありたす。 盎接モデルの堎合のように、モデルは䞀床に2぀の問題を解決しようずしないため、孊習が容易になりたす。 もう1぀の利点は、セマンティック構造が䜎レベルのサりンド属性に䟝存しおいるこずです。 繰り返したすが、1぀の゚ンコヌダヌ、1぀のデコヌダヌです。 そしお、それに応じお、プラスの1぀は、この非垞にセマンティックな構造ずその転写自䜓ぞの盎接的な圱響を予枬するこずに䟝存しおいるこずに泚意するこずができたす。



繰り返したすが、パラメヌタWを持぀音響信号Xから最も可胜性の高い単語Wのシヌケンスず察応する意味構造Sを芋぀ける必芁がありたす。



マルチタスクモデル



次のアプロヌチは、マルチタスクモデルです。 繰り返したすが、゚ンコヌダヌデコヌダヌ方匏ですが、䟋倖が1぀ありたす。







各タスク、぀たり蚀語シヌケンスを䜜成し、セマンティック構造を䜜成するために、単䞀の゚ンコヌダヌを生成する1぀の共通の非衚瀺衚珟を䜿甚する独自のデコヌダヌがありたす。 機械孊習で非垞に有名なトリックで、仕事で頻繁に䜿甚されたす。 2぀の異なる問題を䞀床に解決するず、゜ヌスデヌタの䟝存関係をより適切に怜玢できたす。 そしお、これの結果ずしお-最適なパラメヌタヌが耇数のタスクに察しお䞀床に遞択されるため、最高の䞀般化胜力。 このアプロヌチは、デヌタの少ないタスクに最適です。 たた、デコヌダヌは、゚ンコヌダヌが䜜成する1぀の隠れたベクトル空間を䜿甚したす。







すでに確率では、゚ンコヌダヌおよびデコヌダヌモデルのパラメヌタヌに䟝存しおいるこずに泚意するこずが重芁です。 そしお、これらのパラメヌタヌは重芁です。



倚段モデル



私の意芋では、最も興味深いアプロヌチ、぀たり倚段階モデル​​に目を向けたす。 非垞に泚意深く芋るず、実際にはこれは1぀の䟋倖を陀いお同じ2぀のコンポヌネントの叀兞的なアプロヌチであるこずがわかりたす。







ここで、モゞュヌル間の接続を確立し、それらを単䞀モゞュヌルにするこずができたす。 したがっお、意味構造は条件付きで転写に䟝存しおいるず芋なされたす。 このモデルを䜿甚するには、2぀のオプションがありたす。 これらの2぀のミニブロック、぀たり最初ず2番目の゚ンコヌダヌデコヌダヌを個別にトレヌニングできたす。 たたは、それらを組み合わせお、䞡方のタスクを同時にトレヌニングしたす。



前者の堎合、2぀のタスクのパラメヌタヌは関連しおいたせん異なるデヌタを䜿甚しおトレヌニングできたす。 倧量の音ず、それに察応する蚀葉のシヌケンスず文字起こしがあるずしたす。 私たちはそれらを「運転」し、最初の郚分だけを蚓緎したす。 優れた転写シミュレヌションが埗られたす。 次に、2番目の郚分を取り䞊げ、別の建物でトレヌニングしたす。 最初の郚分ず2番目の郚分を別々に取埗しおトレヌニングしたため、このアプロヌチでは埓来のアプロヌチず100䞀貫した゜リュヌションを接続しお取埗したす。 そしお、ケヌスの接続モデルをトレヌニングしたす。これには、オヌディオ信号、察応するトランスクリプション、察応する意味構造の3぀のデヌタが既に含たれおいたす。 そのような建物がある堎合、特定の小さなタスクのために、倧きな建物で個別に蚓緎されたモデルを再蚓緎し、そのようなトリッキヌな方法で最倧の粟床を埗るこずができたす。 このアプロヌチにより、第1段階の第2段階の゚ラヌを考慮するこずにより、転写のさたざたな郚分の重芁性ず意味構造の予枬ぞの圱響を考慮するこずができたす 。



入力音響信号X が第1ステヌゞモデルのパラメヌタヌにも䟝存する堎合、最終タスクは叀兞的なアプロヌチず非垞によく䌌おいたすが、倧きな違いは1぀だけです。぀たり、関数の2番目の項-意味構造の確率の察数です。







ここで、2番目のコンポヌネントは1番目ず2番目のモデルのパラメヌタヌに䟝存するこずに泚意するこずも重芁です。



アプロヌチの粟床を評䟡するための方法論



ここで、粟床を評䟡するための方法論を決定する䟡倀がありたす。 実際、叀兞的なアプロヌチでは適さない特城を考慮するために、この粟床をどのように枬定するのでしょうか これらの個別のタスクには、叀兞的なラベルがありたす。 音声認識コンポヌネントを評䟡するには、埓来のWERメトリックを䜿甚できたす。 これはワヌド゚ラヌ率です。 それほど耇雑ではない匏に埓っお、単語の挿入、眮換、眮換の数を考慮し、それらをすべおの単語の数で陀算したす。 そしお、認識の質の特定の評䟡特性を取埗したす。 コンポヌネント単䜍のセマンティック構造では、F1スコアを単玔に考慮するこずができたす。 これは、分類問題の叀兞的なメトリックでもありたす。 ここでは、プラスたたはマむナスのすべおが明確です。 充実感があり、正確さがありたす。 そしお、これはそれらの間の調和平均にすぎたせん。



しかし、問題は、入力文字起こしず出力匕数が䞀臎しない堎合、たたは出力がオヌディオデヌタである堎合の粟床の枬定方法です。 Googleは、音声認識の最初のコンポヌネントを予枬するこずの重芁性を考慮したメトリックを提案したした。これは、この認識が2番目のコンポヌネント自䜓に䞎える圱響を評䟡するこずによっお行われたす。 圌らはそれをArg WERず呌びたした。぀たり、意味構造の本質に埓っおWERの重さを量っおいたす。



「5時間アラヌムを蚭定したす」ずいうリク゚ストを受け取りたす。 このセマンティック構造には、「日付時間」タむプの匕数「5時間」などの匕数が含たれたす。 音声認識コンポヌネントがこの匕数を生成する堎合、この匕数の゚ラヌメトリック、぀たりWERは0であるこずを理解するこずが重芁です。 この倀が5時間に察応しない堎合、メトリックのWERは100です。 したがっお、単玔にすべおの匕数の加重平均倀を考慮し、党䜓ずしお、音声認識コンポヌネントを䜜成する転写゚ラヌの重芁性を掚定する特定の集玄メトリックを取埗したす。



このトピックに関する調査の1぀で実斜したGoogleの実隓の䟋を挙げたしょう。 5぀のドメむン、5぀の被隓者からのデヌタを䜿甚したしたMedia、Media_Control、Productivity、Delight、None-トレヌニングテストデヌタセットのデヌタの察応する分垃。 すべおのモデルがれロからトレヌニングされたこずに泚意するこずが重芁です。 Cross_entropyが䜿甚され、ビヌム怜玢パラメヌタヌは8、圌らが䜿甚したオプティマむザヌ、もちろんAdamです。 もちろん、TPUの倧きなクラりド䞊で考慮されたす。 結果は䜕ですか これらは興味深い数字です。







理解のために、ベヌスラむンは、冒頭で述べたように、2぀のコンポヌネントで構成される叀兞的なアプロヌチです。 以䞋は、盎接モデル、接続モデル、マルチタスクモデル、およびマルチステヌゞモデルの䟋です。



2぀のマルチステヌゞモデルはいくらですか 最初ず2番目のパヌツの接合郚で、異なるレむダヌが䜿甚されたした。 最初のケヌスではこれはArgMax、2番目のケヌスではSampedSoftmaxです。



泚目に倀するものは䜕ですか 埓来のアプロヌチでは、3぀のメトリックすべおが倱われたす。これは、これら2぀のコンポヌネントの盎接的なコラボレヌションの掚定倀です。 はい、私たちはそこで転写がどれだけうたく行われるかには興味がありたせん。意味構造を予枬する芁玠がどれだけうたく機胜するかにのみ興味がありたす。 F1-トピックごず、F1-意図ごず、および゚ンティティの匕数で考慮されるArgWerメトリックの3぀のメトリックによっお評䟡されたす。 F1は、粟床ず完党性の間の加重平均ず芋なされたす。 ぀たり、暙準は100です。これに察しお、ArgWerは成功ではなく、゚ラヌです。぀たり、暙準は0です。



接続されたマルチタスクモデルが、トピックず意図のすべおの分類モデルを完党に䞊回るこずは泚目に倀したす。 たた、倚段階のモデルでは、ArgWerの合蚈が非垞に倧きく増加したす。 なぜこれが重芁なのですか 口語スピヌチの理解に関連するタスクでは、ビゞネスロゞックを担圓するコンポヌネントで実行される最終アクションが重芁だからです。 ASRによっお䜜成された文字起こしに盎接䟝存するのではなく、ASRずNLUコンポヌネントが連携しお動䜜する品質に䟝存したす。 したがっお、argWERメトリックのほが3぀のポむントの差は、このアプロヌチの成功を瀺す非垞に優れた指暙です。 たた、トピックず意図の定矩により、すべおのアプロヌチに同等の倀があるこずに泚意しおください。



話し蚀葉を理解するためにそのようなアルゎリズムを䜿甚するいく぀かの䟋を挙げたす。 Googleは、䌚話の音声を理解するタスクに぀いお話すずき、たず人間ずコンピュヌタヌのむンタヌフェヌスに泚意したす。぀たり、これらはGoogle Assistant、Apple Siri、Amazon Alexaなどのあらゆる皮類の仮想アシスタントです。 2番目の䟋ずしお、察話型音声応答などのタスクプヌルに蚀及する䟡倀がありたす。 ぀たり、これはコヌルセンタヌの自動化に埓事しおいる特定のストヌリヌです。



そのため、SLUにずっおより重芁な゚ラヌにモデルが焊点を圓おるのに圹立぀共同最適化を䜿甚する可胜性があるアプロヌチを怜蚎したした。 話し蚀葉を理解するずいうタスクに察するこのアプロヌチは、党䜓的な耇雑さを倧幅に簡玠化したす。



蟞曞、蚀語モデル、アナラむザヌなどの远加リ゜ヌスを必芁ずせずに、論理的な結論を出す機䌚がありたす。 タスクは「盎接」解決されたす。



実際、あなたはそこで止めるこずはできたせん。 そしお、今、2぀のアプロヌチ、共通の構造の2぀のコンポヌネントを組み合わせた堎合、さらに倚くを目指すこずができたす。 3぀のコンポヌネントず4぀のコンポヌネントを組み合わせたす。この論理チェヌンを匕き続き組み合わせお、゚ラヌの重芁性をより䜎いレベルに「プッシュスルヌ」したす。 これにより、問題を解決する粟床を高めるこずができたす。



All Articles