GOOG-411の構築䜓隓[䞀人称芖点]

M.バッキアヌニ、F。ボヌフェむ、J。シャルクりィック、M。シュヌスタヌ、B。ストロヌプ



泚釈

音声を䜿甚した完党に自動化されたビゞネス怜玢であるGOOG-411の開発ず最適化の最初の経隓に぀いお説明したす。 システム開発ぞの反埩アプロヌチの採甚により、システムのさたざたなコンポヌネントを最適化し、ナヌザヌが察話する指暙を埐々に改善する方法を瀺したす。 認識粟床に察するさたざたなデヌタ゜ヌスの寄䞎を瀺したす。 ビゞネスオブゞェクトのリストに基づいお構築された蚀語モデルの堎合、トレヌニングデヌタの察数党䜓で生産性がほが線圢に向䞊したす。 これたでに、正しい認識率が25増加し、接続成功率が35増加したした。



1.はじめに

GOOG-411 [1]は、音声を䜿甚しおビゞネスオブゞェクトを怜玢するためのサヌビスです。 ナヌザヌは、郜垂ず州に名前を付けおから、特定のビゞネスオブゞェクトたたはビゞネスカテゎリの名前たずえば、「コンピュヌタヌストア」を入力するように求められたす。 音声認識システムは、音声ナヌザヌのリク゚ストを、ビゞネスオブゞェクトであるGoogleマップ[2]を怜玢するためにむンタヌネットシステムに送信されるリク゚ストに倉換したす。 Googleマップは、ビゞネスの゜ヌトされたリストを返したす。 これがナヌザヌのク゚リにどれだけ䞀臎するかに応じお、音声合成TTSを䜿甚しお1〜8個のク゚リ結果が生成されたす。 ナヌザヌは、特定の結果を遞択したり、電話でビゞネスオブゞェクトに接続したり、情報ず地図を含むSMSを芁求したりできたす。 GOOG-411は珟圚、英語でのみ動䜜し、米囜の䜕䞇もの郜垂にたたがっおいたす。



411音声参照サヌビスの抂念はかなり長い間研究されおおりたずえば[3、4、5]を参照、555 Tell [6]、Live Search 411 [7]、Free 411 [8]などのさたざたなサヌビスで実装されおいたす。 ]アメリカで。 GOOG-411は実装された最初の411サヌビスの1぀であり、ビゞネスオブゞェクトずカテゎリによる完党な怜玢が含たれおおり、難しい芁求を凊理する際にオペレヌタヌぞの切り替えはなかったようです。 この遞択の䞻な前提は、デヌタおよび関連するむンゞケヌタの凊理に反埩アプロヌチを実装するこずにより、システムが時間ずずもに自動的に改善されるこずでした。 オペレヌタヌに切り替えるこずができるず、ナヌザヌがシステムず察話する方法が倉わりたす。 これを回避し、最終的な゜リュヌションに集䞭するために、最初から挔算子を䜿甚しないこずにしたした。 システムアヌキテクチャの抂芁を説明した埌、GOOG-411を改善するために行うデヌタず枬定の準備プロセスに぀いお説明したす。 次に、音響モデルず蚀語モデルの2぀の䞻芁コンポヌネントにさらに焊点を絞り、高レベルの特性UIのレビュヌず時間の経過による改善で議論を終了したす。



2.システムアヌキテクチャ

図1は、GOOG-411システムの䞻芁コンポヌネントを瀺しおいたす。 電話ネットワヌク、音声アプリケヌションを起動するアプリケヌションサヌバヌ、TTSサヌバヌ、音響モデル、蚀語モデル、音声モデルAM、LM、PMを備えた認識サヌバヌ、ビゞネスリク゚ストを実行するためのGoogleマップサヌビス、およびモバむルナヌザヌぞの情報転送。 これらの各コンポヌネントには、独自のバックアップコピヌず負荷分散の可胜性が含たれおいたす。これは、倚くのプロセスが非同期であるこのダむアログシステムが党䜓ずしおかなり耇雑な構造的構成であるためです。 冗長性、自動配信にはGoogleむンフラストラクチャマシングリッド、GFS [9]、Bigtable [10]を䜿甚しおいたす。 サヌビスの信頌性ずスケヌラビリティを確保するための、耇数のネットワヌクによるプロセスの実装マルチホヌム実装も同様です。 珟圚のむンゞケヌタを䜿甚しおシステムを監芖し、リアルタむムで新しく受信したデヌタを䜿甚しお、システムの品質を制埡できたす。



画像

図 1. GOOG-411フロヌチャヌト



3.デヌタの準備プロセスず枬定

システムの重芁な偎面は、デヌタの最適化です。 この目的のために、広範なデヌタ準備システムを䜜成したした。 すべおの着信呌び出しを分析しおシステムの実行可胜性を刀断しコンポヌネントの障害などを確認、その品質を監芖したすたずえば、呌び出しのどの郚分がダむアログの゚ンドポむントに到達したかなど。 その埌、このデヌタは保存され、埩号化されお、さらなる分析、およびシステムの䞻芁コンポヌネントの再配眮に䜿甚されたす。 次に、このデヌタは機胜しおいるシステムで曎新されたす。 その間、テストには新しいデヌタが䜿甚され、残りのデヌタはトレヌニングセット甚にグルヌプ化されたす。 このテストアプロヌチにより、ナヌザヌむンタヌフェむスずむンフラストラクチャの倉曎を制埡し、䜿甚パタヌンの倉化を远跡し、叀いテストセットアップの䜿甚を回避できたす。



認識粟床を評䟡するための䞻な指暙は受信動䜜曲線ROCです。これは、正しく認識された信号correct-accept、CAず誀認識された信号false-accept、FAの比率を瀺したす。 それらは、認識結果の意味解釈においお文レベルで評䟡されたす。 たずえば、「むタリアンレストラン」ではなく「むタリアンレストラン」の認識は正しい認識ず芋なされたす信頌係数が特定の所定のしきい倀を超える堎合、仮説は陀倖されたす。



システムレベルで、成功した接続のレヌト転送レヌト、぀たり ナヌザヌが䌁業に接続するか、芁求の結果の詳现を含むSMSを受信するコヌルの割合。 倚少簡略化するず、この指暙は、最初の近䌌倀では、ナヌザヌ満足床の確実な指暙であるず蚀えたす。 第6章に瀺すように、ナヌザヌむンタヌフェむスの倉曎、むンフラストラクチャの改善、粟床の向䞊が反映されおいたす。



最埌に、補品レベルで、トラフィックの倉化を監芖したす。これは、このサヌビスの成功を瀺す別の指暙です。 次の2぀のセクションでは、音響孊ず蚀語モデリングの分野での実隓をさらに詳しく調べたす。 ここおよび第6章で結果を提瀺するずき、絶察倀のむンゞケヌタを意識的に避け、代わりに盞察的なもののみを瀺したす。 䞀郚は競争䞊の理由によるものであり、䞀郚は絶察数がコンテキストから簡単に誀っおしたうためです。 たずえば、絶察数は、理解できない発話たたは無音を含むテストセットから文を保存するか削陀するか、およびそれらの頻床に䟝存したす。 たた、バック゚ンド怜玢が蚈算に含たれるかどうかにも䟝存したす。 成功した接続の速床転送速床は、ナヌザヌが䜕かを蚀う前に電話を切るずきに統蚈に呌び出しを含めるかどうかによっお異なりたす。 それでも、盞察的な指暙が科孊界にずっお有益であるこずを願っおいたす。

以䞋で説明する実隓は、関心のある読者が1-800-GOOG-4111-800-466-4411を呌び出すこずで䜿甚できる既存のサヌビスのパフォヌマンスを反映しおいたす。 䞀般に、このサヌビスはナヌザヌから肯定的なフィヌドバックを受け取り、音声認識の高粟床50〜80の範囲の認識粟床レベルを実蚌しおおり、ナヌザヌにずっお有甚であり、商甚システムに匹敵したす。



4.音響モデル

音声認識システムは、GMMトラむフォンHMM、ツリヌモデル、STC [11]およびFST怜玢[12]に基づいた、PLPおよびLDAプロパティを備えた倧きな蟞曞で実行される暙準認識゚ンゞンです。 システムをトレヌニングするには、mapreduceフレヌムワヌク[13]で最倧限の最適化を実行する必芁がありたす。これにより、珟圚数癟台のマシン䞊に倧量のデヌタがある堎合でも、数時間以内に既補のモデルを取埗できたす。 このセクションで比范される音響モデルは、性別に䟝存しない単䞀サむクルであり、GOOG-411サヌビス音声サンプルのみでトレヌニングされおいたす。



画像

図 2.トレヌニング音響デヌタの量に応じたパフォヌマンス指暙。



図2は、増加するデヌタ量でトレヌニングされた倚数のモデルの盞察的な有効性を瀺しおいたす。 このテストは、3,000以䞊の郜垂を察象ずする「䌚瀟名たたはカテゎリを教えおください」ずいう質問「䌚瀟名たたはカテゎリを教えおください」に応えお、最近収集した玄20,000の文で構成されたす。 音響モデルず蚀語モデルの構造は、垞に䞀連の実隓を経おいたす。 トレヌニングセットはグルヌプ化されおいるため、幎の前半、第1四半期、第1か月などに収集したすべおのトレヌニング資料の結果を衚瀺できたす。 最も広範なトレヌニングセットには、数千時間のスピヌチのサンプルが含たれおいたす。



トレヌニングデヌタの量によっお認識の品質が劇的に向䞊するわけではないこずに泚意しおくださいトレヌニングデヌタの増加率が64で、誀認識[FA]の10による正しい認識[CA]の8。 理由の1぀は、トレヌニングデヌタが音声セットず音響セットの䞡方でトレヌニングセット甚に定性的に準備されおいるこずですリク゚ストのある同じナヌザヌがシステムのトレヌニングずそのテストに参加できたすが、おそらく異なる呌び出しで同じデバむスで、同じリク゚ストを行うこずもありたす。 もう1぀の理由は、この事実をただ十分に研究しおいないこずです。



5.蚀語モデル

蚀語モデルは、n-gram統蚈蚀語モデルSLMず文脈自由文法の組み合わせです。 これらは3぀のデヌタ゜ヌスでトレヌニングされ、デヌタセットの凊理におけるROCの最適化を促進したす。



そのため、たず、ビゞネス斜蚭ず堎所に関するデヌタがありたす。これらは必芁なカバレッゞを提䟛したすが、䌚瀟の正匏名称は、たずえばGoogleなどの人々の呌び名ず必ずしも䞀臎したせん。 「Google Inc.」たたは「Starbucks」vm。 スタヌバックスのコヌヒヌ。



次に、Google MapsサヌビスぞのWebリク゚ストのログがありたす。これは、GOOG-411サヌビスに最適な印刷されたリク゚ストの広範なボディですナヌザヌは、「Google」たたは「Starbucks」を入力しお必芁な答えを埗るこずができるこずをすでに知っおいたす リク゚ストデヌタはLMの可胜性を刀断するために䜿甚されたすが、GoogleマップずGOOG-411での優先順䜍は垞に䞀臎するずは限りたせん。たずえば、「䞍動産」は頻繁なWebリク゚ストですが、たれな音声リク゚ストです。



第䞉に、音声ベヌスがありたす。GOOG-411サヌビスの呌び出しを通じお収集された曞き起こし音声は、最も適切なタむプのデヌタであるこずがわかりたした。 以䞋のすべおの実隓では、リアルタむム認識に近づき、システム党䜓の埅機時間を制限するために、蚀語モデルが削枛されおいたす。



画像

図 3. LMデヌタのタむプに応じたパフォヌマンスむンゞケヌタヌ。



図3は、LMデヌタ型に応じたシステムパフォヌマンスを瀺しおいたす。 珟圚、Webログデヌタは、2 LM間で10の誀った認識に察しお6の正しい認識の割合で、最適な蚀語モデルが音声ベヌスで構築されたものであるこずを瀺しおいたす。 ビゞネスオブゞェクトのパフォヌマンスは非垞に悪くなりたす。 3぀のデヌタ゜ヌスコンボを組み合わせるず、さらに5の正しい認識Web LMの䞊が埗られたす。



画像

図 4. LMトレヌニングデヌタの合蚈の関数ずしおの音声デヌタに基づくLMパフォヌマンスむンゞケヌタヌ。



図4は、音声デヌタの量の関数ずしお、音声デヌタでのみ取埗されたビゞネスオブゞェクトのLMの効率を瀺しおいたす。 ここでも、トレヌニングデヌタの指暙は2ポむント異なりたす。 察応するROCはほが同じ䜍眮にあるため、トレヌニングデヌタログから、LMの粟床が盎線的に向䞊するず結論付けるこずができたす。 このむンゞケヌタヌの堎合、音声デヌタの貢献床は珟圚のWeb芁求の貢献床に察応したす。これは、4倍の音声デヌタを収集する堎合に限りたすWebデヌタの量よりも1桁少ない堎合でも。



画像

図 5. LMトレヌニングデヌタの皮類ず量の関数ずしおのパフォヌマンスむンゞケヌタヌ。



図5は、LMスピヌチトレヌニングデヌタの皮類Web、スピヌチ、組み合わせずサむズに応じた「askCityState」ダむアログの有効性を瀺しおいたす。 askCityStateは単玔なタスクであるため、盎線的には増えたせん。 ここで、音声デヌタはWebデヌタのように機胜し、倚くのメトリック完党な䜏所などを䜿甚しお、リク゚ストから郜垂ず州を分離するために倧幅に凊理されおいたす。 このような凊理を行わないず、Webデヌタは指暙の非垞に倧きな偏差を瀺したした。 音声ず凊理されたWebデヌタの組み合わせにより、最高品質の認識が提䟛されたす。 サむトおよび堎所のデヌタベヌスには、远加の利点はありたせんでした。



6.改善のための䞀般的な方向

このセクションでは、GOOG-411の経時的な進化の䞀般的な芋解を瀺したす。 統蚈モデルの倉曎、ナヌザヌむンタヌフェむスの倉曎、サヌビスの内郚構造の倉曎、゚ラヌの修正、䌑日などの倖郚むベントなど、倚くの芁因がこのサヌビスの䜿甚の構造に圱響したす。



画像

図 6.垞時パフォヌマンス指暙。



図6は時間認識機胜を瀺しおいたす。 各ROCは、異なるテストセットで収集されたしたセクション3で説明されおいるテスト抂念を参照。 これらの数倀は、過去7か月間で10の正確な認識率で、玄25向䞊したこずを瀺しおいたす。



画像

図 7.䞀時的な機胜ずしおの毎日の亀通



画像

図 8.経時的な成功率。



図7ず8は、1日あたりの着信コヌル数ず、1幎間の接続成功率を瀺しおいたす。 ここにいく぀かの興味深い点がありたす。 グラフのポむントAずBは、広告キャンペヌンを増やしたずきのトラフィックの増加を瀺しおいたす。 ポむントC-システムの䞀時的な䞭断。 䞡方のグラフのポむントEは、トラフィック量の倧幅な増加ず接続成功率の倧幅な䜎䞋を䌎うGOOG-411サヌビスの正匏な開始を瀺しおいたす。ナヌザヌはシステムを実隓しおおり、䌁業に到達しようずはしおいたせん。 ポむントDは、正匏なロヌンチ前の穏やかな期間に察応したす。サヌビスの広告掲茉を停止通話料金の枛少したため、加入者は䞻に予玄によりこのサヌビスに接続したナヌザヌでした接続成功のピヌク率。



成功した接続のグラフのポむントFは、ナヌザヌむンタヌフェむスでの実隓の開始を瀺しおおり、ナヌザヌぞの発行結果を枛らしたした。 これにより、人々は䌚瀟をより頻繁に呌び出すようになりたす。 ポむントGは、アメリカ党州ぞのサヌビスの配信を瀺したす。 かなりの数のリク゚ストに察しお発信者の䞀郚に誀った結果が提䟛された堎合、ポむントHは興味深い゚ラヌを瀺したす。 これは、正垞な接続の䜎䞋に反映されおいたした。 ポむントJおよびKは、テレフォニヌむンフラストラクチャの障害を瀺しおいたす。これは、接続の成功率の䜎䞋ずも関連しおいたす。 ポむントIは7月4日[独立蚘念日]であり、ナヌザヌはおそらくショッピングのためにビゞネスオブゞェクトに接続するこずに関心を持っおいたでしょう。

曲線をより詳现に分析できたす。 しかし、トラフィックのむンゞケヌタも接続むンゞケヌタも、むベントに関する驚くほど広範な偎面を反映し、システムの運甚ず開発を監芖するのに非垞に有甚であるずいう事実にもかかわらず、ナヌザヌに関するすべおを教えおくれないこずは明らかです。 曲線には、決定が困難な倚くの芁因の結果である倚くの障害がありたす。 これはオンラむン実隓を耇雑にしたす。 もちろん、ナヌザヌむンタヌフェむスのわずかな倉曎は可胜ですが、接続が成功したこずを瀺すむンゞケヌタぞの圱響は明確ではありたせんが、間違いなく最終的に衚瀺されたす。 これを行うには、より少数の指暙を芋぀けるこずに頌らなければならず、最終的には認識モデルを最適化するずきず同じように、すべおをより良い方向に行っおいるず信じなければなりたせん。



7.結論

そこで、反埩的なアプロヌチを䜿甚しお、音声ク゚リに基づいたかなり耇雑なシステムを䜜成、適甚、開発したした。 デヌタ、枬定倀に焊点を合わせ、システムを絶えず改善するこずにより、音声認識の粟床などの䜎レベルの指暙ず、ナヌザヌに関連する高レベルの特性を迅速に改善できるこずを瀺したした。 䞀般的に、補品スタック党䜓に自由にアクセスしお柔軟に倉曎できる機胜ず、増加するデヌタの安定したストリヌムを䜿甚できるこずが、時間ずずもにサヌビスを䞀貫しお改善するための重芁な芁因であるこずがわかりたした。



8.リンク



[1]「GOOG-411」 http://www.google.com/goog411



[2]「Googleマップ」 http://maps.google.com



[3] L. Boves等、Proc。の「自動ディレクトリ支揎のためのASRSMADAプロゞェクト」。 ASR、2000、pp。 249–254。



[4] N. Gupta et al。、「ATT音声蚀語理解システム」、IEEE Trans。 ASLP、2006、pp。 213–222。



[5] D. Yu et al。、「ディレクトリ支揎の自動化-理論から実践たで」Proc。 Interspeech、2007幎。



[6]「555 Tell」 http://www.tellme.com/products/TellmeByVoice 。



[7]「ラむブ怜玢411」 http://www.livesearch411.com



[8]「無料411」 http://www.free411.com 。



[9] S. Ghemawat et al。、Procの「The google file system」。 SIGOPS、2003、pp。 20–43。



[10] F. Chang他、「Bigtable構造化デヌタ甚の分散ストレヌゞシステム」Proc。 OSDI、2006、pp。 205〜218。



[11] MJFゲむルズ 「隠れマルコフモデルの準結合共分散行列」Proc。 IEEE Trans。 SAP、2000幎5月。



[12]「OpenFstラむブラリ」 http://www.openfst.org



[13] J.ディヌン他、「Mapreduce倧芏暡クラスタヌでのデヌタ凊理の簡玠化」、Proc。OSDI、2004、pp。137-150。



おそらく、完党を期すために、Bill ByrneがGoogleサヌビスの音声回線に぀いお語っおいるビデオぞのリンクを提䟛したす。



All Articles