✡️ 🚞 ⛓️ アプリケーションプログラマ向けのASRおよびTTSテクノロジ：理論上の最小値 🥣 👷🏻 💋

はじめに

過去数年にわたり、音声インターフェースはますます私たちを取り囲んでいます。かつて映画でしか見られなかった遠い未来についての話は、実在するものでした。携帯電話での音声の合成（Text To Speech-TTS）および認識（自動音声認識-ASR）のためのエンジンの埋め込みはすでに行われています。さらに、アプリケーションにASRとTTSを埋め込むための非常にアクセスしやすいAPIが登場しました。

これで、誰でも音声インターフェイスを備えたプログラムを作成できるようになります（エンジンの費用を支払うのに苦労しません）。このレビューは、特に既存のエンジン（たとえば、Nuance）の使用に専念し、それらの作成には専念しません。また、最初に音声インターフェイスに遭遇した各プログラマに必要な一般情報も提供されます。この記事は、音声テクノロジーを自社製品に統合することの実現可能性を評価しようとするプロジェクトマネージャーにとっても役立つ場合があります。

それでは始めましょう...

しかし、種のために-冗談：

グルジア語学校でのロシア語レッスン。

先生は次のように述べています。「子供たち、覚えておいてください。塩、豆、麺という言葉はソフトサインで、フォーク、バルク、プレートという言葉はソフトサインなしで書かれています。子どもたち、覚えて、理解するのは不可能だから！」

この冗談は、私にはとんでもないように見えました。今-むしろ人生。なぜそう今、私は説明しようとします...

1.音素

スピーチと言えば（すでにばかげている）、まず音素の概念に対処する必要があります。簡単に言えば、音素は、人が発音および認識できる独立した音です。しかし、この定義は確かに十分ではありません。多くの音を発音することができ、言語の音素のセットが限られているためです。もっと厳密に定義したいと思います。だから-あなたは言語学者に行く必要があります。悲しいかな、言語学者自身はそれが何であるかについて同意することはできません（そして彼らは本当にそれを必要としません）が、彼らはいくつかのアプローチを持っています。音素と意味を結び付けます。たとえば、英語版のWikiは、「意味の変化をもたらす可能性のある、対照的な最小の言語単位」と語っています。知覚を持つ他の人。そこで、私たちの同胞N. Trubetskoyは「音韻単位、この言語の観点から次々と続く短い音韻単位に分解できない音素単位」と書いています。そして、それと別の定義には、私たちにとって重要な明確化があります。一方では、音素を変更すると、単語の意味を変更することができます（そうする必要はありません）。したがって、「コード」と「猫」は2つの異なる単語として認識されます。一方、「museum」または「muse」と言っても意味は変わりません。あなたの対談者がどういうわけかあなたのアクセントを分類することができるということは可能ですか？音素の不可分性も重要です。しかし、Trubetskoyが正しく指摘したように、言語に依存する可能性があります。 1つの国籍の人が1つの音を聞く場合、他の人は2つの音を次々と聞くことができます。ただし、1つだけではなく、すべての言語に適した音声不変式が必要です。

2.音声アルファベット

1888年に何らかの形で定義を確定するために、 International Phonetic Alphabet （IPA）が作成されました。このアルファベットは、特定の言語に依存しないという点で優れています。つまりこれは、ほとんどすべての既存の（さらには死んだ）言語の音を発音して認識することができる「スーパーマン」のために設計されています。アルファベットIPAは、私たちの時代（2005年）まで徐々に変わりました。それは主にコンピューター以前の時代に作成されたため、哲学者は神が魂を置くように音を示す記号を描いた。もちろん、彼らはどういうわけかラテン系のアルファベットに焦点を合わせましたが、非常に、非常に条件付きで。その結果、IPA文字はUnicodeで使用できるようになりましたが、キーボードから入力するのは簡単ではありません。ここで読者は尋ねるかもしれません-なぜ人々はIPAを必要としますか？少なくとも発音どおりに綴られた単語の例はどこで見ることができますか？私の答えは、普通の人はIPAを知る必要がないということです。しかし、これらすべてにより、地理名、姓、固有名に関連する多くのWiki記事で非常に簡単に見ることができます。 IPAを知っていれば、なじみのない言語で特定の名前の正しい発音をいつでも確認できます。たとえば、フランス人として「パリ」と言いたいですか？そこに行きます-[paʁi]。

3.音声表記

気配りのあるウィキユーザーは、奇妙な表音アルファベットアイコンが角かっこ[mɐˈskva]の中にあること、時にはスラッシュの中にあることに気づくことができます-/ ˈlʌnd cann /。違いは何ですか？角括弧で、いわゆる狭い、または「狭い」転写。国内文学では、音声と呼ばれます。スラッシュでは、ブロードが書かれています。「広範囲」または音素転写。実用的な意味は次のとおりです。音声表記は非常に正確な発音を提供します。これはある意味で、話者のアクセントに関係なく理想的です。言い換えれば、音声表記を使用すると、「Cockneyはこの単語をそのように発音します」と言うことができます。音素転写はバリエーションを可能にします。そのため、同じエントリが//にあるオーストラリア英語とカナダ英語の発音は異なる場合があります。実際、狭い文字起こしでさえ簡単ではありません。つまり wawファイルからかなり離れています。男性、女性、子供の声は同じ音素を異なる方法で発音する。また、音声の一般的な速度、音量、および音声の基本ピッチは考慮されません。実際、これらの違いにより、音声の生成と認識のタスクは重要です。さらに本文では、特に明記されていない限り、狭い転写では常にIPAを使用します。同時に、IPAの直接使用を最小限に抑えるようにします。

4.言語

生きている自然言語には、それぞれ独自の音素セットがあります。より正確には、これはスピーチの特性です。一般的に言えば、言葉を発音することなく言語を知ることができるからです（聴覚障害者や愚かな者に言語を教える方法）。アルファベットが異なるように、言語の音声構成は異なります。したがって、言語の音声の複雑さも異なります。 2つのコンポーネントで構成されています。第一に、書記素を音素に変換することの難しさ（英語では「マンチェスター」と「リバプール」を読むことを覚えています）と、音自体（音素）を発音するのが難しいことです。通常、いくつの音素に言語が含まれていますか？数十個。幼少期から、ロシア語の発音は3ペニーのように単純であり、ヨーロッパの言語とは対照的に、すべてが書かれたとおりに読まれることが教えられました。もちろんだまされました！言葉が文字通りに書かれている通りに読んだ場合、彼らはあなたを理解しているが、常に真実であるとは限らない。しかし、彼らは確かにロシア人を数えません。さらに、ヨーロッパ人にとってストレスのような恐ろしいことが関係しています。神が意味を変えながら魂を自分の魂に乗せるように、冒頭（英語のように）または末尾（フランス語のように）に置くのではなく、単語全体にわたって私たちと歩きます。 D o rogiとdor o giは2つの異なる単語であり、品詞ですらあります。ロシア語の音素はいくつですか？ Nuanceには54個あります。比較のために、英語では45音素、フランス語では34音音素しかありません。貴族が数世紀前に習得するのが簡単な言語だと考えていたのは無意味ではありませんでした！もちろん、ロシア語はヨーロッパで最も難しい言語ではありませんが、そのうちの1つです（覚えておいてください、私はまだ文法について沈黙しています）。

5.X-SAMPAおよびLH +

人々が長い間キーボードから音声表記を導入したかったので、Unicodeが広く配布される前から、ASCIIテーブルの文字のみを使用できるようにする表記法が開発されました。これらの最も一般的な2つは、John Wells教授の創作であるX-SAMPAと、 Lernout＆Hauspieの内部形式であるLH +であり、その技術は後にNuance Communicationsによって購入されました。 X-SAMPAとLH +にはかなり大きな違いがあります。正式には、X-SAMPAは、特定の規則により、ASCIIのみを使用して同じIPA音素を記録できる表記法です。もう1つはLH +です。ある意味では、LH +は幅広い（音素的な）転写の類似体です。実際には、各言語で、同じLH +記号が異なるIPA音素を示すことがあります。一方で、それは良いことです。なぜなら、レコードは短縮され、考えられるすべてのIPA文字をエンコードする必要はありませんが、一方、あいまいさが生じます。また、IPAへの翻訳のたびに、連絡表を目の前に置いておく必要があります。ただし、最も悲しいことは、特定の言語の「音声」のみがLH +で録音された行を正しく発音できることです。

6.投票

いいえ、過去に悪いコードを書きすぎたプログラマーが頭の中でよく耳にする声ではありません。むしろ、ナビゲーターやその他のモバイルデバイスの所有者がトラッカーやファイルウォッシュで頻繁に検索する人についてです。これらの声にも名前があります。「Milena」と「Katerina」という言葉は、音声インターフェースの経験豊富なユーザーに多くのことを語っています。これは何？おおまかに言って、これらはコンピューターが音素を音に変換できるようにするさまざまな企業（Nuanceなど）によって準備されたデータセットです。声は女性と男性であり、多くの費用がかかります。プラットフォームと開発者によっては、音声ごとに2〜5000ドルを支払う必要がある場合があります。したがって、少なくとも5つの最も一般的なヨーロッパ言語でインターフェースを作成したい場合、請求書は数万に達する可能性があります。もちろん、私たちはソフトウェアインターフェースについて話している。そのため、音声は言語固有です。ここから音声表記への結合が始まります。これを最初に実現するのは簡単ではありませんが、記事の冒頭の冗談は本当の真実です。 1つの母国語を持つ人々は、通常、母国語にない別の音素を発音できません。さらに悪いことに、個々の音素だけでなく、それらの特定の組み合わせもあります。したがって、あなたの言語で単語がソフトな「l」で終わらない場合、（最初は）発音できません。

声でも同じこと。音声は、その言語の音素のみを発音するように設計されています。さらに-言語の特定の方言で。つまりカナダのフランス語とフランス語のフランス語の音声は、音が異なるだけでなく、発音された音素のセットも異なります。ちなみに、これはASRおよびTTSエンジンのメーカーにとって便利です。各言語は別々のお金で販売できます。一方、あなたはそれらを理解することができます。音声の作成は非常に時間がかかり、お金もかかります。おそらくこれがまさに、ほとんどの言語のオープンソースソリューションの市場がまだ広くない理由です。

すべてのIPA音素を発音できる「ユニバーサル」ボイスの作成を妨げるものはないように思われ、多言語インターフェイスの問題を解決します。しかし、何らかの理由で誰もそれをしません。ほとんどの場合、これは不可能です。つまり彼は言うことができますが、すべてのネイティブスピーカーは、発音の「自然さ」の欠如に不満を感じるでしょう。少し練習したイギリス人の口の中ではロシア語のように聞こえ、フランス人の口の中では英語のように聞こえます。したがって、多言語主義が必要な場合は、分岐する準備をしてください。

7. TTS APIの例

TTSでの作業プロセスが下位レベル（C ++を使用）でどのように見えるかを読者に示すために、Nuanceエンジンに基づく音声合成の例を示します。もちろん、これは不完全な例です。実行できるだけでなく、コンパイルすることもできますが、プロセスのアイデアを提供します。 TTS_Speak（）を除くすべての関数は、バインディングとして必要です。

TTS_Initialize（）-エンジンの初期化に役立ちます

TTS_Cleanup（）-初期化解除のため

TTS_SelectLanguage-言語を選択し、認識パラメーターを設定します。

TTS_Speak（）-実際にサウンドサンプルを生成します

TTS_Callback（）-他のイベントの場合と同様に、オーディオデータの次の部分の再生準備ができたときに呼び出されます。

TTSとそのバインディング

static const NUAN_TCHAR * _dataPathList[] = { __TEXT("\\lang\\"), __TEXT("\\tts\\"), }; static VPLATFORM_RESOURCES _stResources = { VPLATFORM_CURRENT_VERSION, sizeof(_dataPathList)/sizeof(_dataPathList[0]), (NUAN_TCHAR **)&_dataPathList[0], }; static VAUTO_INSTALL _stInstall = {VAUTO_CURRENT_VERSION}; static VAUTO_HSPEECH _hSpeech = {NULL, 0}; static VAUTO_HINSTANCE _hTtsInst = {NULL, 0}; static WaveOut * _waveOut = NULL; static WaveOutBuf * _curBuffer = NULL; static int _volume = 100; static int _speechRate = 0; // use default speech rate static NUAN_ERROR _Callback (VAUTO_HINSTANCE hTtsInst, VAUTO_OUTDEV_HINSTANCE hOutDevInst, VAUTO_CALLBACKMSG * pcbMessage, VAUTO_USERDATA UserData); static const TCHAR * _szLangTLW = NULL; static VAUTO_PARAMID _paramID[] = { VAUTO_PARAM_SPEECHRATE, VAUTO_PARAM_VOLUME }; static NUAN_ERROR _TTS_GetFrequency(VAUTO_HINSTANCE hTtsInst, short *pFreq) { NUAN_ERROR Error = NUAN_OK; VAUTO_PARAM TtsParam; /*-- get frequency used by current voicefont --*/ TtsParam.eID = VAUTO_PARAM_FREQUENCY; if (NUAN_OK != (Error = vauto_ttsGetParamList (hTtsInst, &TtsParam, 1)) ) { ErrorV(_T("vauto_ttsGetParamList rc=0x%1!x!\n"), Error); return Error; } switch(TtsParam.uValue.usValue) { case VAUTO_FREQ_8KHZ: *pFreq = 8000; break; case VAUTO_FREQ_11KHZ: *pFreq = 11025; break; case VAUTO_FREQ_16KHZ: *pFreq = 16000; break; case VAUTO_FREQ_22KHZ: *pFreq = 22050; break; default: break; } return NUAN_OK; } int TTS_SelectLanguage(int langId) { NUAN_ERROR nrc; VAUTO_LANGUAGE arrLanguages[16]; VAUTO_VOICEINFO arrVoices[4]; VAUTO_SPEECHDBINFO arrSpeechDB[4]; NUAN_U16 nLanguageCount, nVoiceCount, nSpeechDBCount; nLanguageCount = sizeof(arrLanguages)/sizeof(arrLanguages[0]); nVoiceCount = sizeof(arrVoices) /sizeof(arrVoices[0]); nSpeechDBCount = sizeof(arrSpeechDB)/sizeof(arrSpeechDB[0]); int nVoice = 0, nSpeechDB = 0; nrc = vauto_ttsGetLanguageList( _hSpeech, &arrLanguages[0], &nLanguageCount); if(nrc != NUAN_OK){ TTS_ErrorV(_T("vauto_ttsGetLanguageList rc=0x%1!x!\n"), nrc); return 0; } if(nLanguageCount == 0 || nLanguageCount<=langId){ TTS_Error(_T("vauto_ttsGetLanguageList: No proper languages found.\n")); return 0; } _szLangTLW = arrLanguages[langId].szLanguageTLW; NUAN_TCHAR* szLanguage = arrLanguages[langId].szLanguage; nVoice = 0; // select first voice; NUAN_TCHAR* szVoiceName = arrVoices[nVoice].szVoiceName; nSpeechDB = 0; // select first speech DB { VAUTO_PARAM stTtsParam[7]; int cnt = 0; // language stTtsParam[cnt].eID = VAUTO_PARAM_LANGUAGE; _tcscpy(stTtsParam[cnt].uValue.szStringValue, szLanguage); cnt++; // voice stTtsParam[cnt].eID = VAUTO_PARAM_VOICE; _tcscpy(stTtsParam[cnt].uValue.szStringValue, szVoiceName); cnt++; // speechbase parameter - frequency stTtsParam[cnt].eID = VAUTO_PARAM_FREQUENCY; stTtsParam[cnt].uValue.usValue = arrSpeechDB[nSpeechDB].u16Freq; cnt++; // speechbase parameter - reduction type stTtsParam[cnt].eID = VAUTO_PARAM_VOICE_MODEL; _tcscpy(stTtsParam[cnt].uValue.szStringValue, arrSpeechDB[nSpeechDB].szVoiceModel); cnt++; if (_speechRate) { // Speech rate stTtsParam[cnt].eID = VAUTO_PARAM_SPEECHRATE; stTtsParam[cnt].uValue.usValue = _speechRate; cnt++; } if (_volume) { // Speech volume stTtsParam[cnt].eID = VAUTO_PARAM_VOLUME; stTtsParam[cnt].uValue.usValue = _volume; cnt++; } nrc = vauto_ttsSetParamList(_hTtsInst, &stTtsParam[0], cnt); if(nrc != NUAN_OK){ ErrorV(_T("vauto_ttsSetParamList rc=0x%1!x!\n"), nrc); return 0; } } return 1; } int TTS_Initialize(int defLanguageId) { NUAN_ERROR nrc; nrc = vplatform_GetInterfaces(&_stInstall, &_stResources); if(nrc != NUAN_OK){ Error(_T("vplatform_GetInterfaces rc=%1!d!\n"), nrc); return 0; } nrc = vauto_ttsInitialize(&_stInstall, &_hSpeech); if(nrc != NUAN_OK){ Error(_T("vauto_ttsInitialize rc=0x%1!x!\n"), nrc); TTS_Cleanup(); return 0; } nrc = vauto_ttsOpen(_hSpeech, _stInstall.hHeap, _stInstall.hLog, &_hTtsInst, NULL); if(nrc != NUAN_OK){ ErrorV(_T("vauto_ttsOpen rc=0x%1!x!\n"), nrc); TTS_Cleanup(); return 0; } // Ok, time to select language if(!TTS_SelectLanguage(defLanguageId)){ TTS_Cleanup(); return 0; } // init Wave out device { short freq; if (NUAN_OK != _TTS_GetFrequency(_hTtsInst, &freq)) { TTS_ErrorV(_T("_TTS_GetFrequency rc=0x%1!x!\n"), nrc); TTS_Cleanup(); return 0; } _waveOut = WaveOut_Open(freq, 1, 4); if (_waveOut == NULL){ TTS_Cleanup(); return 0; } } // init TTS output { VAUTO_OUTDEVINFO stOutDevInfo; stOutDevInfo.hOutDevInstance = _waveOut; stOutDevInfo.pfOutNotify = TTS_Callback; // Notify using callback! nrc = vauto_ttsSetOutDevice(_hTtsInst, &stOutDevInfo); if(nrc != NUAN_OK){ ErrorV(_T("vauto_ttsSetOutDevice rc=0x%1!x!\n"), nrc); TTS_Cleanup(); return 0; } } // OK TTS engine initialized return 1; } void TTS_Cleanup(void) { if(_hTtsInst.pHandleData){ vauto_ttsStop(_hTtsInst); vauto_ttsClose(_hTtsInst); } if(_hSpeech.pHandleData){ vauto_ttsUnInitialize(_hSpeech); } if(_waveOut){ WaveOut_Close(_waveOut); _waveOut = NULL; } vplatform_ReleaseInterfaces(&_stInstall); memset(&_stInstall, 0, sizeof(_stInstall)); _stInstall.fmtVersion = VAUTO_CURRENT_VERSION; } int TTS_Speak(const TCHAR * const message, int length) { VAUTO_INTEXT stText; stText.eTextFormat = VAUTO_NORM_TEXT; stText.szInText = (void*) message; stText.ulTextLength = length * sizeof(NUAN_TCHAR); TraceV(_T("TTS_Speak: %1\n"), message); NUAN_ERROR rc = vauto_ttsProcessText2Speech(_hTtsInst, &stText); if (rc == NUAN_OK) { return 1; } if (rc == NUAN_E_TTS_USERSTOP) { return 2; } ErrorV(_T("vauto_ttsProcessText2Speech rc=0x%1!x!\n"), rc); return 0; } static NUAN_ERROR TTS_Callback (VAUTO_HINSTANCE hTtsInst, VAUTO_OUTDEV_HINSTANCE hOutDevInst, VAUTO_CALLBACKMSG * pcbMessage, VAUTO_USERDATA UserData) { VAUTO_OUTDATA * outData; switch(pcbMessage->eMessage){ case VAUTO_MSG_BEGINPROCESS: WaveOut_Start(_waveOut); break; case VAUTO_MSG_ENDPROCESS: break; case VAUTO_MSG_STOP: break; case VAUTO_MSG_OUTBUFREQ: outData = (VAUTO_OUTDATA *)pcbMessage->pParam; memset(outData, 0, sizeof(VAUTO_OUTDATA)); { WaveOutBuf * buf = WaveOut_GetBuffer(_waveOut); if(buf){ VAUTO_OUTDATA * outData = (VAUTO_OUTDATA *)pcbMessage->pParam; outData->eAudioFormat = VAUTO_16LINEAR; outData->pOutPcmBuf = WaveOutBuf_Data(buf); outData->ulPcmBufLen = WaveOutBuf_Size(buf); _curBuffer = buf; break; } TTS_Trace(_T("VAUTO_MSG_OUTBUFREQ: processing was stopped\n")); } return NUAN_E_TTS_USERSTOP; case VAUTO_MSG_OUTBUFDONE: outData = (VAUTO_OUTDATA *)pcbMessage->pParam; WaveOutBuf_SetSize(_curBuffer, outData->ulPcmBufLen); WaveOut_PutBuffer(_waveOut, _curBuffer); _curBuffer = NULL; break; default: break; } return NUAN_OK; }

読者が気づくかもしれませんが、コードはかなり面倒で、単純な（一見）機能には多数のプリセットが必要です。悲しいかな、これはエンジンの柔軟性の裏返しです。もちろん、他の言語用の他のエンジンのAPIは、はるかにシンプルからコンパクトにできます。

8.再び音素

APIを見ると、読者が尋ねる場合があります-TTS（Text-To-Speech）がテキストを音声に直接変換できる場合、なぜ音素が必要なのでしょうか。可能ですが、「しかし」が1つあります。エンジンになじみのある単語は、音声に変換されます。「なじみのない」という言葉は状況をさらに悪化させます。地名、固有名詞など。これは、たとえばロシアなどの多国籍国で特に顕著です。土地の永遠に6分の1の領域にある都市や町の名前は、異なる人々、異なる言語、異なる時間に与えられました。ロシア文字でそれらを綴る必要性は、各国語で悪い冗談を演じました。タタール語、ネネツ語、アブハジア語、カザフ語、ヤクート語、ブリャト語の音素は、ロシア語のプロクラス階のベッドに絞り込まれました。そこには、多くの音素がありますが、それでも前の連合の人々のすべての言語を伝えるだけでは十分ではありません。しかし、さらに悪いことに、表音記録が少なくとも元のものとある程度類似している場合、TTSエンジンを読むと「Kuchuk-Kainardzhi」のような名前は笑い声にすぎません。

しかし、これはロシア語の問題に過ぎないと考えるのは単純です。人口の点でより均質な国にも同様の困難が存在します。そのため、フランス語では、単語の最後にある文字p、b、d、t、sは通常読まれません。しかし、地名を付けると、地元の伝統がここで発効します。そのため、最後の「パリ」という言葉は実際には発音されず、「ヴァリリス」という言葉では-逆もまた同様です。違いは、パリはフランスの北に位置し、ヴァロリスは南のプロヴァンスにあり、発音規則が多少異なることです。そのため、単語の音声転写が必要です。通常、カードには付属しています。確かに、形式の統一は観察されません。そのため、NavTeqは伝統的にX-SAMPAトランスクリプションとTomTom-LH +を使用します。 TTSエンジンが両方を受け入れている場合、そうでない場合はどうでしょうか？ここであなたは変態しなければなりません。たとえば、ある文字起こしを別の文字変換に変換することは、それ自体では簡単ではありません。音声情報がまったくない場合、エンジンにはそれを取得するための独自のメソッドがあります。 Nuanceエンジンについて言えば、「データ駆動型書記素から音素」（DDG2P）および「共通言語コンポーネント」（CLC）です。ただし、これらのオプションの使用はすでに極端な手段です。

9.特別なシーケンス

Nuanceには、テキストまたは音声記録を発音する機能だけでなく、それらを動的に切り替える機能もあります。これを行うには、次の形式のエスケープシーケンスを使用します。<ESC> / +

一般に、エスケープシーケンスを使用して、多くのパラメーターを指定できます。一般的な形式では、次のようになります。

                                          <ESC> \ <param> = <値> \

例えば

\ x1b \ rate = 110 \-発音速度を設定します

\ x1b \ vol = 5 \-ボリュームを設定します

\ x1b \ audio = "beep.wav" \-wavファイルのデータをオーディオストリームに挿入します。

同様に、エンジンのスペルを単語にしたり、ポーズを挿入したり、音声を変更したり（たとえば、男性から女性に）することができます。もちろん、すべてのシーケンスが便利なわけではありませんが、全体的に非常に便利な機能です。

10.辞書

特定の単語セットを特定の方法（略語、略語、固有名詞など）で発音しなければならない場合がありますが、それぞれの場合にテキストを音声表記に置き換える必要があります（これは常に可能とは限りません）。この場合、辞書が助けになります。 Nuance用語集の辞書とは何ですか？これは、ペアのセットを持つファイルです：<text> <transcription>。このファイルはコンパイルされ、エンジンによってロードされます。発音時に、エンジンは単語/テキストが辞書に存在するかどうかを確認し、存在する場合は、音声表記に置き換えます。たとえば、バチカンの街路や広場の名前を含む辞書。

 [ヘッダー]
名前=バチカーノ
言語= ITI
コンテンツ= EDCT_CONTENT_BROAD_NARROWS
表現= EDCT_REPR_SZZ_STRING
 [データ]
 「コロンゴナート」// 'lar.go_del_ko.lo.'n：a.to
 「Piazza del Governatorato」//「pja.t＆s：a_del_go.ver.na.to.'ra.to
 "Piazza della Stazione" // 'pja.t＆s：a_de.l：a_sta.'t＆s：jo.ne
 「サンタマルタ広場」// 'pja.t＆s：a_di_'san.ta_'mar.ta
 「サンピエトロ広場」// 'pja.t＆s：a_'sam_'pjE.tro
 「PiazzettaChâteauneufDu Pape」// pja.'t＆s：et：a_Sa.to.'nef_du_'pap
 「サリタ・アイ・ジャルディーニ」// sa.'li.ta_aj_d＆Zar.'di.ni
 「ストラドンデイジャルディーニ」// stra.'do.ne_dej_d＆Zar.'di.ni
 「Via dei Pellegrini」// 'vi.a_dej_pe.l：e.'gri.ni
 「フォンダメント通り」// 'vi.a_del_fon.da.'men.to
 「Via del Governatorato」// 'vi.a_del_go.ver.na.to.'ra.to
 「Via della Posta」// 'vi.a_de.l：a_'pOs.ta
 「Vatica della Stazione Vaticana」// 'vi.a_de.l：a_sta.'t＆s：jo.ne_va.ti.'ka.na
 「Via della Tipografia」// 'vi.a_de.l：a_ti.po.gra.'fi.a
 「ヴィアディポルタアンジェリカ」// 'vi.a_di_'pOr.ta_an.'d＆ZE.li.ka
 「Via Tunica」// 'vi.a_'tu.ni.ka
 "Viale Centro del Bosco" // vi.'a.le_'t＆SEn.tro_del_'bOs.ko
 「Viard del Giardino Quadrato」// vi.'a.le_del_d＆Zar.'di.no_kwa.'dra.to
 「Viatic Vaticano」// vi.'a.le_va.ti.'ka.no

11.認識

音声認識は、その合成よりもさらに困難です。シンセサイザーが古き良き時代に何らかの形で機能していれば、賢明な認識は今しか利用できなくなりました。いくつかの理由があります。最初の理由は、なじみのない言語に直面している普通の生きている人の問題に非常に似ています。2番目の理由は、なじみのない地域のテキストとの衝突です。

私たちは声を思い出させる音の振動を知覚し、まずそれを音素に分割し、形成しなければならない身近な音を言葉に分離しようとします。言語が馴染みのある場合、これは簡単に取得できますが、そうでない場合は、音声を音素に「正しく」分解することさえできません（「Alla、I'm at the bar！」に関する話を思い出してください）。私たちが聞くところでは、話す人は完全に異なっています。これは、長年にわたり、私たちの脳が特定の音素で「訓練」されており、時間とともにそれらだけを知覚することに慣れているためです。なじみのない音に出会い、彼は自分が聞いたものに最も近い母国語[言語]の音素を選択しようとします。ある意味では、これはCELPなどの音声コーデックで使用されるベクトル量子化手法に似ています。そのような近似が成功するという事実ではありません。そのため、「快適な」音素は「便利」になります。

ソ連に戻って、学校で勉強している間、そして外国人と会うとき、私たちの名前を「音訳」しようとしたことを覚えておいてください。

ボリス・ペトロフの名前

先生たちは私たちをscり、なぜあなたの名前を歪めたのですか彼はこれを理解すると思いますか？ロシア語を話そう！

悲しいかな、ここでも彼らは私たちを欺いたり、間違えたりしました...もしあなたが英語/ドイツ語/中国語であなたの名前を発音することができれば、それはネイティブスピーカーがそれを知覚することは本当に簡単です。中国人はこれをかなり前に理解し、西洋のパートナーと通信するために自分自身のために特別な「ヨーロッパ」の名前を取りました。機械認識では、特定の言語はいわゆる音響モデルによって記述されます。テキストを認識する前に、特定の言語の音響モデルをロードする必要があります。これにより、入力時にテキストを待機する音素をプログラムに明確にする必要があります。

2番目の問題も同様に複雑です。生きている人との類推に戻りましょう。対話者の話を聞いて、私たちは無意識のうちに彼が次に言うことのモデルを頭の中に構築します。言い換えれば、会話のコンテキストを作成します。そして、文脈から外れた言葉を物語に突然挿入すると（例えば、サッカーに関しては「インボリュート」）、対談者に認知的不協和を引き起こす可能性があります。大雑把に言えば、コンピューターではこの非常に不協和音が絶えず発生します。なぜなら、彼は人に何を期待するのかわからないからです。人にとっては簡単です。対談者に再度尋ねることができます。コンピューターは何をすべきですか？この問題を解決し、コンピューターに正しいコンテキストを与えるために、文法が使用されます。

12.文法

文法（通常はBNFの形式で与えられます）は、コンピューター（より正確にはASRエンジン）に、この特定の瞬間にユーザーに期待することのアイデアを与えるだけです。通常、これらは「または」を介して組み合わされたいくつかの選択肢ですが、より複雑な文法も可能です。カザンの地下鉄駅を選択するための文法の例を次に示します。

 ＃BNF + EM V1.0;
 ！文法テスト。
 ！start <metro_KAZAN_stations>;
 <metro_KAZAN_stations>：
 "Ametyevo"！Id（0）！発音（ "^。 'M％je.t％jjI.vo-"）|
 「航空機」！Id（1）！発音（ "^ v％jI'astro-'it％jIl％jno-j ^"）|
 "Slides"！Id（2）！発音（ "'gor.k％jI"）|
 「ヤギ定住」！Id（3）！発音（ "'ko.z％jj ^ _slo-.b ^。' Da"）|
 "Kremlin"！Id（4）！発音（ "kr％jIm.'l％jof.sko-.j ^"）|
 "Gabdulla Tukay Square"！Id（5）！発音（ "'plo.S％jIt％j_go-.bdu.'li0_'tu.ko-.j ^"）|
 Victory Avenue！Id（6）！発音（ "pr ^。 'Sp％jekt_p ^。' B％je.di0"）|
北駅！Id（7）！発音（ "'s％je.v％jIr.ni0j_v ^ g.'zal"）|
 「布地決済」！Id（8）！発音（ "'su.ko-.no-.j ^ _slo-.b ^。' Da"）|
 "Yashlek"！Id（9）！発音（ "ja.'Sl％jek"）;

ご覧のとおり、各行は選択肢の1つであり、実際のテキスト、整数ID、音素で構成されています。音素は一般にオプションですが、それにより認識がより正確になります。

文法はどれくらい大きくできますか？十分に大きい。私たちの実験では、37000の代替案が許容レベルで認識されているとします。複雑で分岐した文法では事態はさらに悪化します。認識時間が長くなり、品質が低下し、文法の長さへの依存は非線形です。したがって、私のアドバイスは複雑な文法を避けることです。とにかく、さようなら。

文法（およびコンテキスト）は静的および動的です。静的文法の例をすでに見ました;事前にコンパイルされ、エンジンの内部バイナリ表現に保存されます。ただし、ユーザーの操作中にコンテキストが変わる場合があります。ナビゲーションの典型的な例は、最初の文字による都市の選択です。ここで認識の可能なオプションのセットは、それぞれの文字が入力されるたびに変化します。認識コンテキストは常に再構築する必要があります。これらの目的のために、動的コンテキストが使用されます。大まかに言えば、プログラマーは文法を「オンザフライ」でコンパイルし、プログラムの実行中にそれらをエンジンにパームします。もちろん、モバイルデバイスについて話している場合、処理速度はあまり高くないため、ユーザーインターフェイスがフリーズしないように、小さな文法（約100語）に制限する必要があります。

13. ASR APIの例

テキスト認識は、合成ほど簡単ではありません。ユーザーがマイクの前で静かになっている場合、周囲のノイズを認識する必要があります。「ehhhhhh」などと言ったら、認識も失敗する可能性があります。最良の場合、ASRは通常、一連のオプション（仮説とも呼ばれる）を返します。各仮説には一定の重みがあります。文法が大きい場合、認識オプションは非常に多くなります。この場合、仮説（たとえば、信頼性の降順で最初の5つ）を連続的に述べ、ユーザーにそれらの1つを選択するように依頼することは理にかなっています。理想的には、短い文法（ "yes" | "no"）で、信頼性の高いインジケータを持つ1つのオプションを返します。

次の例には、次の関数が含まれています。

ConstructRecognizer（）-「認識」を作成し、そのパラメーターを構成します

DestroyRecognizer（）-「認識」を破棄します

ASR_Initialize（）-ASRエンジンを初期化します

ASR_UnInitialize（）-ASRエンジンの初期化を解除します

evt_HandleEvent-「認識」スレッドによって生成されたイベントを処理します

ProcessResult（）-認識結果を出力します

ASRとそのバインディング

 typedef struct RECOG_OBJECTS_S { void *pHeapInst; // Pointer to the heap. const char *acmod; // path to acmod data const char *ddg2p; // path to ddg2p data const char *clc; // path to clc data const char *dct; // path to dct data const char *dynctx; // path to empty dyn ctx data LH_COMPONENT hCompBase; // Handle to the base component. LH_COMPONENT hCompAsr; // Handle to the ASR component. LH_COMPONENT hCompPron; // Handle to the pron component (dyn ctx) LH_OBJECT hAcMod; // Handle to the AcMod object. LH_OBJECT hRec; // Handle to the SingleThreadedRec Object LH_OBJECT hLex; // Handle to lexicon object (dyn ctx) LH_OBJECT hDdg2p; // Handle to ddg2p object (dyn ctx) LH_OBJECT hClc; // Handle to the CLC (DDG2P backup) LH_OBJECT hDct; // Handle to dictionary object (dyn ctx) LH_OBJECT hCache; // Handle to cache object (dyn ctx) LH_OBJECT hCtx[5]; // Handle to the Context object. LH_OBJECT hResults[5]; // Handle to the Best results object. ASRResult *results[5]; // recognition results temporary storage LH_OBJECT hUswCtx; // Handle to the UserWord Context object. LH_OBJECT hUswResult; // Handle to the UserWord Result object. unsigned long sampleFreq; // Sampling frequency. unsigned long frameShiftSamples; // Size of one frame in samples int requestCancel; // boolean indicating user wants to cancel recognition // used to generate transcriptions for dyn ctx LH_BNF_TERMINAL *pTerminals; unsigned int terminals_count; unsigned int *terminals_transtype; // array with same size as pTerminals; each value indicates the type of transcription in pTerminal: user-provided, from_ddg2p, from_dct, from_clc SLOT_TERMINAL_LIST *pSlots; unsigned int slots_count; // reco options int isNumber; // set to 1 when doing number recognition const char * UswFile; // path to file where userword should be recorded char * staticCtxID; } RECOG_OBJECTS; // store ASR objects static RECOG_OBJECTS recogObjects; static int ConstructRecognizer(RECOG_OBJECTS *pRecogObjects, const char *szAcModFN, const char * ddg2p, const char * clc, const char * dct, const char * dynctx) { LH_ERROR lhErr = LH_OK; PH_ERROR phErr = PH_OK; ST_ERROR stErr = ST_OK; LH_ISTREAM_INTERFACE IStreamInterface; void *pIStreamAcMod = NULL; LH_ACMOD_INFO *pAcModInfo; LH_AUDIOCHAINEVENT_INTERFACE EventInterface; /* close old objects */ if(!lh_ObjIsNull(pRecogObjects->hAcMod)){ DestroyRecognizer(pRecogObjects); } pRecogObjects->sampleFreq = 0; pRecogObjects->requestCancel = 0; pRecogObjects->pTerminals = NULL; pRecogObjects->terminals_count = 0; pRecogObjects->pSlots = NULL; pRecogObjects->slots_count = 0; pRecogObjects->staticCtxID = NULL; pRecogObjects->acmod = szAcModFN; pRecogObjects->ddg2p = ddg2p; pRecogObjects->clc = clc; pRecogObjects->dct = dct; pRecogObjects->dynctx = dynctx; EventInterface.pfevent = evt_HandleEvent; EventInterface.pfadvance = evt_Advance; // Create the input stream for the acoustic model. stErr = st_CreateStreamReaderFromFile(szAcModFN, &IStreamInterface, &pIStreamAcMod); if (ST_OK != stErr) goto error; // Create the AcMod object. lhErr = lh_CreateAcMod(pRecogObjects->hCompAsr, &IStreamInterface, pIStreamAcMod, NULL, &(pRecogObjects->hAcMod)); if (LH_OK != lhErr) goto error; // Retrieve some information from the AcMod object. lhErr = lh_AcModBorrowInfo(pRecogObjects->hAcMod, &pAcModInfo); if (LH_OK != lhErr) goto error; pRecogObjects->sampleFreq = pAcModInfo->sampleFrequency; pRecogObjects->frameShiftSamples = pAcModInfo->frameShift * pRecogObjects->sampleFreq/1000; // Create a SingleThreadRec object lhErr = lh_CreateSingleThreadRec(pRecogObjects->hCompAsr, &EventInterface, pRecogObjects, 3000, pRecogObjects->sampleFreq, pRecogObjects->hAcMod, &pRecogObjects->hRec); if (LH_OK != lhErr) goto error; // cretae DDG2P & lexicon for dyn ctx if (pRecogObjects->ddg2p) { int rc = InitDDG2P(pRecogObjects); if (rc<0) goto error; } else if (pRecogObjects->clc) { int rc = InitCLCandDCT(pRecogObjects); if (rc<0) goto error; } else { // TODO: what now? } // Return without errors. return 0; error: // Print an error message if the error comes from the private heap or stream component. // Errors from the VoCon3200 component have been printed by the callback. if (PH_OK != phErr) { printf("Error from the private heap component, error code = %d.\n", phErr); } if (ST_OK != stErr) { printf("Error from the stream component, error code = %d.\n", stErr); } return -1; } static int DestroyRecognizer(RECOG_OBJECTS *pRecogObjects) { unsigned int curCtx; if (!lh_ObjIsNull(pRecogObjects->hUswResult)){ lh_ObjClose(&pRecogObjects->hUswResult); pRecogObjects->hUswResult = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hUswCtx)){ lh_ObjClose(&pRecogObjects->hUswCtx); pRecogObjects->hUswCtx = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hDct)){ lh_ObjClose(&pRecogObjects->hDct); pRecogObjects->hDct = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hCache)){ lh_ObjClose(&pRecogObjects->hCache); pRecogObjects->hCache = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hClc)){ lh_ObjClose(&pRecogObjects->hClc); pRecogObjects->hClc = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hLex)){ lh_LexClearG2P(pRecogObjects->hLex); lh_ObjClose(&pRecogObjects->hLex); pRecogObjects->hLex = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hDdg2p)){ lh_DDG2PClearDct (pRecogObjects->hDdg2p); lh_ObjClose(&pRecogObjects->hDdg2p); pRecogObjects->hDdg2p = lh_GetNullObj(); } for(curCtx=0; curCtx<sizeof(recogObjects.hCtx)/sizeof(recogObjects.hCtx[0]); curCtx++){ if (!lh_ObjIsNull(pRecogObjects->hCtx[curCtx])){ lh_RecRemoveCtx(pRecogObjects->hRec, pRecogObjects->hCtx[curCtx]); lh_ObjClose(&pRecogObjects->hCtx[curCtx]); pRecogObjects->hCtx[curCtx] = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hResults[curCtx])){ lh_ObjClose(&pRecogObjects->hResults[curCtx]); pRecogObjects->hResults[curCtx] = lh_GetNullObj(); } } if (!lh_ObjIsNull(pRecogObjects->hRec)){ lh_ObjClose(&pRecogObjects->hRec); pRecogObjects->hRec = lh_GetNullObj(); } if (!lh_ObjIsNull(pRecogObjects->hAcMod)){ lh_ObjClose(&pRecogObjects->hAcMod); pRecogObjects->hAcMod = lh_GetNullObj(); } return 0; } int ASR_Initialize(const char * acmod, const char * ddg2p, const char * clc, const char * dct, const char * dynctx) { int rc = 0; size_t curCtx; LH_HEAP_INTERFACE HeapInterface; // Initialization of all handles. recogObjects.pHeapInst = NULL; recogObjects.hCompBase = lh_GetNullComponent(); recogObjects.hCompAsr = lh_GetNullComponent(); recogObjects.hCompPron = lh_GetNullComponent(); recogObjects.hAcMod = lh_GetNullObj(); for(curCtx=0; curCtx<sizeof(recogObjects.hCtx)/sizeof(recogObjects.hCtx[0]); curCtx++){ recogObjects.hCtx[curCtx] = lh_GetNullObj(); recogObjects.hResults[curCtx] = lh_GetNullObj(); } recogObjects.hRec = lh_GetNullObj(); recogObjects.hLex = lh_GetNullObj(); recogObjects.hDdg2p = lh_GetNullObj(); recogObjects.hClc = lh_GetNullObj(); recogObjects.hCache = lh_GetNullObj(); recogObjects.hDct = lh_GetNullObj(); recogObjects.hUswCtx = lh_GetNullObj(); recogObjects.hUswResult = lh_GetNullObj(); recogObjects.sampleFreq = 0; recogObjects.requestCancel = 0; recogObjects.pTerminals = NULL; recogObjects.terminals_count= 0; recogObjects.pSlots = NULL; recogObjects.slots_count = 0; recogObjects.staticCtxID = NULL; // Construct all components and objects needed for recognition. // Connect the audiochain objects. if (acmod) { // initialize components // Create a base and an ASR component. (+pron for dyn ctx) if(LH_OK != lh_InitBase(&HeapInterface, recogObjects.pHeapInst, LhErrorCallBack, NULL, &recogObjects.hCompBase)) goto error; if(LH_OK != lh_InitAsr(recogObjects.hCompBase, &HeapInterface, recogObjects.pHeapInst, &recogObjects.hCompAsr)) goto error; if(LH_OK != lh_InitPron(recogObjects.hCompBase, &HeapInterface, recogObjects.pHeapInst, &recogObjects.hCompPron)) goto error; rc = ConstructRecognizer(&recogObjects, acmod, ddg2p, clc, dct, dynctx); if (rc<0) goto error; } return rc; error: // An error occured. Close the engine. CloseOnError(&recogObjects); return -1; } int ASR_UnInitialize(void) { int rc; // Disconnects the audiochain objects. // Closes all objects and components of the vocon recognizer. rc = DestroyRecognizer(&recogObjects); // Close the PRON component. lh_ComponentTerminate(&recogObjects.hCompPron); // Close the ASR and Base component. lh_ComponentTerminate(&recogObjects.hCompAsr); lh_ComponentTerminate(&recogObjects.hCompBase); return 0; } int evt_HandleEvent(void *pEvtInst, unsigned long type, LH_TIME timeMs) { RECOG_OBJECTS *pRecogObjects = (RECOG_OBJECTS*)pEvtInst; if ( type & LH_AUDIOCHAIN_EVENT_BOS ){ // ask upper level for beep printf ("Receiving event LH_AUDIOCHAIN_EVENT_BOS at time %d ms.\n", timeMs); } if ( type & LH_AUDIOCHAIN_EVENT_TS_FX ) { printf ("Receiving event LH_AUDIOCHAIN_EVENT_TS_FX at time %d ms.\n", timeMs); } if ( type & LH_AUDIOCHAIN_EVENT_TS_REC ) { printf ("Receiving event LH_AUDIOCHAIN_EVENT_TS_REC at time %d ms.\n", timeMs); } if ( type & LH_AUDIOCHAIN_EVENT_FX_ABNORMCOND ) { LH_ERROR lhErr = LH_OK; LH_FX_ABNORMCOND abnormCondition; printf ("Receiving event LH_AUDIOCHAIN_EVENT_FX_ABNORMCOND at time %d ms.\n", timeMs); // Find out what the exact abnormal condition is. lhErr = lh_FxGetAbnormCondition(pRecogObjects->hRec, &abnormCondition); if (LH_OK != lhErr) goto error; switch (abnormCondition) { case LH_FX_BADSNR: printf ("Abnormal condition: LH_FX_BADSNR.\n"); break; case LH_FX_OVERLOAD: printf ("Abnormal condition: LH_FX_OVERLOAD.\n"); break; case LH_FX_TOOQUIET: printf ("Abnormal condition: LH_FX_TOOQUIET.\n"); break; case LH_FX_NOSIGNAL: printf ("Abnormal condition: LH_FX_NOSIGNAL.\n"); break; case LH_FX_POORMIC: printf ("Abnormal condition: LH_FX_POORMIC.\n"); break; case LH_FX_NOLEADINGSILENCE: printf ("Abnormal condition: LH_FX_NOLEADINGSILENCE.\n"); break; } } // LH_AUDIOCHAIN_EVENT_FX_TIMER // It usually is used to get the signal level and SNR at regular intervals. if ( type & LH_AUDIOCHAIN_EVENT_FX_TIMER ) { LH_ERROR lhErr = LH_OK; LH_FX_SIGNAL_LEVELS SignalLevels; printf ("Receiving event LH_AUDIOCHAIN_EVENT_FX_TIMER at time %d ms.\n", timeMs); lhErr = lh_FxGetSignalLevels(pRecogObjects->hRec, &SignalLevels); if (LH_OK != lhErr) goto error; printf ("Signal level: %ddB, SNR: %ddB at time %dms.\n", SignalLevels.energy, SignalLevels.SNR, SignalLevels.timeMs); } // LH_AUDIOCHAIN_EVENT_RESULT if ( type & LH_AUDIOCHAIN_EVENT_RESULT ){ LH_ERROR lhErr = LH_OK; LH_OBJECT hNBestRes = lh_GetNullObj(); LH_OBJECT hCtx = lh_GetNullObj(); printf ("Receiving event LH_AUDIOCHAIN_EVENT_RESULT at time %d ms.\n", timeMs); // Get the NBest result object and process it. lhErr = lh_RecCreateResult (pRecogObjects->hRec, &hNBestRes); if (LH_OK == lhErr) { if (LH_OK == lh_ResultBorrowSourceCtx(hNBestRes, &hCtx)){ int i; int _ready = 0; for(i=0; i<sizeof(pRecogObjects->hCtx)/sizeof(pRecogObjects->hCtx[0]); i++){ if(!lh_ObjIsNull(pRecogObjects->hCtx[i])){ if(hCtx.pObj == pRecogObjects->hCtx[i].pObj){ if(!lh_ObjIsNull(pRecogObjects->hResults[i])){ lh_ObjClose(&pRecogObjects->hResults[i]); } pRecogObjects->hResults[i] = hNBestRes; hNBestRes = lh_GetNullObj(); _ready = 1; break; } } else { break; } } if (_ready) { for (i=0; i<sizeof(pRecogObjects->hCtx)/sizeof(pRecogObjects->hCtx[0]); i++) { if(!lh_ObjIsNull(pRecogObjects->hCtx[i])){ if(lh_ObjIsNull(pRecogObjects->hResults[i])){ _ready = 0; } } } } ASSERT(lh_ObjIsNull(hNBestRes)); if (_ready) { ProcessResult (pRecogObjects); for(i=0; i<sizeof(pRecogObjects->hResults)/sizeof(pRecogObjects->hResults[0]); i++){ if(!lh_ObjIsNull(pRecogObjects->hResults[i])){ lh_ObjClose(&pRecogObjects->hResults[i]); } } } } // Close the NBest result object. } } return 0; error: return -1; } static int ProcessResult (RECOG_OBJECTS *pRecogObjects) { LH_ERROR lhErr = LH_OK; size_t curCtx, i, k, count=0; size_t nbrHypothesis; ASRResult *r = NULL; long lid; // get total hyp count for(curCtx=0; curCtx<sizeof(pRecogObjects->hCtx)/sizeof(pRecogObjects->hCtx[0]); curCtx++){ if(!lh_ObjIsNull(pRecogObjects->hResults[curCtx])){ if(LH_OK == lh_NBestResultGetNbrHypotheses (pRecogObjects->hResults[curCtx], &nbrHypothesis)){ count += nbrHypothesis; } } } // traces printf ("\n"); printf (" __________RESULT %3d items max_______________\n", count); printf ("| | |\n"); printf ("| result | confi- | result string [start rule]\n"); printf ("| number | dence |\n"); printf ("|________|________|___________________________\n"); printf ("| | |\n"); if (count>0) { r = ASRResult_New(count); // Get & print out the result information for each hypothesis. count = 0; curCtx = sizeof(pRecogObjects->hCtx)/sizeof(pRecogObjects->hCtx[0]); for(; curCtx>0; curCtx--){ LH_OBJECT hNBestRes = pRecogObjects->hResults[curCtx-1]; if(!lh_ObjIsNull(hNBestRes)){ LH_HYPOTHESIS *pHypothesis; if(LH_OK == lh_NBestResultGetNbrHypotheses (hNBestRes, &nbrHypothesis)){ for (i = 0; i < nbrHypothesis; i++) { char *szResultWords; // Retrieve information on the recognition result. if (LH_OK == lh_NBestResultFetchHypothesis (hNBestRes, i, &pHypothesis)){ // Get the result string. if (LH_OK == lh_NBestResultFetchWords (hNBestRes, i, &szResultWords)){ printf ("| %6lu | %6lu | '%s' [%s]\n", i, pHypothesis->conf, szResultWords, pHypothesis->szStartRule); // Return the fetched data to the engine. lh_NBestResultReturnWords (hNBestRes, szResultWords); } lh_NBestResultReturnHypothesis (hNBestRes, pHypothesis); } } } } } } // traces printf ("|________|________|___________________________\n"); printf ("\n"); return 0; }

明らかに、TTSの場合のように、コードは非常に大きく、準備手順は多くのスペースを占有します。そして、これはまだ完全に機能するコードではありません！出版するとき、私は多くの不必要なものを投げました。このすべては、音声I / Oテクノロジーを使用するにはかなり高い「エントリしきい値」が必要であることをここまで読んだ人たちにもう一度示しています。

14.ストリーム認識（ディクテーション）

現在の技術における最後の言葉は、インライン認識、つまりディクテーションです。このテクノロジーは、AndroidおよびiOS用の最新のスマートフォンですでに利用可能です。含む-APIの形式。ここで、プログラマは、文法を作成するときに認識コンテキストを指定する必要はありません。入り口でスピーチがあります-出口で、認識された言葉。残念ながら、この方法がどのように機能するかについての詳細はまだ入手できません。認識プロセスはデバイス自体ではなく、音声が送信されるサーバーで行われ、そこから結果が取得されます。しかし、私は何年も後にクライアント側で技術が利用可能になると信じたいです。

おわりに

ASRとTTSテクノロジーについて伝えたかったのはおそらくそれだけでしょう。私はそれがあまりにも退屈で非常に有益ではないことを願っています。

アプリケーションプログラマ向けのASRおよびTTSテクノロジ：理論上の最小値