🏂🏿 🦐 👵 実際の例でサーバーなしの超高速音声認識 🍝 👞 📷

この記事では、家電を制御する実際の~~Hello Worldの~~例で、Pocketsphinxエンジン（iOS OpenEarsポート用）でロシア語の音声認識を正確かつ迅速に固定する方法を詳しく説明します。

なぜまさに家電製品なのか？はい、この例のおかげで、 Google ASRやYandex SpeechKitなどのサーバーなしで完全にローカルな音声認識を使用して達成できる速度と精度を評価できるためです。

また、プログラムのすべてのソースコードとAndroidのアセンブリを記事に添付します。

なぜ突然ですか？

Yandex SpeechKitをiOSアプリケーションにねじ込むことについての記事に最近つまずいたので、著者がプログラムにサーバーベースの音声認識を使用する理由を尋ねました（私の意見では、これは冗長であり、いくつかの問題を引き起こしました）。私は反論を受けました：何も認識する必要がなく、辞書が限られた単語のセットで構成されているプロジェクトでの代替方法の使用をより詳しく説明できますか？はい、そして実用的なアプリケーションの例で...

YandexとGoogle以外の何かが必要なのはなぜですか？

非常に「実用的なアプリケーション」 として、スマートホームの音声制御のトピックを選択しました。

なぜそのような例ですか？その理由は、クラウドソリューションを使用した認識よりも完全にローカルな音声認識の利点がいくつかあるためです。すなわち：

速度 -サーバーに依存していないため、サーバーの可用性、帯域幅などに依存していません。要因
精度 -私たちのエンジンは、アプリケーションに興味のある辞書でのみ動作するため、認識の品質が向上します
コスト -サーバーへのリクエストごとに支払う必要はありません
音声アクティベーション -最初のポイントへの追加ボーナスとして-トラフィックを無駄にせず、サーバーをロードせずに、常に「ブロードキャストを聞く」ことができます

ご注意

これらの利点は、特定のクラスのプロジェクトでのみ利点と見なすことができ、ユーザーが操作する辞書と文法を正確に事前に知っていることをすぐに言わなければなりません。つまり、任意のテキスト（SMSメッセージや検索クエリなど）を認識する必要がない場合です。それ以外の場合は、クラウド認識が不可欠です。

したがって、Androidはインターネットなしで音声を認識できます！

はい、はい... JellyBeanのみ。そして、わずか0.5メートルです。そして、この認識は同じディクテーションであり、より小さなモデルを使用するだけです。そのため、管理も構成もできません。そして、彼女が次に私たちに返すものは不明です。ただし、SMSの場合は問題ありません。

どうする？

数メートルから、非常に安価なAndroidスマートフォン、タブレット、時計の安価~~なブレーキジャンクで~~も、正確かつ迅速に動作する家電製品用の音声コントロールパネルを実装します。

ロジックはシンプルですが、非常に実用的です。マイクを有効にして、1つ以上のデバイス名を言います。アプリケーションはそれらを認識し、現在の状態に応じてオン/オフにします。または彼はそれらから幸運を受け取り、気持が良い女性の声でそれを発音する。たとえば、部屋の現在の温度。

音声、マイクアイコンのクリック、または単に画面に手を置くだけで、マイクをアクティブにします。次に、画面を完全にオフにすることができます。

実用的なアプリケーション

朝、目を開かずに、ナイトスタンドのスマートフォンの画面に手のひらを叩き、「おはようございます！」と言いました-スクリプトが開始され、コーヒーメーカーがオンになり、ブザーが鳴り、心地よい音楽が聞こえ、カーテンが開きます。

壁の各部屋にある安価な（2台で数千台）スマートフォンにぶら下げます。私たちは仕事の後に家に帰り、「スマートホーム！光、テレビ！」-次に何が起こるか、話す必要はないと思います。

ビデオは最後に何が起こったかを示しています。次に、実際に機能するコードと少しの理論からの抜粋を使用した技術的な実装について説明します。

Pocketsphinxとは

Pocketsphinxは、Android用のオープンソース認識エンジンです。また、iOS 、 WindowsPhone 、さらにはJavaScript 用のポートもあります。

デバイスで音声認識を直接実行し、同時にタスク専用に構成することができます。また、「すぐに使える」音声アクティベーション機能も提供します（以下を参照）。

認識エンジンをロシア語モデル（ソースで見つけることができます）とユーザークエリの文法に「フィード」できます。これはまさにアプリケーションが認識するものです。それ以外は何も認識できません。そして、その結果、私たちが期待しない何かをほとんど決して与えません。

文法JSGF

JSGF文法形式は、他の多くの同様のプロジェクトと同様に、Pocketsphinxによって使用されます。ユーザーが発音するフレーズのバリエーションを十分な柔軟性で記述することができます。私たちの場合、文法はネットワーク上のデバイスの名前から構築されます。次のようなものです。

<commands> =  |  | ;

Pocketsphinxは統計的言語モデルにも対応しており、コンテキストフリーの文法では説明されていない自発的な発話を認識することができます。しかし、私たちのタスクでは、これは単に必要ではありません。文法はデバイス名のみで構成されます。認識プロセスの後、Pocketsphinxはデバイスが次々と移動する通常のテキスト行を返します。

 #JSGF V1.0; grammar commands; public <command> = <commands>+; <commands> =  |  | ;

プラス記号は、ユーザーが1つではなく複数のデバイスに連続して名前を付けることができることを示します。

アプリケーションは、スマートホームコントローラー（下記参照）からデバイスのリストを受け取り、そのような文法をGrammarクラスに生成します。

転写

文法は、 ユーザーが何を言うことができるかについて説明します。 Pocketsphinxがどのように発音するかを知るためには、文法の各単語が対応する言語モデルでどのように聞こえるかを記述する必要があります。それが各単語の転写です 。これは辞書と呼ばれます。

転写は、特別な構文を使用して記述されます。例：

  uu mn ay j  d oo m

原則として、複雑なことは何もありません。転写における二重母音は、ストレスを示します。二重子音-母音が続く柔らかい子音。ロシア語のすべての音のすべての可能な組み合わせは、言語モデル自体にあります。

ユーザーがデバイスに付ける名前を事前に知らないため、アプリケーションのすべての文字起こしを事前に説明できないことは明らかです。したがって、ロシアの音声学のいくつかのルールに従って、そのような転写を「オンザフライ」で生成します。これを行うには、入力で行を受け取り、そのための正しいトランスクリプションを生成できるPhonMapperクラスを実装できます。

音声アクティベーション

これは、音声認識エンジンが事前に定義されたフレーズに応答するために、常に「耳を傾ける」能力です。この場合、他のすべてのサウンドと音声は破棄されます。これは、文法を説明し、マイクをオンにするだけとは異なります。この問題の理論と、この仕組みの仕組みについては説明しません。最近、Pocketsphinxに取り組んでいるプログラマーがそのような関数を実装し、現在ではAPIで「すぐに使用可能」になったとしか言えません。

言及する価値のあることの1つは必須です。アクティベーションフレーズでは、文字起こしを示すだけでなく、感度しきい値の適切な値を選択する必要があります。値が小さすぎると、多くの誤検知が発生します（これは、アクティベーションフレーズを言わなかった場合で、システムはそれを認識します）。高すぎる-免疫に。したがって、この設定は特に重要です。値の大まかな範囲は、アクティベーションフレーズに応じて1e-1〜1e-40です。

近接センサーのアクティベーション

このタスクはプロジェクトに固有のものであり、認識に直接関係するものではありません。このコードは、メインアクティビティで見ることができます。

SensorEventListenerを実装し、近づくと（センサーの値が最大値よりも小さい）タイマーを開始し、一定の遅延の後、センサーがまだブロックされているかどうかを確認します。これは、誤検知を排除するために行われます。

センサーが再びブロックされない場合、認識を停止し、結果を受け取ります（以下の説明を参照）。

承認を開始

Pocketsphinxは、認識プロセスを構成および開始するための便利なAPIを提供します。これらはSppechRecognizerおよびSpeechRecognizerSetupクラスです。

認識の構成とトリガーは次のようになります。

 PhonMapper phonMapper = new PhonMapper(getAssets().open("dict/ru/hotwords")); Grammar grammar = new Grammar(names, phonMapper); grammar.addWords(hotword); DataFiles dataFiles = new DataFiles(getPackageName(), "ru"); File hmmDir = new File(dataFiles.getHmm()); File dict = new File(dataFiles.getDict()); File jsgf = new File(dataFiles.getJsgf()); copyAssets(hmmDir); saveFile(jsgf, grammar.getJsgf()); saveFile(dict, grammar.getDict()); mRecognizer = SpeechRecognizerSetup.defaultSetup() .setAcousticModel(hmmDir) .setDictionary(dict) .setBoolean("-remove_noise", false) .setKeywordThreshold(1e-7f) .getRecognizer(); mRecognizer.addKeyphraseSearch(KWS_SEARCH, hotword); mRecognizer.addGrammarSearch(COMMAND_SEARCH, jsgf);

ここでは、まず必要なすべてのファイルをディスクにコピーします（Pocketpshinxには、音響モデル、文法、および転写辞書がディスク上に必要です）。次に、認識エンジン自体が構成されます。モデルファイルと辞書ファイルへのパス、およびいくつかのパラメーター（アクティベーションフレーズの感度しきい値）が示されています。次に、文章校正ファイルへのパスとアクティベーションフレーズを構成します。

このコードからわかるように、1つのエンジンは、文法とアクティベーションフレーズの認識の両方に対して直ちに構成されます。なぜこれが行われるのですか？そのため、現時点で認識する必要があるものをすばやく切り替えることができます。アクティベーションフレーズ認識プロセスの開始は次のようになります。

 mRecognizer.startListening(KWS_SEARCH);

そして-与えられた文法に従った音声認識：

 mRecognizer.startListening(COMMAND_SEARCH, 3000);

2番目の引数（オプション）は、誰も何も言わなかった場合に認識が自動的に終了するまでのミリ秒数です。

ご覧のとおり、1つのエンジンのみを使用して両方の問題を解決できます。

認識結果を取得する方法

認識結果を取得するには、 RecognitionListenerインターフェイスを実装するイベントリスナーも指定する必要があります。

イベントの1つが発生したときにpocketsphinxによって呼び出されるいくつかのメソッドがあります。

onBeginningOfSpeech-エンジンが何らかの音を聞いた。これはスピーチであるかもしれない（またはそうでないかもしれない）
onEndOfSpeech-サウンドは終了しました
onPartialResult-中間の認識結果があります。アクティベーションフレーズの場合、これは機能したことを意味します。仮説引数に認識データが含まれる（文字列とスコア）
onResult-認識の最終結果。このメソッドは、 SpeechRecognizerで stopメソッドを呼び出した後に呼び出されます。仮説引数に認識データが含まれる（文字列とスコア）

何らかの方法でonPartialResultおよびonResultメソッドを実装することにより、認識ロジックを変更して最終結果を取得できます。アプリケーションの場合、次のようになります。

 @Override public void onEndOfSpeech() { Log.d(TAG, "onEndOfSpeech"); if (mRecognizer.getSearchName().equals(COMMAND_SEARCH)) { mRecognizer.stop(); } } @Override public void onPartialResult(Hypothesis hypothesis) { if (hypothesis == null) return; String text = hypothesis.getHypstr(); if (KWS_SEARCH.equals(mRecognizer.getSearchName())) { startRecognition(); } else { Log.d(TAG, text); } } @Override public void onResult(Hypothesis hypothesis) { mMicView.setBackgroundResource(R.drawable.background_big_mic); mHandler.removeCallbacks(mStopRecognitionCallback); String text = hypothesis != null ? hypothesis.getHypstr() : null; Log.d(TAG, "onResult " + text); if (COMMAND_SEARCH.equals(mRecognizer.getSearchName())) { if (text != null) { Toast.makeText(this, text, Toast.LENGTH_SHORT).show(); process(text); } mRecognizer.startListening(KWS_SEARCH); } }

onEndOfSpeechイベントを受信し、同時に実行するコマンドを認識する場合、認識を停止する必要があります。その後、すぐにonResultが呼び出されます。

OnResultは、認識されたばかりのものをチェックする必要があります。これがコマンドである場合、それを実行し、エンジンをアクティベーションフレーズの認識に切り替える必要があります。

onPartialResultでは、アクティベーションフレーズの認識にのみ関心があります。それを検出したら、すぐにコマンドを認識するプロセスを開始します。これは次のようなものです。

 private synchronized void startRecognition() { if (mRecognizer == null || COMMAND_SEARCH.equals(mRecognizer.getSearchName())) return; mRecognizer.cancel(); new ToneGenerator(AudioManager.STREAM_MUSIC, ToneGenerator.MAX_VOLUME).startTone(ToneGenerator.TONE_CDMA_PIP, 200); post(400, new Runnable() { @Override public void run() { mMicView.setBackgroundResource(R.drawable.background_big_mic_green); mRecognizer.startListening(COMMAND_SEARCH, 3000); Log.d(TAG, "Listen commands"); post(4000, mStopRecognitionCallback); } }); }

ここでは、最初に小さな信号を再生して、ユーザーの声を聞き、チームの準備ができたことをユーザーに警告します。この時点でマイクをオフにする必要があります。したがって、短いタイムアウト（エコーが聞こえないように信号の持続時間より少し長い）の後に認識を開始します。また、ユーザーがあまりにも長い間話すと認識を強制的に停止するスレッドを開始します。この場合、3秒です。

認識された文字列をコマンドに変換する方法

さて、ここではすべてが特定のアプリケーションに固有です。裸の例の場合、単純に回線からデバイス名を引き出し、それらから目的のデバイスを探して、スマートホームコントローラーへのHTTPリクエストを使用して状態を変更するか、現在の状態を報告します（サーモスタットの場合のように）。このロジックは、 Controllerクラスで確認できます。

音声を合成する方法

音声合成は認識の反対です。ここでは、逆に、ユーザーがテキストを聞くことができるように、テキストの行を音声に変換する必要があります。

サーモスタットの場合、Androidデバイスに現在の温度を強制的に伝える必要があります。 TextToSpeech APIを使用すると、これは非常に簡単です（ロシア語の美しい女性TTSをGoogleに感謝します）。

 private void speak(String text) { synchronized (mSpeechQueue) { mRecognizer.stop(); mSpeechQueue.add(text); HashMap<String, String> params = new HashMap<String, String>(2); params.put(TextToSpeech.Engine.KEY_PARAM_UTTERANCE_ID, UUID.randomUUID().toString()); params.put(TextToSpeech.Engine.KEY_PARAM_STREAM, String.valueOf(AudioManager.STREAM_MUSIC)); params.put(TextToSpeech.Engine.KEY_FEATURE_NETWORK_SYNTHESIS, "true"); mTextToSpeech.speak(text, TextToSpeech.QUEUE_ADD, params); } }

私はおそらくバナリティを言うでしょうが、合成プロセスの前に、あなたは間違いなく認識をオフにする必要があります 。一部のデバイス（たとえば、すべてのSamsung）では、マイクを同時に聞きながら何かを同時に合成することは一般的に不可能です。

音声合成の終了（つまり、シンセサイザーによるテキストの読み上げプロセスの終了）は、リスナーで追跡できます。

 private final TextToSpeech.OnUtteranceCompletedListener mUtteranceCompletedListener = new TextToSpeech.OnUtteranceCompletedListener() { @Override public void onUtteranceCompleted(String utteranceId) { synchronized (mSpeechQueue) { mSpeechQueue.poll(); if (mSpeechQueue.isEmpty()) { mRecognizer.startListening(KWS_SEARCH); } } } };

その中で、合成のキューに他に何かがあるかどうかを確認し、他に何もない場合はアクティベーションフレーズの認識をオンにします。

それだけですか？

はい！ご覧のとおり、Pocketsphinxのような素晴らしいプロジェクトが存在するため、デバイス上で音声を直接かつ迅速に正確に認識することは難しくありません。音声コマンドの認識に関連するタスクの解決に使用できる非常に便利なAPIを提供します。

この例では、認識を完全に一貫性のあるタスク、つまりスマートホームデバイスの音声制御にねじ込みました。ローカルでの認識により、非常に高速でエラーを最小限に抑えました。

同じコードを音声に関連する他のタスクに使用できることは明らかです。これはスマートホームである必要はありません。

GitHubのリポジトリで、すべてのソースとアプリケーションのアセンブリを見つけることができます。

また、私のYouTubeチャンネルでは、スマートホームシステムだけでなく、音声制御の他の実装を見ることができます。

実際の例でサーバーなしの超高速音声認識