Google Speech APIを使用したROS音声認識

ROSでの音声認識にpocketsphinxを使用することについてはすでに説明しました。 この記事では、音声認識にgspeechを使用することについて説明します。 gspeechは、Google Speech API wiki.ros.org/gspeechを使用するROSパッケージです。





Google APIキーの取得



それでは始めましょう。 まず、Google APIキーが必要です。 取得するには、まずGoogleアカウントを持っている必要があります。 次に、chromium-dev @ chromium.orgにサブスクライブする必要があります( ここにサブスクライブする必要があります )。

これで、Google APIキーを取得できます。 これを行うには、Google開発者コンソールcloud.google.com/consoleにアクセスします。 ここで、プロジェクトを作成する必要があります。 プロジェクトを作成したら、左側のメニューの[APIと認証]の下にある[API]セクションでSpeech APIを有効にする必要があります。 注意してください:私に起こったように、このアイテムはリストにないかもしれません。 Speech APIが表示されない場合は、chromium-devにサインアップしていることと、chromium-devにサインアップしたときに使用したメールアドレスを持つGoogleアカウントで現在ログインしていることを確認してください。

Google APIキーは、同じアイテムAPIと認証の下の認証情報セクションで取得できます。 ここで、パブリックAPIアクセスセクションの[新しいキーの作成]ボタンをクリックしてキーを作成する必要があります。



gspeechをインストールする



残っているのはgspeechパッケージをインストールすることだけです。 これを行うには、Githubページ(github.com/kusha/gspeech)からgspeechを複製します。 Gspeechが動作するにはsoxが必要です。



sudo apt-get install sox
      
      





また、次の行のgspeech.py​​スクリプトにGoogle APIキーを挿入する必要があります。



 api_key = "" # PASTE HERE YOUR GOOGLE API KEY
      
      





Gspeechの起動



すべての準備が整ったので、gspeech ROSノードを開始できます。



 rosrun gspeech gspeech.py
      
      





音声認識



認識プロセス中に、gspeechは、認識されたフレーズを件名/音声で文字列形式で公開し、件名での認識の「信頼度」/ Int8形式で信頼度を公開します。

gspeechがGoogleのサーバーにリクエストを送信するため、フレーズ認識プロセスには時間がかかる場合があります。 それにもかかわらず、gspeechはかなり高い認識精度を持ち、gspeechはpocketsphinxパッケージよりもはるかに優れたフレーズを認識します。 テストでは、gspeechは70〜80の「自信」を持つフレーズを認識しました。 場合によっては、94までの「確実性」で認識されます。



Google Speech APIによる音声認識の成功をお祈りします。



All Articles