🖕🏾 👩‍🔧 🏩 Google Speech APIを使用したROS音声認識 🕴️ 🦄 👇🏻

ROSでの音声認識にpocketsphinxを使用することについてはすでに説明しました。この記事では、音声認識にgspeechを使用することについて説明します。 gspeechは、Google Speech API wiki.ros.org/gspeechを使用するROSパッケージです。

Google APIキーの取得

それでは始めましょう。まず、Google APIキーが必要です。取得するには、まずGoogleアカウントを持っている必要があります。次に、chromium-dev @ chromium.orgにサブスクライブする必要があります（ここにサブスクライブする必要があります）。

これで、Google APIキーを取得できます。これを行うには、Google開発者コンソールcloud.google.com/consoleにアクセスします。ここで、プロジェクトを作成する必要があります。プロジェクトを作成したら、左側のメニューの[APIと認証]の下にある[API]セクションでSpeech APIを有効にする必要があります。注意してください：私に起こったように、このアイテムはリストにないかもしれません。 Speech APIが表示されない場合は、chromium-devにサインアップしていることと、chromium-devにサインアップしたときに使用したメールアドレスを持つGoogleアカウントで現在ログインしていることを確認してください。

Google APIキーは、同じアイテムAPIと認証の下の認証情報セクションで取得できます。ここで、パブリックAPIアクセスセクションの[新しいキーの作成]ボタンをクリックしてキーを作成する必要があります。

gspeechをインストールする

残っているのはgspeechパッケージをインストールすることだけです。これを行うには、Githubページ（github.com/kusha/gspeech）からgspeechを複製します。 Gspeechが動作するにはsoxが必要です。

sudo apt-get install sox

また、次の行のgspeech.pyスクリプトにGoogle APIキーを挿入する必要があります。

 api_key = "" # PASTE HERE YOUR GOOGLE API KEY

Gspeechの起動

すべての準備が整ったので、gspeech ROSノードを開始できます。

 rosrun gspeech gspeech.py

音声認識

認識プロセス中に、gspeechは、認識されたフレーズを件名/音声で文字列形式で公開し、件名での認識の「信頼度」/ Int8形式で信頼度を公開します。

gspeechがGoogleのサーバーにリクエストを送信するため、フレーズ認識プロセスには時間がかかる場合があります。それにもかかわらず、gspeechはかなり高い認識精度を持ち、gspeechはpocketsphinxパッケージよりもはるかに優れたフレーズを認識します。テストでは、gspeechは70〜80の「自信」を持つフレーズを認識しました。場合によっては、94までの「確実性」で認識されます。

Google Speech APIによる音声認識の成功をお祈りします。

Google Speech APIを使用したROS音声認識

Google APIキーの取得

gspeechをインストールする

Gspeechの起動

音声認識

More articles: