Google APIキーの取得
それでは始めましょう。 まず、Google APIキーが必要です。 取得するには、まずGoogleアカウントを持っている必要があります。 次に、chromium-dev @ chromium.orgにサブスクライブする必要があります( ここにサブスクライブする必要があります )。
これで、Google APIキーを取得できます。 これを行うには、Google開発者コンソールcloud.google.com/consoleにアクセスします。 ここで、プロジェクトを作成する必要があります。 プロジェクトを作成したら、左側のメニューの[APIと認証]の下にある[API]セクションでSpeech APIを有効にする必要があります。 注意してください:私に起こったように、このアイテムはリストにないかもしれません。 Speech APIが表示されない場合は、chromium-devにサインアップしていることと、chromium-devにサインアップしたときに使用したメールアドレスを持つGoogleアカウントで現在ログインしていることを確認してください。
Google APIキーは、同じアイテムAPIと認証の下の認証情報セクションで取得できます。 ここで、パブリックAPIアクセスセクションの[新しいキーの作成]ボタンをクリックしてキーを作成する必要があります。
gspeechをインストールする
残っているのはgspeechパッケージをインストールすることだけです。 これを行うには、Githubページ(github.com/kusha/gspeech)からgspeechを複製します。 Gspeechが動作するにはsoxが必要です。
sudo apt-get install sox
また、次の行のgspeech.pyスクリプトにGoogle APIキーを挿入する必要があります。
api_key = "" # PASTE HERE YOUR GOOGLE API KEY
Gspeechの起動
すべての準備が整ったので、gspeech ROSノードを開始できます。
rosrun gspeech gspeech.py
音声認識
認識プロセス中に、gspeechは、認識されたフレーズを件名/音声で文字列形式で公開し、件名での認識の「信頼度」/ Int8形式で信頼度を公開します。
gspeechがGoogleのサーバーにリクエストを送信するため、フレーズ認識プロセスには時間がかかる場合があります。 それにもかかわらず、gspeechはかなり高い認識精度を持ち、gspeechはpocketsphinxパッケージよりもはるかに優れたフレーズを認識します。 テストでは、gspeechは70〜80の「自信」を持つフレーズを認識しました。 場合によっては、94までの「確実性」で認識されます。
Google Speech APIによる音声認識の成功をお祈りします。