自分のサイトでの音声認識:Speereo認識テストスタンド

こんにちはhabravchane! Habréに登場することを嬉しく思います。私たちが長い間ここにいて、あなたにとっても私たち自身にとっても有益であることを願っています。



だから、最初の投稿にスリルを持って!



問題


多くの場合、Webサイトでは、ユーザーはリクエストフォームに記入する必要があります。 チケット予約サービスの駅や空港の名前、地図検索での道路名、オンラインストアでの商品名または商品グループ、そして最後にサイトやフォーラムでの定期的な検索が可能です。

これらのすべての場合、事前に知られているリストまたはインデックス付きの単語/フレーズのセットから選択します。

スマートフォンから検索を実行するときに、このようなテキストクエリを入力することは特に不便です。 これを行うのは非常に不便で、サービスの使用を拒否し、「後でやります」と決めて忘れる場合があります。



解決策


ウェブサイトに埋め込まれた連続音声の独自のクラウドベースの認識を使用して、このような問題に対する代替ソリューションを提供します。





どのように機能しますか?

検索クエリの入力フィールドの横にあるWebページで、マイクの画像が表示された会社のボタンを配置します。 その後、次のことが起こります。クライアント側で、ボタンをクリックすると、サウンドファイルが録音され、サーバーに送信されます。 サーバーは一瞬で音声信号を認識し、認識されたテキストまたは番号をリストからクライアントまたはサーバーに直接転送します。

例:チケット予約ページで、ドロップダウンメニューから都市を選択するかテキストで検索する代わりに、マイクアイコンをクリックして「モスクワから」、「サンクトペテルブルクへ」と発声し、日付を選択します-「明後日」または「5月9日」 「。 戻ると、従来の検索と同じ結果が得られます。





違いは何ですか?


私たちのアプローチと音声認識へのアプローチとの違いは、たとえば次のようなGoogleです。それぞれの場合、事前に制限されたフレーズのセットを認識します。 Googleは、開発者を制限することなく、すべてを認識します。



次に2つの質問です。 最初:どちらが使いやすいですか? 一見、Googleエンジン。 ユーザーが何を言っても、すべてが入力フォームに分類されます。 ただし、情報ノイズだけでなく特定のデータが必要な場合は、無効なデータと認識エラーをカットするプロセッサーを作成する必要があります(そしてそれらも!)。 私たちの場合、これは必要ありません。 リストにないものはフォームに入れられません。



2番目の質問は、認識の質です。 そして、これが最優先事項です! 音声入力中にエラーが多いほど、 使いやすさが低下します。 認識が90%を下回る場合-これは災害です。 そして、ここで私たちは勝ちます、そしてそれが理由です:理論と常識。 説明しよう:可能なコマンドの選択が狭いほど、エラーの可能性は低くなります。 音声信号自体は、認識のために十分な情報を運ばず、認識されたフレーズの音響的に類似しているが明らかに誤った変形を破棄し、理解するため、人間の脳の意味(または音声信号の品質)の10〜15および90%が「取得」します。 それが簡単であることを証明する-聞き慣れない言語でフレーズを録音してみてください。



当初、Googleの音声認識システムはウェブ検索用に作成され、その「理解」のレベルが検索インデックスを実行します。 Googleは、誰かがあなたに100回見上げていないことを認識しません。 可能性のあるエラーは、たとえ間違って認識されたとしても、必要なリクエストが検索結果の最初の行にあるという事実によって平準化されるため、これをエラーとして認識しません。



フォームへの入力の場合、このアプローチは機能しません。 確認できます-エラーが多すぎます。

間違いが少ないのはなぜですか? 当社の技術では、「理解」の役割は、この特定のコンテキストで可能なフレーズのリストによって実現されます。 このリストは、開発者であるサイト管理者によって直接作成されます。 列車の切符を注文するときに目的地の駅を認識するだけでよい場合、何百万もの選択肢を列挙してシステムをロードするのは愚かなことです。 約5,000のステーションしかないため、Speereo認識システムはそれらに完全に対応しています。



時間が経つにつれて、ほとんどの標準的なケースで、リストの編集からでもあなたを救います。 共同作業の結果、これらはすでにサーバーのパブリックドメインにあります。 セットは、「すべての可能性のある非わいせつな亜種のyes-no」、「都市Nのすべての通り」、「ロシア連邦のすべての薬物の名前」、「すべての名前」、「すべての名前」、「ジャンルごとのすべての音楽グループ」、 「ジャンル別のすべての映画」など。 姓について言えば、一般的に使用される入力フィールドですよね? だから-私の姓はGoogle辞書に載っていないので、どうしても入力できません。 Speereoを使用する場合、手で入力した姓が音声コマンドのリストに含まれると、 そのため、必要な単語がGoogle辞書にない場合、そのエンジンはあなたに適していません。 そして、私たちのものが適しています。 別の楽しいささいなこと-私たちは、無料ではありませんが、 任意のブラウザとプラットフォームで動作します(ギフトを与えないように注意してください)。



クラウドソリューションと認識品質をテストする方法:


テストのために、1〜300のすべてのモスクワの通りと家番号を認識するように構成されたテストスタンドの3つのオプションを提供します。

-ファイルのダウンロードを備えたスタンドと、Silverlightテクノロジーを備えたスタンド。

-ファイルをFlashにダウンロードする際に対応します。

-「クリーンな実験」の略-PCに記録されたファイルのダウンロード



Speereo認識システムの動作を確認するには、登録- これはサーバーの負荷を分散するために必要です(ハブロ効果と戦う試み) 不満のため-登録はキャンセルされました! 健康のために試してみてください!

次の2種類のテストが異なります。ファイルをダウンロードするページは、システムをテストできる最もクリーンな実験であり、私たちにとって望ましいすべての条件(音の信号品質など)を観察します。 Silverlightページ-マイクを有効にするためにSilverlightのインストールが必要な高速テスト方法。 Flashページは、最も敏感な音声入力を備えた最速の方法です(マイクに向かって叫んだり、録音レベルを下げたりしないでください)。 2番目と3番目の方法は高速ですが、システムのサウンド設定で動作するため、認識条件への完全な準拠を保証しないため、システムに記録および送信される信号の品質が低下する可能性があります。



NB:記録された信号に対するフラッシュの感度は、Silverlightの感度よりもはるかに高いため、テスト中に音声を上げたり、録音レベルを下げたりしないでください。 私自身、ラップトップのフラッシュでの録音レベルは、Silverlightで設定したレベルよりも30〜40%低いと言います。 修正、コメントありがとうございます。



「認識クラウド」をサイトに接続する方法


接続の技術的な詳細を確認してください。

a)列のテキストファイル内の各ボタンのコマンドのリストを送信します。 ファイル名にボタンの形の番号または名前を示します。

b)応答レターのアドレスで数日間認識エンジンをテストします。

c)関税を選択し、最低支払額を支払って使用します!



関税


1対1レート

1秒あたり4回の認識*、1か月-99トン。 最低前払いは99トンです。



1対10の関税

10秒で4回の認識*、1か月-9.9摩擦。 最低前払い金は9.9トンです。



1対1レート

100秒で4回の認識*、1か月-990ルーブル。 最低前払いは4,500ルーブルです。



関税「ウェブキング」

10コペックで1回の承認**、最低前払い金は10トンです。



「シロップ付き」関税

リクエストに応じて認識率。 3コペックの1認識。 -電話。



パンツの関税雲

クライアントサーバーでリゾルバをホストします。

年払い-電話。



*-クラウドによる認識結果の出力レートは、1秒以内の認識遅延で保証されます。 サーバーの接続速度は、適切な音量のサウンドファイルを受信するのに十分です。



**-クラウドによる認識結果の出力の保証されたレートは、1秒以下の認識遅延を伴います-1秒あたり4。



All Articles