- 生のスピーチ。 通常、高いサンプリングレート(マイクから録音する場合は20 KHz、電話回線から録音する場合は8 KHz)で録音されたオーディオデータのストリーム。
- シグナル分析。 着信信号は、後続の処理を容易にするために最初に変換および圧縮する必要があります。 有用な情報を失うことなく、有用なパラメーターを抽出し、ソースデータを数十回圧縮するためのさまざまな方法があります。 最も使用される方法:
- フーリエ解析;
- 線形音声予測;
- ケプストラム分析。
- 音声フレーム。 信号の分析結果は、一連の音声フレームです。 通常、各音声フレームは、短時間(10 ms程度)の信号を分析した結果であり、このセクションに関する情報(係数20程度)を含んでいます。 認識の品質を向上させるために、係数の値の1次または2次導関数に関する情報をフレームに追加して、音声変化のダイナミクスを記述することができます。
- 音響モデル。 音声フレームの構成を分析するには、音響モデルのセットが必要です。 最も一般的な2つを考えてください。
- テンプレートモデル。 何らかの方法で、保存されたモデルは、認識可能な構造単位(単語、コマンド)の例です。 このようなモデルによる認識の可変性は、同じ要素の異なる発音バリアントを保存することで実現されます(多くのスピーカーが同じコマンドを何度も繰り返します)。 主に単語全体を認識するために使用されます(コマンドシステム)。
- 状態モデル。 各単語は、確率的規則に基づいて単語の特定のセクションで聞こえる音のセットを示す一連の状態としてモデル化されます。 このアプローチは、大規模なシステムで使用されます。
- 音響分析。 異なる音響モデルを音声の各フレームと比較することで構成され、フレームのシーケンスと多くの音響モデルを一致させるためのマトリックスを生成します。 テンプレートモデルの場合、この行列は、テンプレートと認識されたフレーム間のユークリッド距離を表します(つまり、受信した信号が記録されたテンプレートからどれだけ除去され、受信した信号に最適なテンプレートが見つかったかを計算します)。 状態ベースのモデルの場合、マトリックスは、特定の状態が特定のフレームを生成できる確率で構成されます。
- 時間調整。 単語の発音時に発生する時間的変化を処理するために使用されます(たとえば、「ストレッチ」または「食べる」サウンド)。
- 単語のシーケンス。 作業の結果、音声認識システムは、入力音声ストリームに対応する可能性が最も高い単語のシーケンス(またはいくつかの可能なシーケンス)を生成します。