🍳 🦃 🐟 音声認識アルゴリズムの動的プログラミング 👇🏼 👦🏿 👉

単語を含む音声認識システムでは、認識には入力単語と辞書内のさまざまな単語との比較が必要です。この問題に対する効果的な解決策は、動的比較アルゴリズムにあります。その目的は、2つの単語の時間スケールを最適な対応に導入することです。このタイプのアルゴリズムは、動的なタイムライン変換アルゴリズムです。この記事では、個々の単語を認識するように設計されたアルゴリズムを実装するための2つのオプションを紹介します。

はじめに

音声認識の分野および他の分野の研究は、2つの方向に沿っています。基礎研究。その目的は、非営利ベースでの新しい方法、アルゴリズム、概念の開発とテストです。特定の基準に従って、既存の方法を改善することを目的とする応用研究。この記事では、応用研究の傾向における個々の単語の認識について説明します。

基礎研究は中期または長期の利益を得ることを目的としていますが、応用研究は既存の方法を急速に改善するか、そのような方法が実際に使用されていない分野で使用を拡大することを目的としています。

音声認識速度は、次の基準を考慮することで改善できます。

認識可能な語彙サイズ。
認識される必要があるスピーチの自発性の程度。
中毒/スピーカーからの独立;
システムを動作させるのに必要な時間。
新規ユーザーのシステム適応時間。
選択と認識の時間。
認識度（単語または文で表される）。

今日、音声認識システムは、認識フォームの認識の原則に基づいています。これまで使用されてきた方法とアルゴリズムは、4つの大きなクラスに分類できます。

ベイジアン差別に基づく差別分析方法。

隠れマルコフモデル。

動的プログラミング-一時動的アルゴリズム（DTW）;

ニューラルネットワーク;

この記事では、音声認識を実装する動的プログラミングアルゴリズムDTWの例と代替方法を提供します。

動的時間変換アルゴリズム（DTW）

動的時間変換（DTW）アルゴリズムは、2つの時系列間の最適な時間変換（変形）シーケンスを計算します。このアルゴリズムは、2つの行の間のひずみ値とそれらの間の距離の両方を計算します。

2つの数値シーケンス（a1、a2、...、an）と（b1、b2、...、bm）があるとします。ご覧のとおり、2つのシーケンスの長さは異なる場合があります。アルゴリズムは、異なる種類の偏差を使用して2つのシーケンスの要素間の局所偏差を計算することから始まります。偏差を計算する最も一般的な方法は、2つの要素の値の間の絶対偏差（ユークリッド距離）を計算する方法です。その結果、共通項のn行m列の偏差行列が得られます。

シーケンス間のマトリックスの最小距離は、動的計画法アルゴリズムと次の最適化基準を使用して決定されます。

ここで、aijは、シーケンス（a1、a2、...、an）と（b1、b2、...、bm）の間の最小距離です。変形パスは、要素a11とanmの間のマトリックス内の最小距離であり、anまでの距離を表すこれらのaij要素で構成されます。

グローバルデフォメーションは2つのシーケンスで構成され、次の式で決定されます。

ここで、wi-変形パスに属する要素。 pはその番号です。計算は2つの短いシーケンスに対して行われ、変形シーケンスが強調表示されている表に示されています。

高速な収束を保証するために、DTWアルゴリズムには3つの条件が課されます。

1.単調-パスは決して戻りません。つまり、シーケンスで使用されるインデックスiとjの両方が減少することはありません。

2.連続性-シーケンスは徐々に進行します。1つのステップで、インデックスiとjは1以下しか増加しません。

3.制限-シーケンスは左下隅から始まり、右上で終わります。

Javaプログラミング言語を使用したシーケンス変形の例を以下に示します。

 public static void dtw(double a[],double b[],double dw[][], Stack<Double> w){ // a,b - the sequences, dw - the minimal distances matrix // w - the warping path int n=a.length,m=b.length; double d[][]=new double[n][m]; // the euclidian distances matrix for(int i=0;i<n;i++) for(int j=0;j<m;j++)d[i][j]=Math.abs(a[i]-b[j]); // determinate of minimal distance dw[0][0]=d[0][0]; for(int i=1;i<n;i++)dw[i][0]=d[i][0]+dw[i-1][0]; for(int j=1;j<m;j++)dw[0][j]=d[0][j]+dw[0][j-1]; for(int i=1;i<n;i++) for(int j=1;j<m;j++) if(dw[i-1][j-1]<=dw[i-1][j]) if(dw[i-1][j-1]<=dw[i][j-1])dw[i][j]=d[i][j]+dw[i-1][j-1]; else dw[i][j]=d[i][j]+dw[i][j-1]; else if(dw[i-1][j]<=dw[i][j-1])dw[i][j]=d[i][j]+dw[i-1][j]; else dw[i][j]=d[i][j]+dw[i][j-1]; int i=n-1,j=m-1; double element=dw[i][j]; // determinate of warping path w.push(new Double(dw[i][j])); do{ if(i>0&&j>0) if(dw[i-1][j-1]<=dw[i-1][j]) if(dw[i-1][j-1]<=dw[i][j-1]){i--;j--;} else j--; else if(dw[i-1][j]<=dw[i][j-1])i--; else j--; else if(i==0)j--; else i--; w.push(new Double(dw[i][j])); } while(i!=0||j!=0); }

動的プログラミングでシーケンスの基礎を決定するために逆プログラミング法を使用することが最適であるため、「スタック」と呼ばれる特定の動的タイプの構造を使用する必要があります。ダイナミックプログラミングアルゴリズムと同様に、DWTには多項式の複雑さがあります。大きなシーケンスを扱う場合、2つの不便が生じます。

-大きな数値行列の記憶;

-多数の偏差計算を実行します。

上記の2つの問題を解決するFastDWTアルゴリズムの改良版があります。解決策は、状態行列を2、4、8、16などに分割することです。入力シーケンスを2つの部分に分割するプロセスを繰り返すことにより、より小さなマトリックス。したがって、偏差はこれらの小さなマトリックスでのみ計算され、歪み経路は小さなマトリックスで計算されます。アルゴリズムの観点から、提案されたソリューションは「Divide et Impera」の方法に基づいています（おおよそ、ラテン語から。「Divide and conquer」）。

音声認識でのDWTアルゴリズムの使用

音声分析

音は、媒質の密度に応じた速度で縦波のように媒質を通過します。音を表す最も簡単な方法は、正弦グラフを使用することです。しばらくの間の圧力下の空気の振動のグラフ表示。

音波の形状は、振幅、周波数、位相の3つの要因に依存します。

振幅は、時間軸（y = 0）の上下の正弦波グラフの動きであり、これは負荷のかかった音波のエネルギーに対応します。振幅は圧力単位（デシベルDB）で測定でき、対数関数を使用して通常の音の振幅を測定します。デシベルを使用して振幅を測定することは、実際には音量が人間によってどのように知覚されるかを直接考えているため、非常に重要です。周波数-1秒あたりの正弦波の数。発振サイクルは中央線から始まり、最大値と最小値に到達してから中央線に戻ります。サイクル周波数は1秒またはヘルツ（Hz）で測定されます。周波数の逆数は周期と呼ばれます。周期が完了するまでに音波が必要とする時間です。

最後の要素はフェーズです。正弦曲線の始点を基準にした位置を測定します。位相は人には聞こえませんが、2つの信号間の位置に関して判断できます。ただし、補聴器はさまざまな段階で音の位置を認識します。

正弦曲線上の音波を解析するために、フーリエ定理を使用します。複雑な周期波は、周波数、振幅、位相が異なる正弦曲線を使用して分解できると述べています。このプロセスはフーリエ解析と呼ばれ、その結果は、波の各正弦波成分の振幅、位相、および周波数のセットです。これらの正弦曲線を一緒に追加すると、元の音波が得られます。振幅と一緒に取られる周波数または位相のポイントは、スペクトルと呼ばれます。周期的な信号は、信号の最初の発振周波数に対応し、基本周波数と呼ばれる再帰時間モデルを示します。 0軸の周りの振動の周期を確認することにより、音声信号から測定できます。スペクトルは、音の短いシーケンスの周波数を示しています。時間の経過とともにその発達を分析したい場合、これを実証する方法を見つける必要があります。これはスペクトログラムに表示できます。スペクトログラムは、周波数と時間の2次元の図です。周波数と時間では、ポイントの色（暗い-強い、明るい-弱い）が強度の振幅を決定します。この方法は音声認識で重要な役割を果たし、専門家は音声スペクトログラムのみを見ることで多くの詳細を明らかにすることができます。

単語認識

最新の検出方法では、時間の経過とともに変化する信号の処理に基づいて、音声ストリーム内の話し言葉の開始点と終了点を正確に判断できます。これらの方法は、短時間でエネルギーと平均値を推定し、ゼロ交差の平均レベルも計算します。

オーディオが理想的な条件で作成されている場合、開始点と終了点の作成は簡単な作業です。この場合、画像を分析してストリーム内の実際の信号を特定することは難しくないため、信号対雑音比は大きくなります。実際の条件では、すべてがそれほど単純ではありません。バックグラウンドノイズは非常に激しく、音声ストリーム内の単語を分離するプロセスを混乱させる可能性があります。

最高の単語分離アルゴリズムは、ラビネル-ラメルアルゴリズムです。ストーブパルス{s1、s2、...、sn}を考慮する場合、nはストローブパルスパターンの数、siはi = 1、nはサンプルの数値表現、ストローブパルスの合計エネルギーが計算されます。

ゼロクロッシングの平均レベル：

ここで：

この方法では、3つの数値レベルを使用します。2つはエネルギー（上部、下部）、もう1つはゼロレベルの平均交差点です。エネルギーが上限レベルと正および負の値のレベルをカバーするポイントは、設定レベルをキャンセルしません。これは、音声の開始ポイントと見なされます（無音ではありません）。最初のこのようなポイントの検索は、最初から最後までパルスを交差させることによって行われ、これにより音声のある最初のエリアが決定されます。端から端への逆の遷移により、音声がある最後の領域の終点を決定できます。領域内の決定は、これら2つのポイント間でパルスを交差させることで実行できます。耳の聞こえない地域の始まりは、エネルギーがより低いレベルより小さくなるポイントで始まります。以下の図に注意してください。この図では、ろう者地域の除去の前後に：

「nouă」という言葉の音声信号

DWTアルゴリズムを使用した単語定義

単語は、数値波形を比較するか、信号のスペクトログラムを比較することで決定できます。両方の場合の比較プロセスは、シーケンスのさまざまな長さとサウンドの非線形性を補償する必要があります。 DWTアルゴリズムは、長さが異なる2つの行の間の最適な距離に対応する変形を見つけることにより、これらの問題を解決します。

アルゴリズムのアプリケーションには2つの機能があります。

1.数値波形の直接比較。この場合、数値シーケンスごとに新しいシーケンスが作成され、その寸法ははるかに小さくなります。アルゴリズムはこれらのシーケンスを処理します。数値シーケンスは数千の数値を持つことができ、サブシーケンスは数百の値を持つことができます。数値の数を減らすには、コーナーポイント間で数値を削除します。数値シーケンスの長さを短縮するこのプロセスは、その表示を変更すべきではありません。間違いなく、このプロセスは認識精度の低下につながります。ただし、速度、精度の向上を考慮すると、実際には、辞書内の単語の増加により増加します。

2.スペクトログラム信号の表現と2つのスペクトログラムを比較するためのDTWアルゴリズムの適用。この方法は、デジタル信号を重複する複数の間隔に分割することです。各パルスについて、実数の間隔（音の周波数）は高速フーリエ変換によって計算され、音のスペクトログラムのマトリックスに保存されます。パラメーターは、すべての計算操作で同じになります：パルス長、フーリエ変換長、2つの連続したパルスのオーバーラップ長。フーリエ変換は対称的に中心に接続され、複素数は一方で数字と接続されます。この点に関して、対称性の最初の部分の値のみを保存できます。したがって、スペクトログラムは複素数の行列を表し、そのような行列の行の数はフーリエ変換の長さの半分に等しく、列の数は音の長さによって決まります。 DTWは、値のスペクトログラムの共役の結果として実数の行列に適用されます。このような行列はエネルギー行列と呼ばれます。

おわりに

DTWアルゴリズムは、限られた辞書の個々の単語を認識するのに非常に役立ちます。流fluentな音声の認識には、隠れマルコフモデルが使用されます。動的プログラミングを使用すると、アルゴリズムの多項的な複雑性が得られます。O（n2v）、nはシーケンスの長さ、vは辞書内の単語の数です。

DWTにはいくつかの弱点があります。まず、O（n2v）の複雑さは、認識プロセスの成功を高める大きな辞書を満たしていません。第二に、異なる特性を持つ多くのチャネルがあるため、2つの異なるシーケンスで2つの要素を計算することは困難です。ただし、DTWは実装が容易なアルゴリズムであり、改善の余地があり、単純な単語認識を必要とするアプリケーション（電話、自動車のコンピューター、セキュリティシステムなど）に適しています。

文学

[1] Benoit Legrand、CS Chang、SH Ong、Soek-Ying Neo、Nallasivam Palanisamy、動的タイムワーピングを使用した染色体分類、ScienceDirectパターン認識レター29（2008）215–222

[2] Cory Myers、Lawrence R. Rabiner、Aaron E. Rosenberg、Performance Tradeoffs in Dynamic Time Warping Algorithms for Isolated Word Recognition、Ieee Transactions On Acoustics、Speech、And Signal Processing、Vol。 Assp-28、いいえ 1980年12月6日

[3] F.ジェリネク。「統計的手法による連続音声認識」IEEE Proceedings 64：4（1976）：532-556

[4] Rabiner、LR、隠れマルコフモデルのチュートリアルと音声認識における選択されたアプリケーション、Proc。 IEEEの2月 1989

[5] Rabiner、LR、Schafer、RW、音声信号のデジタル処理、Prentice Hall、1978年。

[6]スタンサルバドール、チャン、FastDTW：線形時間での正確な動的タイムワーピングに向けて

and Space、IEEE Transactions on Biomedical。エンジニアリング、vol。 43、いいえ。 4

[7] Young、S.、大語彙連続音声認識のレビュー、IEEEシグナル

Processing Magazine、pp。 45-57、9月 1996

[8] Sakoe、H.＆S. Chiba。（1978）音声認識のための動的プログラミングアルゴリズムの最適化。 IEEE、トランス。 Acoustics、Speech、およびSignal Proc。、Vol。 ASSP-26。

[9]Furtună、F.、Dârdală、M.、Using Discriminant Analisys in Speech Recognition、The Proceedings of The Fourth National Conference Humman Computer Interaction Rochi 2007、Universitatea OvidiusConstanţa、2007、MatrixRom、Bucharest、2007

[10] * * *、人間と機械による音声分離、Kluwer Academic Publishers、2005

記事の翻訳：音声認識における動的プログラミングアルゴリズムTitus FelixFURTUNĂ

音声認識アルゴリズムの動的プログラミング

はじめに

音声認識でのDWTアルゴリズムの使用

音声分析

単語認識

おわりに

文学

More articles: