80年の間に、フォルマントアプローチは多くの支持者と修正を獲得しましたが、アーティキュレーションインデックス(AI)として知られる外国語版のフォルマントメソッドが最も一般的になりました。 N. B.ポクロフスキーのバージョンと、それに基づいて音声の明瞭度を測定する現代のロシアの方法を検討して、私たちは彼に来ます。
ポクロフスキー法
この方法によれば、分析された周波数範囲全体がいくつかの隣接する帯域に分割され、それぞれの帯域内でフォルマント、音声、およびノイズスペクトルの確率密度はほぼ一定と見なされます。 調音明瞭度は、各ストリップのフォルマントの明瞭度の合計です。
![](https://habrastorage.org/storage1/7a88b00c/d6520337/23d083c5/56564b47.png)
![](https://habrastorage.org/storage1/bb89b120/409af8bc/cfea7eb2/ffccf7da.png)
Kは隣接するバンドの数です。
p kは、 k番目の周波数帯域におけるフォルマントの滞留確率です。
F 1 (f)はフォルマントの確率分布関数です。
f okは帯域の中心周波数です。
f Nkはストリップの下限カットオフ周波数です。
f bkはストリップの上限カットオフ周波数です。
P(E ' k ) -音声知覚係数、それ以外の場合、ノイズによる音声マスキングの欠如の確率。
音声知覚係数は、フォルマントスペクトルと干渉スペクトルのレベルの違いに依存します。 十分に大きいノイズレベルでは、各周波数帯域でのこの信号対ノイズ比。
![](https://habrastorage.org/storage1/b87c2735/58174226/5ded5157/9b45519b.png)
率直に言って、音声知覚係数の曲線は周波数帯域ごとに異なりますが、N。B.ポクロフスキーの方法では、彼はそれに注意を払わず、計算を簡素化するために1つの曲線を使用することも求められました。 顔の方法論的エラー。
もちろん、ポクロフスキー法の完全な説明については、少なくとも知覚係数、いくつかの式、およびコメントを構築するための方法論を提供する必要がありますが、これはこの記事の目的ではないため、先に進みます。
ほぼAI
現代のロシアの方法は、2000年にZheleznyak Y. I.、Makarov Yu。K.、Khorev A. A.によって提案されました。実際、彼はポクロフスキーN. B.の方法を繰り返しますが、信号は5オクターブの周波数帯域で分析されます。 。 また、分析の関係による測定量の近似を必要とする計算の自動化も想定しています。
f 0 、Hz | 250 | 500 | 1000 | 2000年 | 4000 |
---|---|---|---|---|---|
∆f、Hz | 180 ... 355 | 355 ... 710 | 710 ... 1400 | 1400 ... 2800 | 2800 ... 5600 |
∆fは周波数帯域です。 f 0-ストリップの平均周波数 |
前と同様に、調音の明瞭度は次の式によって決定されます。
![](https://habrastorage.org/storage1/52caa0d0/e786f74b/3632401c/49404afd.png)
分析比:
![](https://habrastorage.org/storage1/c77c9174/f23555eb/0f448db4/a2fbdbb8.png)
![](https://habrastorage.org/storage1/e90e2350/3198d993/dd538117/e5183682.png)
![](https://habrastorage.org/storage1/c1b6d64a/781701b6/7ab87c6b/079ef5d5.png)
![](https://habrastorage.org/storage1/e8f608b7/d6bfc880/bf2e7c68/b8d7e562.png)
E ' kは、周波数帯域におけるフォルマントの効果的な感覚レベルです。
E kは、周波数帯域における音声信号の効果的な感覚レベルであり、比較的大きなノイズレベルは信号対雑音比SNRに等しくなります。
∆B(f)は、平均音声スペクトルとフォルマントのスペクトルの差です。
![](https://habrastorage.org/storage1/77f56fcc/c00081ed/5d92b4b0/40bd6c6f.png)
D sk 、D nkは、それぞれ信号とノイズの分散です。
![](https://habrastorage.org/storage1/fe631d0c/808ca194/cd6cf66d/2fa59c71.png)
言語明瞭度はフォルマントを使用して計算されます:
![](https://habrastorage.org/storage1/696c4497/4ec09e00/b71bb1c6/95af1495.png)
V. L. Kargashinは、このバージョンを改善する必要があるという意見を表明しました。
- 中心周波数が8 kHzの別の分析帯域を追加する必要があります。
- 3分の1オクターブバンドでの計算の可能性を実現する必要があります。
- より単純な関数で知覚係数を近似することが望ましい
上記はAIメソッドに存在します。
AI
アーティキュレーションインデックスの使用は、1940年にG.フレッチャーによって提案されました。 このメソッドには2つのバージョンがあります。
- 20の等しく連接するバンドの場合。
- 6オクターブまたは15の1/3オクターブバンド用
20の等関節バンドについてこの方法を検討してください。 音声明瞭度は、同じ式で決定されます。
![](https://habrastorage.org/storage1/52caa0d0/e786f74b/3632401c/49404afd.png)
ただし、計算は20バンドで実行されるため、上記の式は次の形式を取ります。
![](https://habrastorage.org/storage1/c1faf9a2/a27a9f69/08daf1d2/2e70a1b1.png)
∆L i-音声のピークレベルとマスキングノイズの有効レベルの差
![](https://habrastorage.org/storage1/1cd5baf1/8f100d97/69303207/9408cde6.png)
このように
![](https://habrastorage.org/storage1/1ec7bb7f/66b7e06b/8cbeb748/f1b9cbd2.png)
疑問が生じるかもしれませんが、このような線形関係で知覚係数を近似する権利がありますか? なぜなら、ポクロフスキー曲線を使用して得られた結果は、線形依存性による近似で得られた結果と同じ平均になるからです。
![](https://habrastorage.org/storage1/8e35e8c3/366fa942/3ceb5a1b/2743fe5d.png)
B r peak-スピーチのピークレベル。
B W-実効ノイズレベル。
P p-ピーク係数-レベルのピーク値と二乗平均平方根の比率。
Eは、音声信号の感覚の効果的なレベルです。
調音インデックスの言語およびフレーズの明瞭度への再計算は、スケジュールに従って実行されます。
![](https://habrastorage.org/storage1/3c66415a/39099642/e1807a3e/733ab39d.png)
アーティキュレーションインデックスのさまざまなスコアを以下に示します。
![](https://habrastorage.org/storage1/03f057a9/1d951846/28152a91/bb0195c4.png)
![](https://habrastorage.org/storage1/abfb004f/94e4a07c/30569319/be0f2258.png)
![](https://habrastorage.org/storage1/655c6cf5/774d28b7/95c1db9f/eea8ceaa.png)
このメソッドは次を考慮します。
- 残響干渉の影響;
- 伝送経路の周波数応答の影響。
- デューティサイクルまたはオン/オフ時間がわかっている場合のマスキングノイズの不安定な性質;
- クリッピング効果;
該当しない方法:
- 音声信号がいくつかの異なる種類の干渉の影響を受ける場合;
- スピーカーとスピーカーからの混合受信の場合
地下室
- 音声通信チャネルの音響検査。 モノグラフ/ Didkovsky V.S.、Didkovskaya M.V.、Prodeus A.N.-キエフ、2008.420。
- electrovoice.com.ua