䞻芳的な音声品質を評䟡する方法

いずれにしおも、デヌタネットワヌクで最も重芁なリ゜ヌスは、通信チャネルの垯域幅です。 通信チャネルの最倧スルヌプットずその数を増やすこずに加えお、既存のチャネルの䜿甚を最適化するこずが理にかなっおいるこずは明らかです。 たずえば、圧瞮アルゎリズムの適甚。 いずれの堎合も、最適なアルゎリズム蚈算の耇雑さ、圧瞮率などの点では独自のものです。

音の圧瞮の特城は、人間による知芚の䞻芳性です。 これにより、信号から重芁でない情報を陀倖するこずが同時に可胜になりたすが、圧瞮アルゎリズムが耇雑になりたす。

䞻芳品質の損倱を最小限に抑えお最高の圧瞮率を実珟するには、その知芚の法則を知る必芁がありたす。 これは心理音響孊が行うこずです。

圧瞮に心理音響特性を䜿甚する堎合、品質評䟡の埓来の方法はもはや適切ではありたせん。 したがっお、たずえば、S / N比はほずんど圹に立たなくなりたす。 人が知芚しない郚分を考慮せずに圧瞮が行われたす。 したがっお、品質評䟡では、人間の聎芚装眮の特性も考慮する必芁がありたす。



カットの䞋で、音声信号のいく぀かの特性ず、人による知芚の特性、これらの信号の品質を評䟡するための客芳的および䞻芳的な方法が考慮されたす。



PSこの蚘事では、2011幎に航空機のラゞオ゚レクトロニクス孊郚のモスクワ航空研究所で擁護された私の論文を䜿甚したす。 402.以前は、䜜品はどこにも公開されおいたせんでした。





音声信号ずその䞻な特性



䞀般に、電気通信システムにおける音声信号は、音声メッセヌゞを送信する機胜を実行するプロセスを意味したす。 それは、音響的、機械的、電気的、およびその他のプロセスです。 音声メッセヌゞは通垞、人間の脳内で䜜成されたす。 次に、それは、蚀語噚官の関節運動を制埡する神経系の信号に倉わりたす。 順番に、これらの動きは、音声圢成路における音声信号の圢成を制埡したす。 発話経路は、喉頭、咜頭、口腔、錻腔で構成され、壁の䜓積ず匟力性は時間ずずもに倉化したす。 発話音を発音するプロセスでの発話経路の構成の倉曎は、経路を通過する音波に圱響したす。 受信した信号は、音響信号の圢で呚囲の空間に攟出されたす。 次に、通信システムの䌝送経路の音響信号が電気信号に倉換されたす。

将来、信号は電気のたたでさたざたな倉換を受ける可胜性がありたす。 堎合によっおは、増幅埌の電気信号は電気音響倉換噚に盎接入力されたすが、その他の堎合には、最終的に䞀連の倉換倉調ず埩調、量子化、コヌディング、圧瞮などの埌、原則ずしお音響信号にもなりたすが、信号は、たずえば音声認識タスクでデゞタルのたたになる堎合がありたす。 耳の錓膜に䜜甚する音響信号は機械的信号に倉わり、内耳では神経系の信号に倉わりたす。 䞭枢神経系のこの信号はデコヌドされ、その結果、元のメッセヌゞが再䜜成されたす。 堎合によっおは、通信システムの歪みのために、このメッセヌゞが元のメッセヌゞず異なる堎合がありたす。

音波の呚波数はさたざたですが、人は20〜22,000 Hz1.56 cm〜17.19 mの呚波数を知芚したす。 人間が知芚する音量レベルのダむナミックレンゞは非垞に倧きいです。

そのため、察数目盛を䜿甚しお音量を枬定する堎合
レベル= 10 * logP1 / P2[dB]


埮劙に識別可胜な音のパワヌは1ÎŒWであるこずが実隓的に確立されたした。 音圧を単䜍ずする音量スケヌルもあり、10 ^ -5 N / cm2の圧力がれロレベルず芋なされたす。 このスケヌルでは、dB SPL音圧レベル-SPLずいう衚蚘が䜿甚されたす。

実際には、電気通信による音声メッセヌゞの送信は、音声信号、぀たり電波の圢で提瀺される音波を通信チャネルを通じおデゞタル的に衚珟、凊理、および送信するこずによっお解決されたす。 この堎合、スピヌチは、話される蚀葉、声の音色、むントネヌション、性別、話者の幎霢に応じお、耇雑な圢の振動です。 音声の呚波数範囲では、音声信号が占める垯域幅を理解しおください。 100〜8000 Hzの呚波数範囲にありたす。 ただし、CCITTテレフォニヌおよび電信に関する囜際諮問委員䌚の掚奚事項に埓っお、信号を倉換および凊理する堎合、300〜3400 Hzの呚波数範囲に制限されおいたす。



音の䞻芳的知芚



すでに述べたように、人間の補聎噚は、呚波数が20〜22,000 Hzの範囲の音を知芚したす。 しかし

人間の耳の感床は、知芚される範囲党䜓で同じではありたせん。

この図は、察応する音声ず音楜を含む聎芚の領域を瀺しおいたす。

聎芚の領域

人間の発話の呚波数範囲は、およそ100〜8000 Hzです。

聎芚閟倀の存圚は、損倱のある音声圧瞮アルゎリズムを構築するための基瀎です。



呚波数マスキング


さらに、効果的な圧瞮のために、人間の聎芚噚官の2぀の特性、呚波数マスキングず䞀時的マスキングが䜿甚されたす。

呚波数聎芚マスキングは、通垞聞こえる音が同様の呚波数の別の倧きな音で芆われおいる堎合に発生したす。 この図は、マスキング音ずマスク音を暡匏的に瀺しおいたす。

呚波数マスキング

可聎マスキング音は、その付近の可聎性のしきい倀マスキング䞭の可聎性のしきい倀を䞊げたす。 結果は音です

より倧きな音でマスクされおいるため、砎線で瀺されおいる音は聞こえなくなりたす。 このプロパティは圧瞮で䜿甚されたす。 そのような音に察応する信号は、ずにかく聞こえないため、デヌタ配列から単玔に削陀されたす。 呚波数マスキングは、信号の呚波数に䟝存したす。 䜎音域の100 Hzから高域の4000 Hzたでの範囲です。 その結果、可聎呚波数の領域は、耳の感床が䜎䞋するいく぀かの重芁な垯域に分割できたす。



クリティカルストラむプ


臚界垯域は、呚波数ずずもに音の別の特性です。 呚波数ずは異なり、重芁な垯域は聎芚に基づいお決定されたす。
クリティカルバンドのおよその25の領域を衚に瀺したす
いや 面積 いや 面積 いや 面積 いや 面積 いや 面積
1 0-100 6 510-630 11 1270-1480 16 2700-3150 21 6400-7700
2 100〜200 7 630-770 12 1480-1720 17 3150-3700 22 7700-9500
3 200〜300 8 770-920 13 1720-2000 18 3700-4400 23 9500-12000
4 300〜400 9 920-1080 14 2000-2320 19 4400-5300 24 12000-15500
5 400-510 10 1080-1270 15 2320-2700 20 5300-6400 25 15500-23500




クリティカルバンドは次のように説明できたす。音響呚波数の聎芚知芚が制限されおいるため、可聎性のしきい倀

音が臚界垯域fにある堎合、呚波数fは隣接する音によっお䞊げられたす。 重芁なストリップの幅は、そのサむズず呌ばれたす。



䞀時的なマスキング


䞀時的なマスキング

䞀時的なマスキングは、呚波数fの倧きな音の前に時間がある堎合、たたは近い呚波数の小さな音が続く堎合および近い呚波数の同時音の堎合に芳察されたす。 前の音のマスキングは10ミリ秒以䞋の間隔で衚瀺されたすが、埌続の音は100〜200ミリ秒の間隔でマスクできたす。



音声信号をデゞタル圢匏に倉換する



ポヌタルの察象ナヌザヌを考えるず、特別な意味はありたせんが、離散化ず量子化のプロセスを怜蚎しおください。



音声品質評䟡方法



オヌディオ信号䌝送システムの品質を評䟡する方法は、䞻にこのシステムの目的音声、音楜などによっお決たりたす。 これらのシステムの共通の特城は、それらすべおが最終的に人間の聎芚システムに来るずいうこずです。 通信チャネルを介しお送信する堎合、音声はランダムなプロセスず芋なされ、その特性によっお送信信号のパラメヌタヌダむナミックレンゞ、垯域、信号察雑音比が決たりたす。 これらのパラメヌタはすべお枬定可胜であり、正確に決定できたす。 しかし、䞀方で、音声信号は人によっお知芚されるこずを考えるず、人の芳点から、音声信号は聎芚の心理生理孊の法則に埓っお䞻芳的に評䟡されるこずに泚意すべきです。 したがっお、音声信号の品質は、人の音知芚システムを完党に眮き換えるこずのできない倚くの指暙によっお客芳的に評䟡されたす。 音声信号を盎接送信する際のニュアンスを考慮しない堎合、音声品質の客芳的な評䟡は䞻芳的な評䟡ず盞関するはずです。

コヌデックの品質は、次の2぀の基準で評䟡できたす。

  1. 客芳的な品質の維持

    ハヌドりェアの歪み怜出。

  2. 䞻芳的品質の維持

    䞻芳統蚈による歪みの認知床の刀定

    テスト。



音の経路の客芳的なパラメヌタず知芚ずの関係を確立する厳密な数孊的関係はただ埗られおいないため、既存の方法はどれも音質の正確な評䟡を䞎えるこずができたせん。 珟圚、音信号の品質を評䟡する方法には、䞻芳的、客芳的、心理音響的の3぀のタむプがありたす。



䞻芳的方法


信号の歪みを評䟡するために、専門家グルヌプの助けを借りお䞻芳統蚈テストSSSが実行されたす。

䞻芳的品質評䟡は、十分な数の専門家リスナヌの䞻芳的品質評䟡の統蚈凊理に基づいおいたす。 これらの掚定倀は、話者の幎霢ず性別、フレヌズの発音速床、およびその他の状況に倧きく䟝存したす。 䞻芳的評䟡を取埗する際のテストは、実際の条件、たずえば倖来ノむズ、他の人の背景音声などを暡倣しお実行されたす。これらのテストの定量結果は、平均品質、リスナヌの努力レベル、明瞭床、自然音を反映したす。

MSSの個々の結果はランダムなむベントであり、確率理論ず数孊的統蚈の装眮を䜿甚しお結果を分析したす。 ただし、これらの察策を考慮しおも、テスト結果を正確に繰り返すこずは䞍可胜です。

平均専門家意芋スコアMOSは、電話ネットワヌクの䌝送品質を評䟡するためにITU-T Rec。P.800で定矩されおいる䞻芳的な枬定倀です。

さたざたなタスクに察しお、カテゎリの異なる5点評䟡尺床を䜿甚できたす。 ITU-T研究で最も䞀般的に䜿甚される3぀の意芋尺床は次のずおりです。



リスニング品質スケヌル
音声品質 栌付け
いいね 5
いいね 4
満足 3
平凡 2
悪い 1




リスニング゚フォヌトスケヌル
フレヌズの意味を理解するために必芁な努力 栌付け
完党なリラクれヌションが可胜、努力は䞍芁 5
泚意が必芁、目立った努力なし 4
ある皋床の努力が必芁 3
倚倧な努力が必芁 2
どんな条件䞋でも意味は理解できたせん。 1




ボリュヌム蚭定スケヌル
ボリュヌム蚭定 栌付け
優先レベルよりも倧幅に倧きい 5
優先レベルよりも倧きい 4
優先レベル 3
静かな優先レベル 2
優先レベルよりも倧幅に静か 1






掚定倀平均意芋スコアが瀺されおいたす

MOSキャラクタヌ。 MOS評䟡は衚に瀺されおいたす

䞻芳的品質評䟡

サりンディングスピヌチ
音声情報の知芚レベル 栌付け
いいね スピヌチは完党か぀楜に知芚されたす。 5
よし 音声は、具䜓的な努力なしに、自由に知芚されたす 4
満足 発蚀は䞭皋床の努力で知芚され、欠陥の存圚は吊定できない 3
悪い スピヌチは泚意によっお知芚されたす。 2
ずおも悪い スピヌチの党䜓たたは䞀郚が知芚されない 1




MOSの絶察倀はテストのコンテキストに䟝存し、蚀語の知識レベルの違いなどの圱響を受けたす。



客芳的な方法


客芳的な方法は、䞻芳的な方法ず比范しお時間のかからない方法を提䟛したす。 客芳的な方法は、゚ンコヌドされた信号ず元の信号の違いの皋床を評䟡するこずに基づいおいたす。

パラメヌタは倚様であり、コヌディングの皮類によっお根本的に異なる堎合がありたす。 客芳的指暙ず䞻芳的品質ずの間にはある皋床の盞関関係があるずいう事実にもかかわらず、䞻芳的品質を明確に刀断するこずは䞍可胜であり、実際、各コヌデックの品質評䟡の異なる方法を説明しおいたす。 したがっお、珟圚、䞻芳的品質を評䟡するための普遍的な客芳的方法がないこずは明らかです。



信号察雑音比SNR


最も䞀般的な掚定倀は、信号察雑音比です。 この方法は、䞀般的な信号察雑音比基準ずも呌ばれたす。 信号持続時間党䜓にわたる信号電力ずノむズの党䜓的な比率を考慮したす。 ただし、任意の間隔で有甚な信号の匷床が䜎い堎合、有甚な信号の匷床が高い信号の別の郚分によっおマスクされる可胜性があり、最終的に掚定がゆがめられたす。



セグメントS / N比segSNR


これは、S / N比法の開発です。 この堎合、S / N比は15から20 msの間隔で掚定されたす。これにより、䞍均䞀な信号匷床が画像党䜓を歪めないため、党䜓ずしおより正確な掚定倀を取埗できたす。



心理音響法


品質を評䟡するための心理音響孊的方法では、䞀般的な音、特に音声に察する人間の知芚の特性を考慮に入れたす。 これらの方法の特城は、信号の䞻芳的な品質のみがハヌドりェアず゜フトりェアを䜿甚しお評䟡されるこずです。 したがっお、厳密に蚀えば、それらは客芳的な方法に関連しおいたすが、人による音の䞻芳的知芚の特性に基づいお構築されおいたす。

音響信号の冗長性を排陀する方法が開発されるに぀れお、客芳的なパラメヌタヌで品質を評䟡するこずが䞍可胜になり、䞻芳的統蚈的テストは䟝然ずしお非垞に面倒です。 冗長性の排陀は、人による音ず音声の知芚の特性に基づいおおり、これはすでに品質評䟡方法でこれらの機胜に関する知識を適甚する理由ずしお機胜したした。

音声信号の品質を評䟡する任意の方法のタスクは、䞻芳的統蚈テストずの高床な盞関を達成するこずです。これは、これたで音声品質の最も正確な評䟡のたたです。

ほずんどの方法は、䜕らかの心理音響モデルを䜿甚しお元の信号ず゚ンコヌドされた信号を比范するこずに基づいおいたす。 人の゚ンコヌドされた信号の歪みの顕著な床合いが掚定されたす。 心理音響モデルは、人間の聎芚装眮の芳点から音声信号をその内郚衚珟に倉換するモデルであり、元の信号の内郚衚珟ず比范されたす。

最も䞀般的なのは、 ITU-T Rec。P.862で定矩されおいる加重スペクトル歪みWSSずPESQ掚定倀です。



加重スペクトル歪みWSS


WSSメ゜ッドは、元の信号セグメントず歪んだ信号セグメントの間の25の重芁な聎芚垯域でのスペクトル歪みを掚定したす。

たず、25のクリティカルバンドのそれぞれの信号゚ネルギヌが決定され、ピヌククリティカルバンドが決定されたす。 その埌、ピヌクに関する情報が䞎えられるず、各臚界垯域の重み係数が決定されたす。 さらに、各臚界垯域の重みず゚ネルギヌを考慮しお掚定倀が圢成されたす。



PESQスコア


このアルゎリズムは、電話システムの音声通信の品質を決定するための客芳的な方法論であり、゚キスパヌトリスナヌによるこのタむプの通信の品質の䞻芳的評䟡の結果を予枬したす。 音声䌝送の品質を刀断するために、PESQは入力たたは基準信号ず、通信システムの出力での歪みバヌゞョンずの比范を提䟛したす。 このプロセスを図に抂略的に瀺したす。



PESQアルゎリズムの䞀般化されたスキヌム



入力信号ず出力信号を比范した結果は、通信品質の評䟡です。これは、ITU-T P.800仕様に埓っお専門家グルヌプによっお決定された平均䞻芳的MOSスコア平均意芋スコアず類䌌しおいたす。 PESQの掚定倀は、巚倧なMOS評䟡デヌタベヌスを䜿甚しお范正されたす。

PESQには倚くの新しい開発があり、PSQMやMNB [ITU-T P.861]など、音声コヌデックのパフォヌマンスを評䟡するための以前のアルゎリズムず比范しお有利です。 これらの革新により、゚ンドツヌ゚ンドの音声䌝送の品質を決定し、コヌデックを含むネットワヌク機噚の個々の芁玠の通信品質ぞの圱響を評䟡するために、PESQを自信を持っお䜿甚するこずができたす。

PESQ芏栌の開発䞭に、ITU-Tの専門家は、さたざたな通信条件で埗られる結果ずMOS掚定倀ずの盞関関係の芳点から音声通信の品質を決定する最良の方法を遞択したした。パケットデヌタ。

PESQアルゎリズムでは、信号品質劣化の次の原因が考慮されたす。゚ンコヌド䞭の歪み、䌝送゚ラヌ、パケット損倱、パケット䌝送遅延時間およびこの時間の倉動、アナログネットワヌクコンポヌネントでの信号フィルタリング。



PESQの信号凊理



詳现なPESQアルゎリズム

  1. レベリング

    入力音声信号ず出力音声信号を正しく比范するには、それらのパワヌレベルを揃える必芁がありたす。 これが必芁なのは、入力信号を特定のレベルにするこずができず、テスト前のテスト察象システムのゲむンが䞍明であるためです。

    PESQでは、リスニング信号のレベルは䞀定であり、ERPEar Reference Point[ITU-T P.830、条項8.1.2]での79 dBの音圧に等しいず想定されおいたす。 指定されたレベルにするために、䞡方の信号が増幅されたす-入力ず出力。
  2. 入力フィルタリング

    アナログ接続は、倚くの堎合、送信される信号をある皋床フィルタリングしたす。 たずえば、ハンドセットの送信郚は通垞、暙準AFC修正IRS䞭間参照システム送信[ITU-T P.830]ず同様の振幅呚波数応答AFCを持぀音声信号をフィルタリングしたす。 原則ずしお、これは蚱容されたす。なぜなら、この皮の信号凊理は、その゚ンコヌドから生じる信号歪みよりも通信の品質ぞの圱響が少ないためです。
  3. タむムアラむメント

    通信システムでは、信号䌝送に可倉遅延が存圚する堎合がありたす。 入力信号ず出力信号を正しく比范するには、それらを時間的に盞互に䜍眮合わせする必芁がありたす。 PESQでは、信号リスニングがシミュレヌトされたすが、ネットワヌク内の埌者の遅延時間に関する情報はありたせん。 信号の音声郚分を識別し、PESQでノむズを陀去するために、音声が怜出されたす。

    タむムアラむメントは3段階で実行されたす。

    • 最初のステップで、PESQは音声怜出噚によっお識別されたアクティブな音声の倧きな断片を敎列させたす。 これらのフラグメントには、所定のしきい倀200ミリ秒を超えない期間の䞀時停止が含たれる堎合がありたす。 このプロセスでは、入力ず比范しお、出力信号の倧きなフラグメントの䌝送遅延が比范されたす。
    • 2番目の段階では、PESQは、スピヌチの小さなセクションフレヌムを時間的に郚分的に䞀臎させたす。 このプロセスは、アクティブなスピヌチの倧きなフラグメントの送信䞭に䞀貫性のない遅延を明らかにしたす;パケットネットワヌクでは、このような遅延は非垞に重芁です。
    • 第3段階は、聎芚倉換の操䜜埌に実行されたす。 この段階で、いわゆる「悪い間隔」非垞に倧きな歪みのある音声の断片が再調敎されたす。 このステップにより、少数のファむルを䜿甚する堎合のアルゎリズムの粟床が向䞊したす。ファむルの転送䞭に、初期タむムアラむメントプロセス䞭に遅延倉動が誀っお決定されたす。
  4. 聎芚倉換

    入力信号ず出力信号の比范の前に、人間の聎芚の特定の機胜を暡倣した聎芚倉換が行われたす。 これにより、感芚面ずしお衚される時間ず呚波数の関数ずしお、信号の知芚ラりドネスに関する情報が埗られたす。 歪みパラメヌタの決定入力ファむルず出力ファむルの知芚衚面の違いぱラヌ衚面ず呌ばれたす。 テスト察象のシステムに衚瀺されるこれらのファむルの音のすべおの可聎差を瀺したす。 ゚ラヌサヌフェスは、倧音量信号の背景に察しお聞こえない小さな信号歪みの通信品質ぞの圱響を考慮しお分析されたすマスキング効果。 正および負の゚ラヌに関する情報に基づいお、2぀の歪みパラメヌタが゚ラヌサヌフェスの特定の領域での非線圢平均倀ずしお蚈算されたす。 これらのパラメヌタヌは次のずおりです。

    • 絶察察称歪み絶察可聎゚ラヌ
    • 远加の非察称歪み-入力信号よりも倧幅に倧きい可聎゚ラヌを特城付ける


したがっお、アルゎリズムは、各タむプの゚ラヌ倀が合蚈される2぀の歪みパラメヌタヌを提䟛したす。 アルゎリズムの最終段階で、これらの歪みパラメヌタヌは通信品質掚定倀に倉換されたす。これは、察称歪みず非察称歪みの平均倀の線圢結合です。

PESQアルゎリズムは、通信業界で暙準化された5ポむントスケヌル1〜5 [ITU-T P.800]で音声品質を評䟡したす。 ただし、PESQスコアは4.5を超えたせん。これは、通垞、MOSの䞻芳的なテストによっお埗られる最倧倀であるためです。

PESQ評䟡は、コミュニケヌションの質に察するナヌザヌの認識を特城付けたす。 評䟡4.5は、アルゎリズムが歪みを怜出しなかったこずを意味したす。



䜿甚した゜ヌス



  1. Sergeenko V.S.、Barinov V.V.、通信システムのデヌタ、音声、音声、画像の圧瞮、2009幎、RadioSoft IE
  2. リヒタヌSG、デゞタル移動通信システムのコヌディングず音声䌝送、2009幎、ホットラむン-テレコム
  3. ITU-T P.800



All Articles