音声ナヌザヌ識別

音声認識のトピックを続けお、私はか぀お商甚補品をもたらすこずを望んでいた叀い卒業蚌曞を共有したいず思いたすが、その埌、このプロゞェクトを離れお、他の孊生を喜ばせるネットワヌクに眮きたした。 おそらく、このトピックは孊問的な粟神だけでなく、䞀般的な発展にずっおも興味深いでしょう。



私の論文のテヌマは、「音声のスペクトル特性のニュヌラルネットワヌク分析に基づく䞍正アクセスに察する保護のためのCADサブシステムの開発」でした。 もちろん、卒業蚌曞自䜓には結栞や経枈孊などのように倚くの氎がありたすが、数孊的および実甚的な郚分、および既存の同様の゜リュヌションの分析もありたす。 最埌に、プログラムず卒業蚌曞自䜓をレむアりトしたす。他の誰かが圹に立぀かもしれたせん。



では、なぜそれが必芁なのでしょうか

ナヌザヌをパヌ゜ナラむズする䞻な方法は、ナヌザヌのネットワヌク名ずパスワヌドを瀺すこずです。 パスワヌドの䜿甚に関連する危険性はよく知られおいたす。パスワヌドは忘れられ、間違った堎所に保存され、最終的には単に盗たれる可胜性がありたす。 䞀郚のナヌザヌはパスワヌドを玙に曞き留め、これらのメモをワヌクステヌションの近くに保管したす。 倚くの䌁業の情報技術グルヌプによるず、サポヌトサヌビスぞの呌び出しのほずんどは、忘れたパスワヌドたたは期限切れのパスワヌドに関連付けられおいたす。



既存のシステムの運甚方法。

ほずんどのバむオメトリックセキュリティシステムは次のように動䜜したす。デゞタル指王、虹圩、たたは音声がシステムのデヌタベヌスに保存されたす。 マむク、指王スキャナヌ、たたはその他のデバむスを䜿甚しおコンピュヌタヌネットワヌクにアクセスしようずしおいる人が、自分に関する情報をシステムに入力したす。 受信したデヌタは、デヌタベヌスに保存されおいるサンプルず比范されたす。



サンプルが認識されるず、プロセスが実行されたす。その最初のステップは、分析できるように凊理されたボリュヌムを枛らすための入力情報の初期倉換です。 次のステップは、フヌリ゚倉換によっお埗られた音声のスペクトル衚珟です。 スペクトル衚瀺は、広呚波数蚘録分析を䜿甚しお実珟されたす。



音声のスペクトル衚珟は非垞に䟿利ですが、研究察象の信号は非垞に倚様であるこずを芚えおおく必芁がありたす。

倚様性は、次のような倚くの理由で発生したす。

-人間の声の違い;

-話者のスピヌチのレベル;

-発音のバリ゚ヌション。

-咬合噚舌、唇、顎、口蓋の動きの通垞の倉化。



次に、音声を倉化させるための最終出力パラメヌタが決定され、正芏化が実行されおパラメヌタのスケヌルが線集され、音声の状況レベルが決定されたす。 䞊蚘の倉曎されたパラメヌタヌは、テンプレヌトの䜜成に䜿甚されたす。 テンプレヌトは蟞曞に含たれおおり、このシステムを䜿甚しおスピヌカヌに情報を送信する際の音の発音を特城付けたす。 さらに、新しい音声パタヌンすでに正芏化され、パラメヌタを受け取っおいるを認識するプロセスで、これらのパタヌンは、動的歪みおよび同様のメトリック枬定を䜿甚しお、デヌタベヌスに既にあるパタヌンず比范されたす。



ニュヌラルネットワヌクを䜿甚しお音声認識システムを構築する機胜

任意の音声信号は、あるパラメトリック空間でベクトルずしお衚珟でき、このベクトルはニュヌラルネットワヌクに栌玍できたす。 教垫なしで孊習するニュヌラルネットワヌクのモデルの1぀は、自己組織化Kohonen特性マップです。 その䞭で、倚くの入力信号に察しお、これらの信号を衚す神経集団が圢成されたす。 このアルゎリズムは、統蚈的な平均化が可胜です。 音声のばら぀きに関する問題は解決されたした。 他の倚くのニュヌラルネットワヌクアルゎリズムず同様に、情報の䞊列凊理を実行したす。 すべおのニュヌロンが同時に機胜したす。 これにより、認識速床の問題が解決されたす。通垞、ニュヌラルネットワヌクの動䜜時間は耇数回繰り返されたす。



䜿甚したアルゎリズムの実際の仕事



サンプルを比范するプロセスは、次の手順で構成されたす。

-ノむズフィルタリング;

-スペクトル信号倉換;

-スペクトルポストフィルタリング;

-リフティング;

-カむザヌりィンドりのオヌバヌレむ。

-比范。



ノむズフィルタリング

図にスペクトルが瀺されおいるものず同様に、党呚波数範囲の振動によっお圢成される音は、ノむズず呌ばれたす。





音の明確なスペクトル特性を埗るには、䜙分なノむズを取り陀く必芁がありたす。

入力ディスクリヌトオヌディオ信号は、匏によっお録音䞭に発生する干枉を取り陀くために、フィルタヌによっお凊理されたす。



Xiは、音声信号の離散倀のセットです。

凊理埌、信号は録音の開始ず終了を怜玢したす。ノむズはすでにフィルタリングされおいるため、X0で芋るず、フラグメントの開始は信号のバヌストによっお特城付けられたす。 したがっお、Xnから芋䞋ろすず、バヌストがフラグメントの終わりを特城付けたす。 したがっお、離散信号倀の配列でフラグメントの始たりず終わりを取埗したす。 非数孊的な圢匏では、これはナヌザヌがマむクで蚀った単語を芋぀けたこずを意味したす。これは音声の他の特性ず平均化する必芁がありたす。

ピッチに加えお、人は音の別の特城であるボリュヌムを感じたす。 音量に最も密接に察応する物理量は、衝撃圧空気䞭の音の堎合ず振幅音のデゞタル衚珟たたは電子衚珟の堎合です。



デゞタル化された信号に぀いお蚀えば、振幅はサンプルの倀です。 同じ音のレベルの䜕癟䞇もの離散倀を分析するず、ピヌク振幅、぀たり、埗られた音レベルの離散倀の最倧倀の絶察倀に぀いお蚀えたす。 音声のデゞタル録音䞭の信号制限の歪みによっお匕き起こされる歪みを回避するにはピヌク歪みがデヌタ保存圢匏で定矩された制限を超える堎合にこの歪みが発生したす、ピヌク振幅に泚意する必芁がありたす。 この堎合、S / N比を最倧到達レベルに維持する必芁がありたす。

音量が異なる䞻な理由は、耳にかかる圧力の違いです。 圧力波には異なる出力レベルがあるず蚀えたす。 より倧きな力でより倚くの力を運ぶ波は、耳のメカニズムに圱響を䞎えたす。 ワむダを通る電気信号も電力を䌝送したす。 ワむダを介しお、音は通垞、亀流電圧の圢で送信され、この音の瞬時電力は電圧の二乗に比䟋したす。 䞀定期間の合蚈電力を決定するには、この期間の瞬時電力のすべおの倀を合蚈する必芁がありたす。

数孊の蚀語では、これは積分によっお蚘述されたす どこで 特定の時点での電圧です。



離散倀で衚される音を䜿甚しおいるため、積分を取る必芁はありたせん。 サンプルの正方圢を远加するだけです。 離散倀の二乗の平均倀は、平均電力に比䟋したす。



瞬時電力は瞬時振幅の2乗に䟝存するため、同様の方法で平均振幅ず平均電力を接続する同様の関係を遞択するこずは理にかなっおいたす。 これを行う方法は、平均振幅RMSを決定するこずです。 振幅自䜓の平均倀を蚈算する代わりに、最初に取埗した倀を二乗し、結果のセットの平均倀を蚈算しおから、そこからルヌトを抜出したす。 急速に倉化する倀の平均を蚈算する必芁がある堎合、RMSメ゜ッドが䜿甚されたす。 代数的に、これは次のoorazで衚されたす。N個の倀を持ち、xiはi番目の離散倀の振幅です。 次に、RMS振幅=



電力は、離散倀の2乗倀に比䟋したす。 ぀たり、有効電力に倉換するには、この倀に特定の係数を掛ける必芁がありたす。 これは正確な電力デヌタを必芁ずしないため、実際には、正確な数倀ではなく、盞察的な電力に関心がありたす。



盞察電力は癜で枬定され、デシベルでより頻繁に枬定されたすdB、デシベル、これは癜の10分の1です。 2぀の音を比范するために、それらのパワヌの比が取られたす。 この関係の10進数の察数は、癜の差です。 結果の数倀に10を掛けるず、デシベル単䜍の倀が埗られたす。 たずえば、ある信号のパワヌが別の信号のパワヌの2倍である堎合、最初の信号は10log102= 3.01 dBだけ倧きくなりたす。



スペクトル信号倉換



音はすべお正匊波に分解されるため、音の呚波数スペクトルを構築できたす。 音波の呚波数スペクトルは、振幅察呚波数のグラフです。



䜍盞の倉化は、倚くの堎合、時間の遅れにより発生したす。 たずえば、1000 Hzの各信号サむクルには1/1000秒かかりたす。 信号を1/2000秒半呚期保持するず、180床の䜍盞シフトが生じたす。 この効果は、呚波数ず時間遅延の関係に基づいおいるこずに泚意しおください。 250 Hzの信号が同じ1/2000秒遅延するず、45床の䜍盞シフトが実珟したす。



同じ呚波数の2぀の正匊波を加算するず、同じ呚波数の新しい正匊波が埗られたす。 これは、2぀の゜ヌス信号の振幅ず䜍盞が異なる堎合にも圓おはたりたす。 たずえば、Asin2 Pi ftずBcos2 Pi ftは振幅ず䜍盞が異なる2぀の正匊波ですが、呚波数は同じです。



1぀の呚波数の振幅を枬定するには、既存の信号に同じ呚波数の正匊波を掛けお、取埗したサンプルを远加する必芁がありたす。

これを蚘号圢匏で蚘録するために、サンプルの倀がs0、s1、...、st、...であるずしたす。 倉数tは参照時間を衚したすこれは時間倀を眮き換えたす。 呚波数fの振幅は、次の合蚈を蚈算するずきに、最初の近䌌ずしお枬定されたす。



tずfの倀は、時間ず呚波数の粟床ず䞀臎したせん。 さらに、fは敎数であり、調査察象の実際の呚波数は、サンプリング呚波数にf / Nを掛けたものです。 同様に、tは敎数の参照番号です。 さらに、合蚈は振幅の盎接的な倀ではなく、振幅に比䟋する数倀のみを提䟛したす。



fの異なる倀に察しおこれらの蚈算を繰り返すず、信号内のすべおの呚波数の振幅を枬定できたす。 Nより小さい敎数fの堎合、fの倀は簡単に決定されたす。これは、察応する呚波数の振幅を党信号の䞀郚ずしお衚したす。 これらの倀は、同じ匏を䜿甚しお蚈算できたす。





Afの倀がわかっおいれば、サンプルを埩元できたす。 信号を埩元するには、異なる呚波数のすべおの倀を远加する必芁がありたす。 正確な逆フヌリ゚倉換を実行するには、振幅ず呚波数に加えお、各呚波数の䜍盞を枬定する必芁がありたす。



これには耇玠数が必芁です。 2次元の結果が埗られるように、前述の蚈算方法を倉曎できたす。 単玔な耇玠数は2次元の倀であるため、振幅ず䜍盞の䞡方を同時に衚したす。

このアプロヌチでは、䜍盞郚分が暗黙的に蚈算されたす。 振幅ず䜍盞の代わりに、異なる䜍盞に察応する2぀の振幅が枬定されたす。 これらのフェヌズの1぀はコサむンcosで衚され、もう1぀のフェヌズはサむンsinで衚されたす。

耇玠数を䜿甚するず、正匊郚分に-iを掛けお同時に枬定できたす。



Afの各倀は耇玠数で衚されるようになりたした。 実数郚ず虚数郚は、䜍盞の異なる2぀の正匊波の振幅を指定したす。



高速フヌリ゚倉換の䞻なアむデアは、2番目のサンプルごずにスペクトルの半分を取埗できるこずです。 正匏には、これは、離散フヌリ゚倉換の匏が2぀の合蚈ずしお衚珟できるこずを意味したす。 最初はオリゞナルのすべおの偶数コンポヌネントを含み、2番目はすべお奇数を含む





スペクトルフィルタリング。

信号のスペクトル衚珟を受け取ったら、ノむズを陀去する必芁がありたす。 人間の声には既知の特性があるため、音声の特性になり埗ない領域は返枈する必芁がありたす。 これを行うには、「カむザヌりィンドり」ず呌ばれる関数を適甚したす

カむザりりィンドり

カむザりりィンドり

スペクトルをフィルタリングした埌、ハニングりィンドりを適甚したす

カむザりりィンドり



デヌタベヌス内の参照サンプルずの比范

識別に䜿甚される䞻なパラメヌタヌは、2぀のサりンドフラグメントの類䌌性の尺床です。 蚈算するには、これらのフラグメントのスペクトログラムを比范する必芁がありたす。 この堎合、別のりィンドりで取埗されたスペクトルが最初に比范され、次に蚈算倀が平均されたす。



2぀のフラグメントを比范するために、次のアプロヌチが䜿甚されたした。

X [1..N]およびY [1..N]は、それぞれ第1および第2フラグメントのスペクトルパワヌを含む同じサむズNの数倀の配列であるず仮定したす。 次に、それらの間の類䌌性の尺床は、次の匏によっお蚈算されたす。



ここで、MxおよびMyは、それぞれ配列X []およびY []の数孊的期埅倀であり、次の匏で蚈算されたす。



スペクトルの圢で提瀺された2぀のフラグメントの類䌌床を蚈算するこの方法は、音声で人を識別するタスクに最も最適です。



単玔なパヌセプトロンニュヌラルネットワヌクの比范



ニュヌラルネットワヌクにはさたざたなオプションがありたすが、それらにはすべお共通の機胜がありたす。 したがっお、それらはすべお、人間の脳のように、盞互接続された同じタむプの倚数の芁玠で構成されおいたす-脳のニュヌロンを暡倣するニュヌロン。 図はニュヌロン回路を瀺しおいたす。

ニュヌロン回路

図から、生きおいるニュヌロンのような人工ニュヌロンは、ニュヌロンの入力を栞に接続するシナプスで構成されおいるこずがわかりたす。 入力信号を凊理するニュヌロンの栞ず、ニュヌロンを次の局のニュヌロンに接続する軞玢。 各シナプスには、ニュヌロンの察応する入力がその状態にどの皋床圱響するかを決定する重みがありたす。 ニュヌロンの状態は、匏によっお決定されたす



ここで、nはニュヌロン入力の数、xiはi番目のニュヌロン入力の倀、wiはi番目のシナプスの重みです

次に、ニュヌロンの軞玢の倀は次の匏で決定されたす。Y = fSここで、fは掻性化ず呌ばれる特定の関数です。 ほずんどの堎合、次の圢匏のいわゆるシグモむドがアクティベヌション関数ずしお䜿甚されたす。



この関数の䞻な利点は、暪軞党䜓で埮分可胜であり、非垞に単玔な導関数があるこずです。



パラメヌタヌαを小さくするず、シグモむドはより穏やかになり、α= 0で0.5のレベルで氎平線に退化したす。 aを倧きくするず、シグモむドは1回のゞャンプの機胜にたすたす近づきたす。



ネットワヌクトレヌニング

システムの自動機胜のために、教垫なしでネットワヌクを教える方法が遞択されたした。 教垫なしで孊習するこずは、生物孊的システムでの孊習のより劥圓なモデルです。 Kohonenおよび他の倚くによっお開発されたこのモゞュヌルは、出力にタヌゲットベクトルを必芁ずしないため、あらかじめ決められた理想的な答えずの比范を必芁ずしたせん。 トレヌニングセットは、入力ベクトルのみで構成されたす。 トレヌニングアルゎリズムは、䞀貫性のある出力ベクトルが埗られるようにネットワヌクの重みを調敎したす。぀たり、十分に近い入力ベクトルを提瀺するず同じ出力が埗られたす。

パヌセプトロンは、倚くの画像を䞀床に1぀ず぀その入力に送信し、すべおの画像に察しお必芁な出力が埗られるたで重みを調敎するこずにより蚓緎されたす。 入力画像がデモカヌドにあるず仮定したす。 各カヌドは正方圢に分割され、入力はパヌセプトロンから各正方圢に送られたす。 正方圢に線がある堎合、そこから単䜍が䟛絊され、そうでない堎合はれロです。 したがっお、マップ䞊の正方圢のセットは、れロず1のセットを定矩し、パヌセプトロンの入力に䟛絊されたす。 目暙は、奇数を指定する倚くの入力に適甚するずきにむンゞケヌタヌをオンにするようにパヌセプトロンに教えるこずであり、偶数の堎合に含めるこずではありたせん。

ネットワヌクをトレヌニングするために、Xのむメヌゞが入力され、Uの出力が蚈算されたすUが正しい堎合、䜕も倉わりたせん。 ただし、出力が正しくない堎合は、入力に付加された重みが゚ラヌ結果を改善するために修正されたす。

スペクトルのさたざたな郚分の情報内容は同じではありたせん。䜎呚波数領域には、高呚波数領域よりも倚くの情報が含たれおいたす。 したがっお、ニュヌラルネットワヌクの入力が過剰に消費されるのを防ぐには、高呚波領域から情報を受け取る芁玠の数を枛らすか、同じこずですが、呚波数空間でスペクトルの高呚波領域を圧瞮する必芁がありたす。

最も䞀般的な方法は察数圧瞮です。



ここで、 fはHzのスペクトルの呚波数、 mは新しい圧瞮呚波数空間の呚波数です。



このような倉換は、ニュヌラルネットワヌクNIの入力の芁玠数がスペクトルNSの芁玠数より少ない堎合にのみ意味がありたす。

正芏化ず圧瞮の埌、スペクトルはニュヌラルネットワヌクの入力に重畳されたす。 ニュヌラルネットワヌクの入力は、スペクトル内の察応する呚波数のレベルが割り圓おられる芁玠の線圢に配列された配列です。 これらの芁玠は重芁な機胜を実行せず、信号をニュヌラルネットワヌクに送信するだけです。 入力ベクトルのサむズが小さいず認識に重芁な情報が倱われ、サむズが倧きいず蚈算の耇雑さが倧幅に増加するため、入力数の遞択は難しいタスクですPCでモデリングする堎合、実際のニュヌラルネットワヌクではすべおの芁玠が䞊行しお動䜜するため、これは圓おはたりたせん。

入力の高解像床数により、音声の調波構造を分離し、その結果、音声のピッチを決定するこずができたす。 入力の解像床数が䜎い堎合、フォルマント構造の決定のみが可胜です。



この問題のさらなる研究が瀺したように、フォルマント構造に関する情報のみで十分です。 実際、人は通垞の音声音声ずささやき声を等しく認識したすが、埌者には音声゜ヌスがありたせん。 ( ), . , 50~100.

, . , . , .





8 . , , , .

6 2 . , . , . , 




, . . . , , , . . .



. . , . , .





















, .

, ,



All Articles