声を倉えるタスク。 パヌト1。声ずは䜕ですか

この投皿では、声を倉えるタスクに関する䞀連の蚘事を始めたいず思いたす。 倖囜の文孊では、このタスクはしばしば音声モヌフィングずいう甚語ず呌ばれたす。囜内の文孊では、このタスクはただ科孊界ず工孊界の䞡方で十分な報道を受けおいたせん。 テヌマは非垞に広範囲で、倧郚分が創造的です。 この方向での䜜業の結果、特定の経隓を積むこずができたした。これらの経隓は、䜓系化しお述べ、いく぀かのアルゎリズムの本質を䌝えるこずを蚈画しおいたす。



画像



声を倉えるこずには別の目的がありたす。 ここで明確に識別できる2぀の䞻な領域は、倉化した声の珟実的な音を取埗するこずず、奇劙に幻想的な音を受信するこずです。 2番目のケヌスでかなり良い結果を埗るには、音声信号を通垞の音ずしお凊理したす。その機胜に焊点を圓おたり、倚くの仮定を立おたりする必芁はありたせん。 たずえば、電子音楜業界では膚倧な皮類のオヌディオ゚フェクトが生成されおおり、スピヌチ信号ぞの適甚の結果は、スピヌカヌの最も玠晎らしい画像を䜜成するのに圹立ちたす。

珟実的な声の倉化のタスクでは、「ミュヌゞカル」そう呌んでみたしょうオヌディオ゚フェクトを䜿甚するず、音声の自然な音の特城ではない歪みが生じる可胜性がありたす。 このような堎合、音声に含たれる音声、音声の圢成方法、および知芚に重芁な特性をより正確に理解する必芁がありたす。 簡単に蚀えば、信号を凊理する前に分析する必芁がありたす。 音声信号のリアルタむム自動凊理では、この分析は䜕床も耇雑になりたす。 どういうわけか解決を詊みなければならない䞍確実性の数が乗算され、適甚可胜なアルゎリズムの数が削枛されたす。

次の蚘事では、話者の性別の倉曎や話者の幎霢の倉曎など、効果を最も簡単に実装するためのオプションを怜蚎したす。 読者が信号のどのパラメヌタが倉化するかをよりよく理解するために、最初の蚘事では、発話音の圢成の䞻芁な問題ず、発話信号の圢匏的な蚘述方法に觊れたす。 その埌、提案された特定の音声倉曎アルゎリズム、それらの長所ず短所に぀いおはすでに説明したす。



PS

゜ヌスぞの远加リンクを远加したした







はじめに


スピヌチの音をお互いに別々に考えるず、䞀芋特別なものではないように思えるかもしれたせん。兞型的な母音は、本質的にフルヌトなどの音からそれほど遠くありたせん。 ただし、スタンドアロンの「真空」サりンドの凊理は、倚くの人々に実際的な利点をもたらす可胜性は䜎い-連続音声信号の凊理ははるかに魅力的に芋える。 凊理された音声の自然な響きのアむデアは、二重に魅力的です。 このタスクはすでにはるかに耇雑です-自然な連続したスピヌチでは、音が非垞に速くスムヌズに流れるため、経隓のある人でも凊理時に明確に線を匕くこずができたせん。 そしお、あなたがすべおのスピヌチの音に同じように近づくず、自然な音は出たせん。



音声信号は、いわば「楜噚」の音よりも「汎甚的」です。 比范的狭い呚波数垯域を占めるスピヌチは、プロの俳優による意図的な声の倉化は蚀うたでもなく、非垞に倚様な基本音で構成されおいたす。 さらに、これらの基本的な音は性質が異なり、その結果、暙準的な信号分析ず凊理アルゎリズムの点で特性が異なりたす。



人間の声の経路は、おそらくすべおの既知の動物ず比范しお最も完璧で柔軟であり、生成されるさたざたな音に楜噚の倧郚分を残しおいたす。 音声信号の分析ず倉曎における䞻な難しさは、たさにこの倚様性ず、基本音響ナニットの分離ず凊理に関連する倧きな䞍確実性にありたす。 すべおの音声を凊理するのに適したアルゎリズムはありたせん。 さらに、感情的、身䜓的状態、単語内の音の堎所などに応じお、同じ基本音を異なる発音ができたす。 発音の個々の特城、文化的および蚀語的芁因、医孊的病理孊-これらはすべお、発音された音にも圱響したす。



サりンド制䜜、䞀般


音声信号の凊理の詳现を理解するために、スピヌチの音の構成の問題ず、これらの音がどのように圢成されるかをさらに詳しく考えおみたしょう。 通垞、音の生成プロセスは、発声ず明瞭床ずいう2぀の基本抂念を䜿甚しお説明されたす。それらを順番に説明したす。



発声は、人間の喉頭で発生する音圢成のプロセスの䞀郚です。 それはすべお肺の圧迫から始たりたす-これは肺から気管を通っお喉頭に入る空気を動かしたす。 この気流の速床はほが䞀定で、ゆっくりず倉化したす。 喉頭には、声垯が「付着」しおいる2぀の声垯で圢成された声門がありたす。 靭垯に゚ネルギヌが䟛絊されるず、声門は呚期的に開閉し、したがっお、吞入空気流から空気パルスを圢成したす。 各パルスは、声門を通過する空気の䜓積速床で衚すこずができ、その瞬間倀をUtずしお衚したす。 人間の耳は圧力の倉動を知芚したすが、これは空気速床の倉化の圱響を受けたす。したがっお、䜓積速床の䞀次導関数dU / dtに関心がありたす。 より芖芚的な説明のために、以䞋の図に泚意を払うこずができたす。 Utモデルずその1次導関数が衚瀺されたす。どちらのグラフもロヌれンバヌグモデルを䜿甚しお取埗されたした。



図1



䞊のグラフは、声門の出力における時間のUtの倀を反映しおいたす。 䞋のグラフは、Utの最初の時間導関数を瀺しおいたす。これは、声門の出口での圧力倉化の本質です。 圧力のこの呚期的な倉化は、それ自䜓既に音です。 この音は、ノむズず高調波成分で構成されおいたす。 ノむズ成分は、Utの急激な増加ず声門の䞍完党な閉鎖による乱流によっお圢成されたす䞊の図のモデルはノむズ成分を考慮しおいたせん。 高調波成分は、すべおの2次高調波倍音ずも呌ばれたすの呚波数が、基本呚波数ず呌ばれる最初の最䜎高調波の呚波数の倍数である高調波系列で衚すこずができたす。 䞋の図を参照。



図2



䞀蚀で蚀えば、これらの高調波の圢成の物理孊を説明するこずはできたせん;このため、別の蚘事を曞くこずをお勧めしたす。 ここでの䞻なこずは、靭垯が機胜しおいるずきに喉頭から完党に調和の取れた音が出おくるこずを芚えおおくこずです。 基本音の呚波数の数倀は、声垯の収瞮の呚波数に等しく、声垯の長さ、密床、匵力の関数です。



匛緩した靭垯ず絶えず開いおいる声門では、気流は「カット」したせん。぀たり、この堎合の気流は特定の䞀定倀の呚りでわずかに倉動し、生成された音にはノむズの性質がありたす。この信号のスペクトルの䟋を以䞋に瀺したす。



図3



発声の結果は特定の音であり、これはしばしば「音声経路励起信号」ず呌ばれたす。 この基本的な信号ハヌモニックかどうかが音声パスを通過するずきに、䌚話䞭に聞こえる最終的な音がさらに圢成されたす。



芁玄発声の䞻な「楜噚」は、声門を圢成し、声垯によっお駆動される2぀の声垯です。 靭垯は呚期的に収瞮するか、リラックスした状態になり、それぞれ有声音たたは無声音の圢成に぀ながりたす。



発声、特に発声の研究では、機械、熱力孊、音響、統蚈、心理音響などのさたざたな芳点からこのプロセスを考慮した膚倧な数の䜜品が費やされたした。 有声発声䞭に生成された空気パルスの䞍完党性、その圢状ず呚波数のランダムな倉化が、音の自然性に匷く圱響するこずが確実に確立されおいたす。 たずえば、提䟛されたリンクでサりンドを聞くこずができたす。サりンド「A」を発音するずきに、最初の図のモデルず蚘事の著者のスピヌチパスのパラメヌタヌを䜿甚しお合成されたす。 この音が誰かに「ラむブ」で自然に芋えるずは思いたせん。 人間の耳は、人工励起信号を䜿甚しお合成された音を正確に決定したす。これにより、このプロセスの統蚈的研究の重芁性が倧幅に高たりたす。



図4



アヌティキュレヌションには、音声再生䞭に声道のすべおの芁玠の状態を倉曎するプロセスが含たれたす。 発声は調音の䞀郚です。 音声信号は、励起信号が通過するカメラずチュヌブの組み合わせ右の図を参照で簡単に衚すこずができたす。 喉頭の䞊にある声道匓の狭小化ず拡倧は、远加の声門に加えお乱流ゟヌンを圢成する空気流の速床にさらに圱響したす。 同時に、声道の空掞は音響共振噚に䌌おおり、それらを通過するず、いく぀かの音の呚波数が増幅されお匱められたす。 声道の筋肉により、人は声道の房の圢状を制埡し、気流の障害舌、歯、唇を䜜り出すこずができたす。



倧たかな抂算では、䞊蚘を次のように芁玄できたす。

明瞭床=発声+発話路の筋肉の働き、

ここで、発声は発声するこずも発声しないこずもでき、個々の筋肉の収瞮は時間の関数です。



口語スピヌチを孊習する過皋で、人は特定の音を受信するために関節噚官の仕事を調敎するこずを孊びたす。 個々の解剖孊的特城により、すべおの人の同じ音はわずかに異なっお聞こえたす。これは、私たちが人の声を区別する重芁な芁玠の1぀です。 声垯ず声道の他の筋肉の協調䜜業により、母音、子音、混合音および移行音の圢成が可胜です。 さらに、これらのグルヌプを簡朔に怜蚎するこずを提案したす。䞀般的には、それらの明瞭床ず䞻な特城を説明したす。



音声の最も単玔な分類




図5



孊校から、スピヌチの音はすべお最初は母音ず子音に分けられおいたこずが知られおいたす。 母音は、有声興奮信号が声門から声道の残りの郚分を通過するずきに圢成され、同時に䞀定の幟䜕孊的圢状を占めたす。 このプロセスは、振動する匊がギタヌの本䜓を通過する音によく䌌おいたす。 人間の声の堎合、「匊」は呚期的に収瞮する声門であり、身䜓はその䞊にあるすべおのものです。 ギタヌの本䜓がいく぀かの「事前孊習枈み」圢匏のいずれかをずるず想像するず、母音ずの類䌌性を匕き出すこずができたす。喉頭は有声励振信号を生成し、音声路は圢匏の1぀を取り、母音を生成したす。



声道のゞオメトリを倉曎するず、人は音響共鳎特性を倉曎したす。 その結果、䞀郚の呚波数は増幅され、䞀郚の呚波数は著しく枛衰したす。 匷化ゟヌンは通垞、フォルマント呚波数たたはフォルマントず呌ばれたす。 母音は、フォルマント構造右の図を参照が互いに正確に異なりたす。これは、発話圢成時の音声管のゞオメトリに䟝存したす。これが、人が耳で区別する方法です。 フォルマント呚波数の正確な数倀は、個人ごずに異なりたす。 ただし、互いの盞察的な距離は、すべおの人でほが同じ割合になりたすそうでなければ、たずえば、さたざたな人が発音する「O」の音をどのように認識できたすか。



次に、子音に移りたしょう。 その数は母音の数を倧幅に䞊回り、その音ではサブクラスに分類できたす。 実際の生掻でよくあるこずですが、倚くの珟象には倚くのクラスの特城があり、明確な分類は非垞に困難です。 子音も䟋倖ではありたせん。 クラスぞの分類は、問題の蚀語ず䜿甚される音声理論に䟝存したす。 3぀の䞻芁なグルヌプで構成される最も䞀般的な分類を怜蚎したす。

摩擊音子音

-子音子音

-゜ナヌ子音



摩擊子音は、気道の「摩擊」によっお圢成され、声道を狭め、空気を遮りたす。 これらのくびれや障害物は、空、舌、歯、唇などによっお䜜成されたす、、、...の音。 声道の空掞は同時に条件付きで䞀定の䜍眮を占めたす。 くびれや障害物が空気圧の局所的な倉化を匕き起こし、それが乱流のゟヌンを䜜成したす。 この方法で生成された乱流ノむズはもはや癜ではなく、色がありたす



図6



母音の堎合のように、生成されたノむズ信号はいく぀かの音響フィルタヌスピヌチパスカメラを通過し、このノむズに特城的なスペクトル圢状ず音を䞎えたす。



閉じた子音は、声門が開いた状態で関節噚官によっお声道を完党に遮断するこずにより圢成されたす。 同時に、肺から開いた声門を通っお来る空気が圧力を高め、障害物が突然開くず、「爆発的な」音K、P、Tなどの音が発生したす。 たずえば、音「P」を発音するずき、人は唇を閉じたすが、圌の肺は圧力を蓄積し続けたす。 その埌、唇が突然開き、䜜成された圧力の痙攣性の差により、おなじみの音「P」が䜜成されたす。 時間領域の画像を以䞋に瀺したす







音を発音しようずする3぀の詊みはすべお、時間領域で互いに倧きく異なるこずに泚意しおください。 同時に、それらを耳で区別するこずは非垞に困難です。

いく぀かの参照音を持぀単語のスペクトログラムの䟋を以䞋に瀺したす。



図7



たた、摩擊音の子音ずアクセントのある子音の䞡方が「声を出す」こずができるこずに泚意する必芁がありたす。 「音声」子音は、声垯の操䜜ず同時に子音を発音するこずによっお圢成される本質的に混合された音です。 たずえば、サりンド「P」を発音するずきに説明した手順を実行し、声垯の機胜を远加するず、サりンド「B」が埗られたす。 ただし、それらが時間領域の母音ず子音の単玔な重ね合わせであるずは蚀えたせん。 サりンド「C」を録音しお、録音したサりンド「E」に远加しお、出力でサりンド「Z」を取埗するこずはできたせん。 明確に、有声子音は有声励起信号を䜿甚しお圢成されるずしか蚀えたせん。



匷い乱流ノむズを含たない音の子音を区別するのが習慣です。それらを発音するず、空気L、P、M、N、Yの远加の通路が䜜成されるためです。 ただし、それでも次のような障害が発生したす蚀語、舌+歯、舌+空。

-初期高調波系列の倚くの高調波が倧幅に枛衰したす

-䞀般に、顕著な音の゚ネルギヌは枛少したす

-ノむズ音がいく぀か衚瀺されたす。

音「M」ず「H」は錻音です-口腔内に重倧な障害が䜜成され、錻咜頭は空気の通過のために完党に開いおいたす。 この堎合の口腔は远加の共鳎腔であり、錻腔が音の䞻な攟出源になりたす。 「P」ずいう音は、いわゆる「むヌスト」音のグルヌプを指したす。 スペクトルのある゜ノラスな音は母音に非垞に䌌おいたす。 スペクトログラムを芋るず、特に母音になった堎合、短期の発生を区別するのが難しい堎合がありたす。 音「L」、「P」、「Y」は、䜜曲䞭の明るいドミナントフォルマントを区別できる可胜性があるため、倚くの著者によっお半母音に起因したす。



音ず䞀時的な音に぀いお䞀蚀話す䟡倀がありたす。 圌らの教育は、連続的な発話で人の関節の噚官が自分の䜍眮を取り、即座に倉えるこずができないずいう事実に関連しおいたす。 このプロセスは時間内にスムヌズに行われたす。 音声孊では、別の音を発音する3぀の段階を区別するのが習慣です遠足、持久力、再垰。 ツアヌ䞭、調音噚官は音の圢成に必芁な初期䜍眮を取りたす。 露出䞭、音自䜓が発音されたす。 再垰䞭、オルガンは䌑息するか、再構築されお次の音の発音を開始したす。䞀方の音の再垰はもう䞀方の音の遠近に重ねられたす。 このような調音は倚くの倍音に圱響したすが、原則ずしおアルファベットでは入力されたせんが、音声信号で非垞に適切に分類および匷調衚瀺できたす残念ながら、垞に自動的にではありたせん。 䟋ずしお、 著者がすでに䜿い果たした音「P」のスペクトログラムを、その個別の発音ずずもに、音節「PE」の䞀郚ずしお匕甚するこずができたす。







音「P」の発音の違いの違いは、肉県で芋るこずができたす。 唇を開いた瞬間、声道はすでに軟化した「E」を発音する䜍眮を占めおいたした。これは「P」の発音にも圱響を䞎えたした。 同様の倉容は、ほずんどすべおの子音で発生したす-母音に察するそれらの䜍眮は、「倖芳」ず音に倧きく圱響したす。



母音ず子音に関するいく぀かの事実

1.母音は調和のずれたフォルマント構造を持っおいたす。 子音は本質的にうるさいですが、顕著な倍音成分を持぀堎合がありたす䞋の図、「B」、「L」の音。



2.母音は子音よりも倚くの゚ネルギヌを運び、その䞻芁郚分第1および第2フォルマントは400〜3000 Hzの範囲にありたす。 子音ぱネルギヌが著しく少ない。 子音の倧郚分では、この゚ネルギヌのかなりの郚分が2〜10 KHzの領域に集䞭しおいたす。 䞀䟋を以䞋に瀺したす。



図8



3.母音の長さは子音よりも長い100〜300ミリ秒察30〜100ミリ秒。ただし、正確な正確な数は蚀語ず人によっお倧きく異なりたす



4.゚ネルギヌず持続時間は短くなりたすが、子音は奇劙なこずに基本的な音声情報を䌝えたす。 良い䟋ずしお、Rabinerの優れたパズルを怜蚎できたす。

フレヌズを回埩

「Th_y n_t_d s_gn_f_c_nt _mpr_v_m_nts _n th_ c_mp_n_s _m_g_、...」䌁業むメヌゞの倧幅な改善に気づいた、...、

に察しお

「A__i_u_e_ _o_a___ _a_ __a_e_ e_e__ia___ __e _a_e、...」支払に察する態床は基本的に同じたたでした...。



連続的なスピヌチのスピヌチ信号は、スピヌカヌの特性ず発音音に応じお、5〜100ミリ秒の期間にわたっお条件付きで静止しおいるず芋なすこずができたす。 分析の期間が長くなるず、信号の特性が倧幅に倉化する可胜性が高くなり、平均化されたパラメヌタヌの掚定が倱敗する可胜性がありたす。 信号凊理の他の分野ず同様に、ノむズの問題は倧きな問題を匕き起こす可胜性がありたす。特に、高調波の性質および/たたはフォルマントずの類䌌性比范的゚ネルギヌの高い呚波数領域が倧きくなりたす。



この短いレビュヌでは、発話の圢成ず発話音の分類のプロセスに関する基本的な情報のみを提䟛したす。 非垞に最初の近䌌でも、各発音音は、個人ごずにかなりの数のパラメヌタヌに䟝存したす。 これらの生理孊的パラメヌタの正確な枬定は、最新の医療機噚を䜿甚しおも垞に可胜ずは限りたせん。 凊理された信号の最も珟実的なサりンドを埗るために目暙を蚭定する堎合、これらのパラメヌタヌの倚くは䜕らかの方法で評䟡する必芁があり、唯䞀の方法は最適な倀を芋぀けるこずです。 同様のアプロヌチでは、ほずんどの堎合、再構築された音声信号にアヌティファクトが含たれたすが、堎合によっおはより倚く、堎合によっおは聞こえにくくなりたす。 人生を耇雑にし、リアルタむムで音声を凊理するタスクを蚭定するず、これらの最適な倀の怜玢は、入力信号が凊理されるずきにのみ可胜になりたす。

次の蚘事では、ある皋床たで倚くの問題を解決するのに圹立぀基本的なツヌルの抂芁を説明したす-音声信号を衚すためのモデルを簡単に怜蚎したす。 たた、再合成䞭にこれらのモデルのどのパラメヌタヌを調敎しお出力サりンドを倉曎できるかを瀺したす。



___________

䜿甚された文献

[1] I. Aldoshina、心理音響孊の基瀎、蚘事集。

[2] LR Rabiner、B.-H。 Juang、音声認識の基瀎

[3] LR Rabiner、RW Schafer、音声信号のデゞタル凊理

[4] V.N. ゜ロキン、音声合成

[5] www.phys.unsw.edu.au/jw/glottis-vocal-tract-voice.html



All Articles