音声調音の効果とその認識の克服。ニューロスペツナズのマニュアル

調音とは

「異音」という不気味な獣

言葉とそれを構成する音を発音するとき、私たちはそれらが物理的に何であるかを決して考えません。異なる言語を話す合理的な生き物の何人がスピーチを録音し、グラフ、スペクトログラムでそれを研究しようとしましたか？その特徴を理解して研究し、パターンを強調し、一般的に、スピーチについてもっと学びますか？私は非常に少ないと思います-パーセンテージで。

使用するだけです！そして、それを無意識のうちに使用します。

スピーチを文字で書く音に直感的に分割します。音「a」は常に「a」であり、単語「mother」には2つのまったく同じ音「a」があります。

そして、ここではありません!!! 実験を実行します。「mother」という単語を書き留めてから、オーディオ処理ツールを使用して、音節を入れ替えます... 「母」という言葉で判明するものをベルミと呼ぶのは難しい。私は録音を長時間聴き、同等の音声を選択しようとしましたが、これは難しいです。私の好みに最も近いものは、おそらく「モハ」です

つまり、一般的に、単語は別の言語から出てきました！未知で発明されていない...

だから、音声を合成するのは難しく、コンピューターをロードするとき、ロシア語で「おはようございます、マスター！」

さて。私たちが呼ぶものは聞こえますが、大きな言語学の教授は「音素」と呼びます。もちろん、音は異なる可能性があります-ドアのきしみ音から猫の鳴き声まで、しかし、あなたはどういうわけかHomo the Reasonableのスピーチの音を呼び出す必要があります（私は常にHomo sapiensの合理性についていくつかの疑いがありました...）

さて、「母」という言葉の例ですでに示したように、音素は互いに大きく異なる可能性があり、スペクトログラム上で穏やかに、異なって見えるように見えます。

そして、ここで「allophone」と呼ばれるcな獣が役に立ちます。

異音は、特定の場所におけるこの特定の音素です。つまり、「mother」という単語に戻ると、2番目と4番目の音がここにあります。同じ音素「a」ですが、異音は異なります。 2番目の音は、音素「m」に囲まれたストレス下の音素「a」です。 4番目の音は、音素「m」の後、単語の終わりの前のストレスのない「a」です（短いポーズ、沈黙）。

つまり、異音とは、特定の音環境における音素の実現です 。

それでは、調音とは何ですか？

そのため、単語のさまざまな場所の音素がそれ自体のようではない理由は、単純かつ平凡です。

音には明確な境界はなく、判別することはできません。これが音素「a」の終わりであり、ここで音素「m」の始まりです。

音声の音素はスムーズに相互に入り込み、音環境は音素の形状を大きく歪めます。

たとえば、単語「mother」の2番目の音「a」のスペクトログラムは、近隣の2つの文字「m」の影響を強く受けます。また、一方に「m」、もう一方に何もない4番目の音素「a」とは異なります。

音で分類された単語のお母さんのスペクトログラム

図 1.音で分類された単語momのスペクトログラム

この図は、同じ音素のスペクトログラムが大きく異なることを示しています。

すでに述べたように、与えられた音環境によって変化する生命によって~~ねじれ~~た音素は、異音と呼ばれます。

ビッグボス-メインの異音

1つの音素に対するさまざまな異音の中で、オプションの1つが標準として採用されています。この標準は「メインアロフォン」と呼ばれます。

母音の場合、そのような標準は孤立した発音です。

子音の場合-ショック「a」の前。

そして、それを認識する方法は？

そして今、私たちはタスクを設定します：自動的に（つまり、人間の介入なしで）単語を認識し、それを音素的に行います。

1つの音素の異音が互いに異なる場合にのみ、これをどのように行いますか？

標準的な方法は次のとおりです。

音素の代わりに、「diphons」（音素のペア）および「trifons」（音素のトリプル）と呼ばれる音素のペアとトリプルが取得されます。

トライフォンの方が優れているため、使用をお勧めします。

同時に、各音素が少なくとも1回はトリフォンの中心にくるように、トリフォンへの分解が重ねられます。

たとえば、すでに述べた「MOM」という単語は、次のようにトリフォンに分割されます。

sil M A

M A M

A M A

M A sil

ここで、silは単語の始まりまたは終わりを意味します（「沈黙」-沈黙から）。

時々、次のレコードが発生します：M（sil、A）。トリフォンを指定します。その中心は「M」で、最初は-沈黙（sil）で、最後は-Aです。

それで問題は何ですか？

問題ありません。単なる発言：共同調音に対する戦いのこの「デザイン」は、マルコフの隠れたモデルのために開発され、「良い生活からではなく」導入されました。

より高度な音声認識技術であるニューラルネットワークの使用を試みます。

また、ニューラルネットワークには「次元の呪い」があるため、「ニューラルネットワーク」の場合、この「設計」はさらに悪化します。

ニューラルネットワークは例から学習するため、データの次元が大きいほど、トレーニングに必要な例が多くなります。同時に、例の数は非常に急速に増加しており、ディメンションよりもはるかに高速です:)

さて、数十の音素、数百の異音、約6000の主要な音素があります。

ニューラルネットワークはこれを理論的に学習することができますが、それは難しく、トレーニングデータベースは大きくなければならず、トレーニング時間は膨大になります。

これを回避する方法はありますか？

次の方法をお勧めします。

与えられた音と主要な異音の類似性を測定する関数を導入します。

次に、ANNは入力セクションと主要な異音の類似度のみを見つけることができます。そして、ANN出力の数は、異音の可能な組み合わせの数ではなく、単に音素の数に等しくなります。

これにより、単語認識を少数の音素に分割できます（必要に応じて、1つのニューラルネットワークを割り当てることができます）。

また、このアプローチにより、高品質のコンテキスト分析を行うことができます（知識のない人向け-言語の音素の特定の組み合わせの頻度に基づくこの分析により、認識エラーを修正できます）。

だから、広告から説明まで。どのように見えますか？実際に？次の図をご覧ください。

単語<b> <i> bak </ i> </ b>の表音文字の例による音素B、A、Kの類似性関数

単語<b> <i> bak </ i> </ b>の表音文字の例による音素B、A、Kの類似性関数

図 2.単語tankの表音文字の例による音素B、A、Kの類似性関数

すでに述べたように、音素は互いに影響を及ぼしあいます。そして、この影響は音素の中心に向かって減少し、条件付きエッジに近づくにつれて大きくなります。したがって、異音の中心は主異音とほぼ完全に一致します（および他のすべての異音の中心）、同時に、隣接する音の影響により、主異音との類似性の程度は音素ジャンクションのゾーンに近くなります。上図で完全に見えるもの。

残っているのはわずかです。この関数を任意の数のサンプル（1〜32を推奨）に分割し、ニューラルネットワークに「フィード」するためです。

同時に、基準となる「主要な異音」と音を比較するためのalgorithmなアルゴリズムを作成する必要はまったくありません。目的の異音の中心で単一であり、他のすべての音素と音に対してゼロに減少する任意の関数を「ひざの上」に描くだけで十分です。

PS

批判は期待されるだけでなく、歓迎されます。

コメントに特に感謝します。

1.プレゼンテーションの論理とその改善による

2.基本的に:)

多くの積極的な感謝-あなたが文学で類似または近いものを見つけた場合-しかし、リンクのみ（必ずしも電子的ではない）：）

All Articles

音声調音の効果とその認識の克服。 ニューロスペツナズのマニュアル