🎸 🌇 🏛️ 日曜大工のニューラルネットワーク音声合成 🎉 👨‍👨‍👧‍👦 🎒

現在、音声合成はさまざまな分野で使用されています。これらは、音声アシスタント、IVRシステム、スマートホームなどです。タスク自体は、私の好みでは、非常に明確で理解しやすいものです。書かれたテキストは、人がするように発音されるべきです。

少し前に、他の多くの分野と同様に、機械学習は音声合成の分野に入りました。システム全体の多くのコンポーネントをニューラルネットワークに置き換えることができるため、既存のアルゴリズムの品質にアプローチできるだけでなく、それらを大幅に上回ることができます。

私は完全にニューラルネットワークの統合を自分の手で行い、同時にコミュニティで経験を共有しようとすることにしました。これの由来は、猫の下を見ることでわかります。

音声合成

音声合成システムを構築するには、さまざまな分野の専門家チーム全体が必要です。それらのそれぞれについて、アルゴリズムとアプローチのホストがあります。基本的なアプローチを説明する博士論文と厚手の本が書かれています。それらのそれぞれの表面的な理解から始めましょう。

言語学

テキストの正規化 。最初に、すべての略語、数字、日付をテキストに展開する必要があります。 20世紀の50年代は20世紀の50代になり 、サンクトペテルブルクの都市、ボリショイpr。P.S. サンクトペテルブルク市、ボリショイペトログラード側の展望 。これは、書かれたものを読むように人に求められたかのように自然に起こるはずです。
ストレス辞書の準備 。アクセントは、言語の規則に従って配置できます。英語では、最初の音節に重点が置かれることが多く、スペイン語では最後から2番目の音節に重点が置かれます。さらに、これらのルールからは、一般的なルールに従わない例外が多数あります。それらを考慮する必要があります。一般的な意味でのロシア語の場合、ストレスを配置するためのルールはまったく存在しないため、ストレスが配置された辞書がなければ、行く方法はまったくありません。
ホモグラフィの削除 。ホモグラフは、スペルは一致するが発音が異なる単語です。ネイティブスピーカーは簡単にストレスをかけることができます： ドアロックと山の城 。しかし、 ロックの鍵はより難しいタスクです。文脈を考慮することなくホモグラフィを完全に削除することは不可能です。

プロソディカ

シンタグマの強調表示と一時停止 。シンタグマは、意味において比較的完成した音声のセグメントを表します。人が話すとき、彼は通常、文の間にポーズを挿入します。テキストをそのような構文に分割する方法を学ぶ必要があります。
イントネーションのタイプの決定 。完全性、疑問、感嘆の表現は最も単純なイントネーションです。しかし、皮肉、疑念、熱意を表現することは、はるかに難しい課題です。

音声学

文字起こしを取得する 。最終的にはライティングではなく発音を使用するため、文字（書記素）の代わりに音（音素）を使用することが論理的であることは明らかです。書記素の録音を音素に変換することは、多くのルールと例外で構成される別のタスクです。
イントネーションパラメータの計算 。この時点で、配置されたポーズ、選択された音素シーケンス、表現されたイントネーションのタイプに応じて、ピッチと発音速度がどのように変化するかを決定する必要があります。基本的なトーンと速度に加えて、長時間実験できる他のパラメーターがあります。

音響学

音の要素の選択 。合成システムは、いわゆる異音で動作します-環境に応じて、音素の実現。トレーニングデータのレコードは、音素マーキングによって断片に切り分けられ、異音のベースを形成します。各異音は、コンテキスト（音素近傍）、ピッチ、持続時間などの一連のパラメータによって特徴付けられます。合成プロセス自体は、現在の条件に最も適した、異音の正しいシーケンスの選択です。
変更および効果音 。結果の録音では、合成後の音声を人間の音声に少し近づけたり、何らかの欠陥を修正したりする特別なフィルターが必要になる場合があります。

これがすべて簡単になり、頭の中で理解できるか、個々のモジュールのヒューリスティックをすぐに見つけられると思われたら、ヒンディー語で合成する必要があると想像してください。言語がわからない場合、適切なレベルの言語を知っている人を引き付けることなく、合成の品質を評価することさえできません。私の母国語はロシア語で、合成がストレスと間違えられたり、間違った口調で話されたりすると聞こえます。しかし同時に、合成されたすべての英語の音は、私にとってはほぼ同じであり、よりエキゾチックな言語は言うまでもありません。

実装

シンセシスのEnd-2-End（E2E）実装を見つけようとします。これは、言語の微妙な点に関連するすべての困難を引き受けます。言い換えると、入力としてテキストを受け取り、出力として合成音声を生成するニューラルネットワークに基づいたシステムを構築したいと考えています。狭い地域の専門家チーム全体を機械学習に特化したチーム（場合によっては1人でも）に置き換えるようなネットワークをトレーニングすることは可能ですか？

end2end ttsリクエストで、Googleは多数の結果を生成します。一番上にあるのは、Google自体からのTacotronの実装です。この分野の研究に従事し、さまざまなアーキテクチャの実装を共有しているGithubの特定の人々から行くことは、私にとって最も簡単に思えました。

私は3つを選びます：

リポジトリでそれらを見て、情報の倉庫があります。 E2E合成の問題には、多くのアーキテクチャとアプローチがあります。主なものの中で：

タコトロン（バージョン1、2）。
DeepVoice（バージョン1、2、3）。
Char2Wav。
DCTTS。
WaveNet

いずれかを選択する必要があります。将来の実験の基礎として、久by公園のディープコンボリューショナルテキスト読み上げ（DCTTS）を選択しました。オリジナルの記事はこちらでご覧いただけます。実装を詳しく見てみましょう。

著者は、合成の結果を3つの異なるベースで、トレーニングの異なる段階でレイアウトしました。私の趣味としては、ネイティブスピーカーではないにしても、かなりまともです。私のデータベースにはほぼ同程度の量のデータが含まれているため、最後の英語のデータベース（ケイトウィンスレットのオーディオブック）にはわずか5時間のスピーチしか含まれていません。

システムをトレーニングしてしばらくして、リポジトリに著者が韓国語のモデルを正常にトレーニングしたという情報が表示されました。これは非常に重要です。言語は大きく異なる可能性があり、言語に対する堅牢性は素晴らしい追加機能だからです。トレーニングプロセス中、トレーニングデータの各セットへの特別なアプローチ（言語、音声、またはその他の特性）は必要ないことが予想されます。

この種のシステムのもう1つの重要なポイントは、トレーニング時間です。私が持っているその鉄のタコトロンは、私の推定によると、約2週間勉強します。初期レベルでのプロトタイピングについては、リソースを集中的に使用するように思えました。もちろん、ペダルをねじる必要はありませんが、いくつかの基本的なプロトタイプを作成するには多くのカレンダー時間がかかります。最終バージョンのDCTTSは、数日で学習します。

各研究者には、自分の仕事で使用する一連のツールがあります。誰もが好みに合わせてそれらを選択します。私はPyTorchが本当に好きです。残念ながら、DCTTSの実装を見つけることができず、TensorFlowを使用する必要がありました。おそらくある時点で、実装をPyTorchに投稿するでしょう。

トレーニングデータ

合成を実装するための優れた基盤は、成功の主な保証です。新しい声の準備は非常に徹底的に行われています。プロのアナウンサーが事前に準備したフレーズを何時間も発音します。発話ごとに、すべてのポーズに耐え、ジャークやスローダウンなしで話をし、基本音の正しいアウトラインを再現し、これらすべてを正しいイントネーションで再現する必要があります。とりわけ、すべての声が同じように心地よく聞こえるわけではありません。

プロのアナウンサーによって記録された約8時間のベースを手にしました。私の同僚と私は現在、この音声を非営利目的で自由に利用できるようにする可能性について議論しています。すべてがうまくいけば、録音自体に加えて、音声付きの配信にそれぞれの正確なテキストが含まれます。

始めましょう

入力としてテキストを受け取り、出力として合成されたサウンドを生成するネットワークを作成します。豊富な実装はこれが可能であることを示していますが、もちろん多くの予約があります。

メインシステムパラメーターは通常ハイパーパラメーターと呼ばれ、個別のファイルに取り出されます。このファイルは、この例のようにhparams.pyまたはhyperparams.pyと呼ばれます。メインコードに触れることなくツイストできるすべてのものは、ハイパーパラメーターで取り出されます。ログのディレクトリから始まり、隠しレイヤーのサイズで終わります。その後、コード内のハイパーパラメーターは次のように使用されます。

from hyperparams import Hyperparams as hp batch_size = hp.B #

さらに、 hp接頭辞を持つすべての変数。ハイパーパラメーターファイルから取得。これらのパラメータはトレーニングプロセス中に変更されないため、新しいパラメータで何かを再起動する場合は注意してください。

テキスト

テキストの処理には、通常、最初に配置されるいわゆる埋め込みレイヤーが使用されます。その本質はシンプルです-文字ベクトルを文字ベクトルに関連付ける単なるプレートです。学習プロセスでは、これらのベクトルに最適な値を選択し、完成したモデルに従って合成するときに、このプレートから値を取得します。このアプローチは、すでに広く知られているWord2Vecで使用されており、単語のベクトル表現が構築されます。

たとえば、単純なアルファベットを使用します。

 ['a', 'b', 'c']

学習プロセスにおいて、各シンボルの最適値は次のとおりであることがわかりました。

 { 'a': [0, 1], 'b': [2, 3], 'c': [4, 5] }

次に、埋め込み層を通過した後のaabbcc行について、次のマトリックスを取得します。

 [[0, 1], [0, 1], [2, 3], [2, 3], [4, 5], [4, 5]]

このマトリックスは、シンボルの概念で動作しなくなった他のレイヤーに送られます。

現時点では、私たちの国に最初に現れる制限があります。合成のために送信できる文字のセットは限られています。キャラクターごとに、できれば異なるコンテキストで、ゼロ以外の数のトレーニングデータのサンプルが必要です。これは、アルファベットの選択に注意する必要があることを意味します。

私の実験では、オプションを決定しました：

 #       vocab = "E -"

これは、ロシア語のアルファベット、ハイフン、スペース、および行末の指定です。いくつかの重要なポイントと仮定があります。

アルファベットに句読点を追加しませんでした。一方では、実際には発音しません。一方、句読点によれば、フレーズを部分（シンタグマ）に分割し、一時停止で分割します。システムはどのように実行を許せないと発音しますか？
アルファベットには数字がありません。合成を適用する前、つまり正規化する前に、それらが数字に展開されることを期待しています。一般に、私が見たすべてのE2Eアーキテクチャには、正確に正規化されたテキストが必要です。
アルファベットにはラテン文字がありません。英語システムは発音できません。あなたは音訳を試して、強いロシア語のアクセントを得ることができます。
アルファベットにはeという文字があります。システムをトレーニングしたデータでは、システムが必要な場所に立っていたため、この配置を変更しないことにしました。しかし、私が結果を評価していた瞬間に、今、合成を申請する前に、この文字も正しく設定する必要があることがわかりました。そうでなければ、システムはeではなくeを正確に発音します。

将来のバージョンでは、各アイテムにさらに注意を払うことができますが、今のところは、そのようなわずかに単純化された形式のままにしておきます。

音

ほとんどすべてのシステムは、信号自体ではなく、特定のステップでウィンドウで取得されたさまざまな種類のスペクトルで動作します。詳細については説明しませんが、このトピックについてはさまざまな種類の文献があります。実装と使用に焦点を当てます。 DCTTS実装では、振幅スペクトルとチョークスペクトルの2種類のスペクトルが使用されます。

これらは次のように考慮されます（このリストおよび後続のすべてのコードはDCTTS実装から取得されますが、明確にするために変更されています）。

 #      y, sr = librosa.load(wavename, sr=hp.sr) #     y, _ = librosa.effects.trim(y) # Pre-emphasis  y = np.append(y[0], y[1:] - hp.preemphasis * y[:-1]) #    linear = librosa.stft(y=y, n_fft=hp.n_fft, hop_length=hp.hop_length, win_length=hp.win_length) #   mag = np.abs(linear) # - mel_basis = librosa.filters.mel(hp.sr, hp.n_fft, hp.n_mels) mel = np.dot(mel_basis, mag) #    mel = 20 * np.log10(np.maximum(1e-5, mel)) mag = 20 * np.log10(np.maximum(1e-5, mag)) #  mel = np.clip((mel - hp.ref_db + hp.max_db) / hp.max_db, 1e-8, 1) mag = np.clip((mag - hp.ref_db + hp.max_db) / hp.max_db, 1e-8, 1) #       mel = mel.T.astype(np.float32) mag = mag.T.astype(np.float32) #      t = mel.shape[0] num_paddings = hp.r - (t % hp.r) if t % hp.r != 0 else 0 mel = np.pad(mel, [[0, num_paddings], [0, 0]], mode="constant") mag = np.pad(mag, [[0, num_paddings], [0, 0]], mode="constant") #     - mel = mel[::hp.r, :]

計算には、ほぼすべてのE2E合成プロジェクトでLibROSAライブラリ（ https://librosa.github.io/librosa/ ）が使用されます。これには多くの有用なものが含まれています。ドキュメントを調べて、内容を確認することをお勧めします。

次に、使用したデータベースのファイルの1つで振幅スペクトルがどのように見えるかを見てみましょう。

ウィンドウスペクターを表すこのオプションはスペクトログラムと呼ばれます。秒単位の時間は横座標にあり、ヘルツ単位の周波数は縦座標にあります。スペクトルの振幅が色で強調表示されます。ポイントが明るいほど、振幅は大きくなります。

チョークスペクトルは振幅スペクトルですが、チョークスケールで特定のステップとウィンドウで撮影されます。事前にステップ数を設定します;ほとんどの実装では、値80が合成に使用されます（ hp.n_melsパラメーターで設定）。チョークスペクトルへの移行は、データ量を大幅に削減できますが、同時に音声信号にとって重要な特性を保持します。同じファイルのチョークスペクトログラムは次のとおりです。

リストの最後の行で、チョークスペクトルが時間とともに薄くなることに注意してください。それぞれ4つのベクトル（ hp.r == 4 ）のみを使用するため、サンプリング周波数が削減されます。音声合成では、一連の文字からチョークスペクトルを予測します。考え方は単純です。ネットワークの予測が小さいほど、うまく対処できます。

スペクトログラムは音声で取得できますが、聞くことはできません。したがって、信号を元に戻す必要があります。これらの目的のために、システムは多くの場合、Griffin-Limアルゴリズムとその最新の解釈（たとえば、RTISILA、 link ）を使用します。このアルゴリズムにより、振幅スペクトルから信号を復元できます。私が使用した実装：

 def griffin_lim(spectrogram, n_iter=hp.n_iter): x_best = copy.deepcopy(spectrogram) for i in range(n_iter): x_t = librosa.istft(x_best, hp.hop_length, win_length=hp.win_length, window="hann") est = librosa.stft(x_t, hp.n_fft, hp.hop_length, win_length=hp.win_length) phase = est / np.maximum(1e-8, np.abs(est)) x_best = spectrogram * phase x_t = librosa.istft(x_best, hp.hop_length, win_length=hp.win_length, window="hann") y = np.real(x_t) return y

そして、振幅スペクトログラムからの信号は、次のように復元できます（スペクトルを取得するのと逆の手順）。

 #  mag = mag.T #  mag = (np.clip(mag, 0, 1) * hp.max_db) - hp.max_db + hp.ref_db #      mag = np.power(10.0, mag * 0.05) #   wav = griffin_lim(mag**hp.power) # De-pre-emphasis  wav = signal.lfilter([1], [1, -hp.preemphasis], wav)

振幅スペクトルを取得して、復元してから、試してみましょう。

オリジナル：

復元された信号：

私の好みでは、結果は悪化しています。 Tacotronの著者（最初のバージョンもこのアルゴリズムを使用）は、Griffin-Limアルゴリズムを一時的なソリューションとして使用して、アーキテクチャの機能を実証していることに注目しました。 WaveNetおよび同様のアーキテクチャにより、より質の高い音声を合成できます。しかし、それらはよりヘビーウェイトであり、トレーニングには多少の努力が必要です。

トレーニング

選択したDCTTSは、2つの実質的に独立したニューラルネットワークで構成されています：Text2MelとSpectrogram Super-resolution Network（SSRN）。

Text2Melは、2つのエンコーダー（TextEnc、AudioEnc）と1つのデコーダー（AudioDec）をリンクするアテンションメカニズムを使用して、テキスト内のチョークスペクトルを予測します。 Text2Melはまばらなチョークスペクトルを正確に復元することに注意してください。

SSRNは、フレームの欠落を考慮し、サンプリング周波数を復元して、チョークスペクトルから完全な振幅スペクトルを復元します。

計算のシーケンスについては、元の記事で詳しく説明しています。さらに、実装用のソースコードがあるため、いつでもデバッグして微妙なところを調べることができます。実装の作者がいくつかの場所で記事から離れたことに注意してください。 2つのポイントを強調します。

正規化のための追加の層（正規化層）があり、それなしでは、著者によれば何も機能しませんでした。
実装では、正規化を改善するためにドロップアウトメカニズムを使用します。これは記事にはありません。

8時間の録音（数千ファイル）を含む音声を取りました。左の記録のみ：

テキストには、文字、スペース、ハイフンのみが含まれます。
テキストの長さはhp.max_Nを超えません。
希釈後のチョークスペクトルの長さはhp.max_Tを超えません。

私は5時間強を得ました。すべての記録に必要なスペクトルを計算し、Text2MelとSSRNのトレーニングを開始しました。これはすべて非常に巧妙に行われます：

 $ python prepro.py $ python train.py 1 $ python train.py 2

元のリポジトリでは、 prepro.pyはprepo.pyと呼ばれることに注意してください 。私の内なる完璧主義者はこれに耐えられなかったので、改名しました。

DCTTSには畳み込み層のみが含まれており、TacotronのようなRNN実装とは異なり、はるかに高速に学習します。

Intel Core i5-4670、16 Gb RAM、GeForce 1080を搭載した私のマシンでは、Text2Melの5万ステップは15時間で学習し、SSRNの7万5ステップは5時間で学習します。学習プロセスの1000ステップに必要な時間はほとんど変わらなかったので、多くのステップで学習するのにどれだけの時間がかかるかを簡単に把握できます。

バッチサイズはhp.Bで調整できます。時々、学習プロセスはメモリ不足で落ちたため、パッチサイズを2に分割し、ゼロから学習を再開しました。この問題はTensorFlowの腸（私は最新版を使用しなかった）とバッチ処理の実装の複雑さにあると信じています。値8ですべてが落ちるのをやめたので、私はこれに対処しませんでした。

結果

モデルがトレーニングされた後、最終的に合成を開始できます。これを行うには、ファイルにフレーズを入力して実行します：

 $ python synthesize.py

実装を少し調整して、目的のファイルからフレーズを生成しました。

結果はwaveファイルの形式で、 samplesディレクトリに保存されます。私が手に入れた合成システムの例を次に示します。

結論と発言

結果は、品質に対する私の個人的な期待を上回りました。システムはストレスをかけ、スピーチは読みやすく、音声は認識可能です。一般に、最初のバージョンでは悪くありませんでした。特に、トレーニングに使用されたのは5時間のトレーニングデータだけだったためです。

そのような合成の可制御性については疑問が残っています。それが間違っている場合、単語のストレスを修正することさえ不可能です。フレーズの最大長とチョークスペクトログラムのサイズに厳密に関連付けられています。イントネーションと再生速度を制御する方法はありません。

元の実装のコードに変更を投稿しませんでした。彼らは、既製システムによる合成のためのトレーニングデータとフレーズの読み込み、およびハイパーパラメーターの値：アルファベット（ hp.vocab ）とバッチのサイズ（ hp.B ）のみに関係していました。残りの実装は元のままです。

話の一部として、私はそのようなシステムの実装の生産のトピックにまったく触れませんでした、それはまだ完全にE2E音声合成システムから非常に遠いです。私はCUDAでGPUを使用しましたが、それでもすべてがリアルタイムよりも低速です。すべてがCPUでとてつもなくゆっくり動作するだけです。

これらの問題はすべて、今後数年間で大企業や科学コミュニティによって対処されます。非常に興味深いものになると確信しています。

日曜大工のニューラルネットワーク音声合成