今日は、開発者とユーザー向けの
VoiceFabricクラウドサービスの展望と機能について
お話します。 このサービスは、合成された音声のテキスト情報をリアルタイムで発声します。 カットの下で、合成、その使用シナリオ(標準ではなく非常に)、それをプロジェクトに接続する方法、およびそれがユニークである理由について詳しく説明します。
なぜ音声合成が必要なのでしょうか?
サービスの存在の歴史にわたって、このテクノロジーをどのように適用できるかについて、顧客から何百もの異なるオプションを受け取りました。 視覚障害のある人向けにサービスやサイトを調整することもありますが、多くの場合、合成の可能性を利用し、単純に自分の利便性のために使用します(たとえば、車で本を聞くのは平凡です)。 音声合成を使用すると、大企業や新興企業のビジネス上の問題を解決するのに非常に効果的です。
すべてのリクエストを分類すると、それほど大きなリストは取得できません。
1.私的使用のための本や記事の声。 オーディオブックを作成し、他の人に提供できます。
2. YouTubeおよびその他のビデオチャンネルのビデオの音声演技。 通常、これらはロシア語でキャプションがある教育ビデオ/講義または外国のビデオ/インタビューです。
たとえば 。
3. RSSフィードとニュースフィードに基づいてオーディオポッドキャストを作成します。
4.サイトのコンテンツのダビング。
たとえば (サイトのヘッダーのボタン)。
5.コールセンター(テレフォニー)のIVRメニューで動的情報を鳴らします。 静的メッセージもできます。 ロシア鉄道、メガフォン、ロシア農業銀行などのCCに電話してください。
6.ソーシャルネットワーク。 たとえば、VKontakteとの共同プロジェクトがあります。
7.モバイルアプリケーション。
8. GHSネットワークの情報メッセージ:駅や交通機関でのアナウンス、さまざまな自動インフォーマー、自動ダイヤラーなど。
9.テキストが絶えず変化し、アナウンサーの助けを借りてすべてのオプションを発声するときのロボットおよび仮想コンサルタントの声は長く、あまり便利ではありません。
どんな音声合成がありますか
現時点では、これらは9つの異なる投票です。
-ロシア語で7(男性2、女性5);
-1アメリカ英語-キャロル;
-カザフ語の1声-
アセル 。 (私たちのデータによると、これは世界で唯一の産業用実装の準備ができたカザフ語の合成であり、いずれの場合でも、類似物は見つかりませんでした、見つけたらコメントに入れてください)。
声の例はすべて
ここで聞くことができ
ます 。
それらはそれぞれ、8000 Hz(電話用)および22050 Hzの形式で利用できます。
ロシアの統合は、ロシアの科学者と開発者によって開発されました。 ロシア語のスピーチに固有のすべてのルールと文法、機能、略語が含まれています。 また、外国人の声を作成する際に、ネイティブスピーカーを集めて、言語の特徴とニュアンスを考慮しました。
私たちのロシアの合成が外国の類似物とどのように異なるかを理解するために、人々がそれを読むことができるように最初に書かれた、自然で口語的な情報テキストのスコア付けに関する研究をチェックしてください。 そのようなテキストには通常、人間がすぐに理解できる多くの略語と略語が含まれていますが、それらが書かれたとき、機械がそれらを読むことは想定されていませんでした。
たとえば、Google TTSで「大学という名前の教授。 Bonch-Bruevichはサンクトペテルブルク、pr。Bolshevikov、d.22 "、または同様のものにあり、合成と比較します。 大規模な実装では、このようなテキストに常に遭遇します。 顕著な例は、コールセンターのナレッジベースです。 この場合、知識ベース全体を機械で消化可能な形式に変換するのは、費用がかかり、長い作業です。
また、
リップシンクテクノロジーもサポートしています。これは、アニメーション化された唇が彼らの言う
とおりに動くときです。 何かを言うときに唇を正しく動かす仮想キャラクターを作ることができます。
そして、もちろん、
SSMLマークアップ (音声合成マークアップ言語)のサポート。
また、独自のカスタム音声も作成します。 長い間「私たちと一緒にいなかった」人の合成音声を作成した経験さえありました。 音声合成トレーニングは古いレコード(レコードでも)に基づいていたため、合成の音は適切です。 しかし、それにもかかわらず、これは本当の統合であり、彼は現代のテキストを読むことができます。
ここで起こったことを聞くことができ
ます 。
合成をプロジェクトに統合する方法に関するいくつかの言葉
TTS VoiceFabricを使用する方法は2つあります。
1)Webリクエストに埋め込まれたAPIキー。
VoiceFabric APIサービスは、HTTPSプロトコルを使用してアプリケーションと情報を交換します。 4096文字を超えないテキストは、GET要求によって合成のために送信できます。 POSTリクエストを使用して、最大10 MBのサイズのテキストを合成用に送信できます。
出力サウンドファイル形式は、コーデック= pcm、ビット= 16、レート= 8000、rawです。
すべての要求は、HTTPプロトコルに従って構成する必要があります。 クエリ文字列パラメーター:UrlEncode、delimiter&など。
詳細はすべて統合
ドキュメントに記載されてい
ます 。
2)テキスト(ctrl + C | ctrl + V)を挿入し、音声を選択して、音声テキストを音声ファイルとして受信できるWebサービス。
コメントし
てみてください 。 フィードバックは私たちにとって非常に重要です。
私自身に代わってPS。
私は長い間音声合成に携わっており、サイトでHabrの記事をあまり読みませんが、聞きます。 読む時間がないので、面白い記事を聞いて同時に他のことをしたり、記事からMP3を書いて街に出たりすることができます。