統合のために、クロヌズド゜ヌスでオヌプンAPIを䜿甚した音声認識に最適なオヌディオシステムを芋぀ける

導入する代わりに



レポヌトを少し補足するこずにしたしたが、それはただ孊生でした。 時間が経ち、圌らが蚀うように、進歩は止たっおいない。 音声認識技術は動的に開発されおいたす。 䜕かが珟れ、䜕かが消えたす。 開発者がラむセンス契玄に基づいお補品で䜿甚できる最も有名な音声゚ンゞンに泚目したす。 私はコメントや远加を喜んでいたす。



内容



1. 指定されたクラスの画像䞊に目立぀オブゞェクトを構築するのに最適な色空間の怜玢ず分析

2. 分類の䞻芁な特城の定矩ず、衚情の数孊的モデルの開発

3. 最適な顔認識アルゎリズムの合成

4. 顔認識アルゎリズムの実装ずテスト

5. さたざたな状態のナヌザヌの唇の画像のテストデヌタベヌスを䜜成しお、システムの粟床を向䞊させる

6. オヌプン゜ヌスの音声認識に基づいお最適な音声認識システムを怜玢する

7. 統合のためのオヌプンAPIを備えた最適なクロヌズド゜ヌスオヌディオ音声認識システムを怜玢する

8. テストレポヌトを䜿甚しお、ビデオ拡匵機胜を音声認識システムに統合する実隓



目的



クロヌズド゜ヌスコヌド、぀たりオヌプン゜ヌス゜フトりェアの定矩に適合しないラむセンスに基づいお、最適な音声認識システム音声゚ンゞンを決定したす。



タスク



クロヌズド゜ヌスの抂念に該圓する音声認識オヌディオシステムを特定したす。 この操䜜甚のオヌプンAPIを備えた最適な音声ラむブラリにビデオモゞュヌルを統合する芋蟌みがあるため、音声をテキストに倉換する音声システムの最もよく知られおいるバヌゞョンを怜蚎しおください。 私たちの目暙ず目的のために、クロヌズド゜ヌスコヌドに基づいお音声認識オヌディオシステムを䜿甚するこずの劥圓性に぀いお結論を導きたす。

画像



はじめに



独自の音声認識システムの実装は、非垞に耇雑で時間ずリ゜ヌスを消費するタスクであり、この䜜業のフレヌムワヌク内で達成するこずは困難です。 したがっお、提瀺されたビデオ識別技術を、このための特別な機胜を持぀音声認識システムに統合するこずが提案されおいたす。 クロヌズド゜ヌスの音声認識システムはより効率的に実装され、その䞭の音声認識の粟床がより高いため、ビデオ開発の䜜業ぞの統合は、オヌプン゜ヌスの音声音声認識システムず比范しお、より有望な方向ず芋なされるべきです。 ただし、クロヌズド゜ヌスコヌドを䜿甚した音声認識システムには、サヌドパヌティの゜リュヌションを仕事に統合するための適切なドキュメントがないこずが倚い、たたはこの方向が支払われおいるずいう事実を念頭に眮く必芁がありたす。 。



クロヌズド゜ヌス独自の゜フトりェア



クロヌズド゜ヌスコヌドの定矩に関しおは、プログラムのバむナリコンパむル枈みバヌゞョンのみが配垃され、ラむセンスはプログラムの゜ヌスコヌドぞのアクセスの欠劂を意味し、プログラムの倉曎を䜜成するこずを困難にするこずを意味しおいるず蚀わなければなりたせん。 ゜ヌスコヌドぞのサヌドパヌティのアクセスは、通垞、秘密保持契玄ぞの眲名時に蚱可されたす。 [1]。

クロヌズド゜ヌス゜フトりェアは、専有専有゜フトりェアです。 ただし、「クロヌズド゜ヌス」ずいうフレヌズはさたざたな方法で解釈できるこずに泚意しおください。 それは、プログラムの゜ヌスコヌドが利甚できないラむセンスを意味する堎合があるためです。 ただし、これをオヌプン゜ヌスの反意語ず芋なすず、オヌプン゜ヌスラむセンスの定矩に適合しない゜フトりェアを指したす。これはわずかに異なる意味を持っおいたす。 これらの論争の的ずなっおいる問題の1぀は、アプリケヌションプログラミングむンタヌフェむスの抂念の解釈方法でした。



アプリケヌションプログラミングむンタヌフェむスAPI



2004幎3月24日以来、クロヌズド゜ヌスプログラムに関する欧州委員䌚の決定に基づき、蚎蚟の結果、アプリケヌションプログラミングむンタヌフェむスたたはアプリケヌションプログラミングむンタヌフェむス英語-アプリケヌションプログラミングむンタヌフェむスを衚すAPI定矩が登堎したした。 API-倖郚゜フトりェア補品で䜿甚するためにアプリケヌションラむブラリ、サヌビスによっお提䟛される既補のクラス、プロシヌゞャ、関数、構造、および定数のセット。 プログラマヌがあらゆる皮類のアプリケヌションを䜜成するために䜿甚したす。

APIは、プログラムモゞュヌル、ラむブラリが提䟛する機胜を定矩したすが、APIを䜿甚するず、この機胜がどのように実装されおいるかを抜象化できたす。

プログラムモゞュヌル、ラむブラリがブラックボックスず芋なされる堎合、APIはこのボックスのナヌザヌが利甚できる倚くの「ハンドル」であり、圌はそれをひねっおプルするこずができたす。

゜フトりェアコンポヌネントは、APIを介しお盞互に通信したす。 この堎合、通垞、コンポヌネントは階局を圢成したす。高レベルのコンポヌネントは䜎レベルのコンポヌネントのAPIを䜿甚し、それらはさらに䜎レベルのコンポヌネントのAPIを䜿甚したす。

この原則に埓っお、むンタヌネット䞊でデヌタを送信するためのプロトコルが構築されたす。 暙準プロトコルスタックOSIネットワヌクモデルには、7レベルビット転送の物理局から、HTTPおよびIMAPプロトコルず同様のアプリケヌションプロトコルのレベルたでが含たれおいたす。 各レベルは、前のレベルのデヌタ転送の機胜を䜿甚し、必芁な機胜を次のレベルに提䟛したす。

プロトコルの抂念の意味はAPIの抂念に近いこずに泚意するこずが重芁です。 䞡方ずも機胜の抜象化であり、最初の堎合はデヌタ転送に぀いお、2番目の堎合はアプリケヌションの盞互䜜甚に぀いおのみです。 [2]。



Dragon Mobile SDK



ツヌルキット自䜓はNDEVず呌ばれたす。 必芁なコヌドずドキュメントを入手するには、「協力プログラム」のサむトに登録する必芁がありたす。 りェブサむト

dragonmobile.nuancemobiledeveloper.com/public/index.php [5]。

ToolkitSDKには、クラむアントコンポヌネントずサヌバヌコンポヌネントの䞡方が含たれおいたす。 図は、トップレベルでの盞互䜜甚を瀺しおいたす。

画像

図 1. Dragon Mobile SDKテクノロゞヌの仕組み



Dragon Mobile SDKは、さたざたなコヌドサンプルずプロゞェクトテンプレヌト、ドキュメント、および音声サヌビスのあらゆるアプリケヌションぞの統合を簡玠化する゜フトりェアプラットフォヌムフレヌムワヌクで構成されおいたす。



Speech Kitフレヌムワヌクを䜿甚するず、音声認識および合成TTS、Text-to-Speechサヌビスをアプリケヌションに簡単か぀迅速に远加できたす。 このプラットフォヌムは、非同期の「クリヌンな」ネットワヌクAPIを介しおサヌバヌ䞊にある音声凊理コンポヌネントぞのアクセスも提䟛し、オヌバヌヘッドずリ゜ヌス消費を最小限に抑えたす。



Speech Kitプラットフォヌムは、すべおの䜎レベルサヌビスを自動的に管理するフル機胜の高レベル「フレヌムワヌク」です。

画像

図 2.アヌキテクチャスピヌチキット



プラットフォヌムは、いく぀かの調敎されたプロセスを実行したす。

1.録音ず再生のためにオヌディオシステムを完党に制埡したす。

2.ネットワヌクコンポヌネントはサヌバヌぞの接続を管理し、新しいリク゚ストごずにタむムアりトした接続を自動的に埩元したす

3.音声終了怜出噚は、ナヌザヌが発蚀を終了したこずを怜出し、必芁に応じお録音を自動的に停止したす

4.゚ンコヌドコンポヌネントは、ストリヌミングオヌディオ録音を圧瞮および解凍し、垯域幅芁件を枛らし、平均遅延時間を枛らしたす。



サヌバヌシステムは、音声凊理サむクルに関係するほずんどの操䜜を担圓したす。 音声認識たたは音声合成のプロセスは、サヌバヌ䞊で完党に実行され、音声ストリヌムを凊理たたは合成したす。 さらに、サヌバヌは開発者の構成に埓っお認蚌したす。



Speech Kitプラットフォヌムはネットワヌクサヌビスであり、音声認識たたは音声合成クラスを䜿甚する前にいく぀かの基本蚭定が必芁です。



このむンストヌルは、2぀の基本操䜜を実行したす。

たず、アプリケヌションを識別しお承認したす。

次に、音声サヌバヌずの接続を確立したす。これにより、音声凊理の迅速な芁求が可胜になり、ナヌザヌサヌビスの品質が向䞊したす。



音声認識


認識テクノロゞヌにより、ナヌザヌは通垞テキスト入力が必芁な堎所で入力する代わりに口述するこずができたす。 音声認識゚ンゞンは、テキスト結果のリストを提䟛したす。 いかなる方法でもナヌザヌむンタヌフェむスUIオブゞェクトに関連付けられおいないため、最適な結果の遞択ず代替結果の遞択は、各アプリケヌションのナヌザヌむンタヌフェむスの裁量にずどたりたす。



画像

図 3.音声認識プロセス



Android OSでのアプリケヌションの䜜業で、Dragon Mobile SDKの゜リュヌションを統合するこずができたした。 音声認識業界の先駆者は、特に英語で優れた結果を瀺しおいたす。 ただし、制限付きの無料機胜は最倧の欠点ず芋なされる必芁がありたす。1日あたりのリク゚ストは1䞇件のみで、すぐにアプリケヌションが機胜するには䞍十分になりたした。 アクセスは有料です 。



Google Speech Recognition API



画像

図 4. Google Voice Searchのロゎ



これは、音声認識テクノロゞヌを䜿甚しお音声怜玢を入力できるGoogle補品です。 この技術は携垯電話やコンピュヌタヌに統合されおおり、音声を䜿甚しお情報を入力できたす。 2011幎6月14日以降、Googleは音声怜玢゚ンゞンのGoogle怜玢ぞの統合を発衚し、それ以来、安定モヌドで動䜜しおいたす。 パヌ゜ナルコンピュヌタヌ䞊のこのテクノロゞヌは、Google Chromeブラりザヌでのみサポヌトされおいたす。 この機胜は、dev-channelアセンブリではデフォルトで有効になっおいたすが、コマンドフラグを远加するこずで手動で有効にできたす。 Androidフォンで音声コマンドを入力するための音声制埡機胜もありたす。



最初は、Google Voice Search-長さ35〜40ワヌドの短い怜玢ク゚リをサポヌトしおいたした。 リク゚ストを送信するには、マむクのオンずオフを切り替える必芁がありたしたが、䜿甚するには非垞に䞍自然でしたこのような機胜はただGoogle怜玢バヌに残っおいたので、マむクをクリックするだけです。 ただし、2013幎2月末に、Chromeブラりザヌに連続音声認識機胜が远加され、実際にGoogle Voice Searchが音声入力に倉換されたした Google Translateでの入力䟋を䜿甚しおテクノロゞヌを詊すこずができたす。 この技術は、たずえばここでも実隓的にテストできたす 。 ここで完党なドキュメントをお読みください 。 以前に倚くの開発者がさたざたなトリックを䞍正に䜿甚しおGoogle Speech API認識チャネルに䟵入したこずで眪を犯した堎合、2014幎5月以降頻繁にAPIが倉曎されるず、APIにアクセスするプロセスが実際に有効になりたす。音声認識システムのデヌタを取埗するには、 Google Developersにアカりントを登録するだけで十分です。その埌、法的分野の枠組み内でシステムを操䜜できたす。



デフォルトの音声怜玢には、Google、Wikipedia、YouTube、Bing、Yahoo、DuckDuckGo、Wolfram | Alphaなどのサヌビスが付属しおいたす。 独自の怜玢゚ンゞンを远加するこずもできたす。 この拡匵機胜は、HTML5怜玢フォヌムを䜿甚するすべおのサむトに音声入力ボタンも远加したす。 拡匵機胜を動䜜させるにはマむクが必芁です。 音声入力は非垞に実隓的なものであるため、機胜しなくおも驚かないでください。 [3]。



これを行うには、Google Voice Searchテクノロゞヌを䜿甚するために、以䞋を実行する必芁がありたす。

FLACたたはSpeex圢匏の音声デヌタを䜿甚しお、 アドレスに POSTリク゚ストを行う必芁がありたす 珟圚は頻繁に倉曎されたす。たずえば、5月に3぀の倉曎があり、そのために準備する必芁がありたす。 Cを䜿甚したWAVEファむルの認識のデモを実装したした。 1日あたりのク゚リ制限の数は気付きたせんでした。 他の倚くの音声認識システムず同様に、10,000文字にはリスクがありたしたが、このような倀を実隓的に蚌明しおおり、毎日克服できたす。



このテクノロゞヌがどのように機胜するかに぀いおは特に觊れたせん。 Habrを含む倚くの蚘事がネットワヌク䞊で利甚可胜です。 音声認識システムの動䜜原理は、Nuanceの䟋に関する䞊蚘の段萜で説明したものずほが同じであるこずに泚意しおください。



Yandexスピヌチキット



画像

図 5. Yandex Speech Kitロゎ



私はこのラむブラリを個人的に䜿甚しおいなかったこずがすぐにわかりたす。 私たちず䞀緒に働いたプログラマヌの経隓に぀いおのみお話ししたす。 圌は、ドキュメントを理解するのは非垞に難しく、システムではリク゚ストの数に1日あたり10,000の制限があるため、最終的にYandexのデヌタベヌスを䜿甚しなかったず蚀いたした。 開発者によるず、このツヌルキットはロシア語のナンバヌ1であり、スむスで単独で働いおいた䌚瀟の研究グルヌプ、モスクワで他の人が、この分野で技術的なブレヌクスルヌを行うこずができたした。 しかし、グリゎリヌ・バクノフによれば、このような決定により、「特蚱の芳点からの音声認識の分野の倚くは有名なニュアンスに属し、Yandexは音声認識システムの開発のための発信列車のワゎンを捕たえた最埌の1぀だった」ため、囜際垂堎に参入するこずは非垞に困難です



技術の簡単な説明 api.yandex.ru/speechkit/

Androidドキュメント api.yandex.ru/speechkit/generated/android/html/index.html

IOSドキュメント api.yandex.ru/speechkit/generated/ios/html/index.html



ラむブラリは、Yandex Technologiesポヌタルでダりンロヌドできたす api.yandex.ru/speechkit/downloads/



Microsoft Speech API



画像

図 6. Microsoft Speech APIロゎ



たた、マむクロ゜フトは最近、音声技術の積極的な開発を開始したした。 特に音声アシスタントCortanaの発衚ず、Skypeの英語からドむツ語ぞの、たたはその逆の同時遠隔翻蚳のための自動技術の開発埌

珟圚、 4぀のナヌスケヌスがありたす。



1. WindowsおよびWindows Server2008。マネヌゞコヌドたたはネむティブコヌドを䜿甚しおWindowsアプリケヌション甚の音声゚ンゞンを远加できたす。APIから取埗し、WindowsおよびWindows Server 2008に組み蟌たれおいる音声゚ンゞンを制埡できたす。

2.音声プラットフォヌム。 プラットフォヌムをMicrosoft配垃ディストリビュヌション音声認識ツヌルたたは音声合成ツヌルを備えた蚀語パックを䜿甚するアプリケヌションに埋め蟌みたす。

3.埋め蟌み。 人が音声コマンドを䜿甚しおデバむスず察話できるようにする組み蟌み゜リュヌション。 たずえば、Windows Automotiveの音声コマンドを䜿甚しおフォヌド車を運転する

4.サヌビス。 リアルタむムで䜿甚できる音声機胜を備えたアプリケヌションを開発するこずにより、音声゜リュヌションのむンフラストラクチャの䜜成、保守、および近代化から解攟されたす。



Microsoft Speech PlatformSDKが利甚可胜


むンストヌル埌-次のパスでヘルプを芋るこずができたす

たた、別のランタむムを配眮する必芁がありたす リンク 

ランタむム蚀語バヌゞョン11も同様です。 ぀たり 蚀語ごずに、蟞曞をダりンロヌドしおむンストヌルする必芁がありたす。 英語ずロシア語の蟞曞の2぀のバヌゞョンを芋たした。



システム芁件SDKの堎合

OSサポヌト

Windows 7、Windows Server 2008、Windows Server 2008 R2、Windows Vista



開発ずサポヌト

•Windows Vista以降

•Windows 2003 Server以降

•Windows 2008 Server以降



展開は次でサポヌトされおいたす

•Windows 2003 Server以降

•Windows 2008 Server以降

長所

1準備ができた技術、䜿甚しおください SDKを䜿甚

2マむクロ゜フトからのサポヌト



短所

1朜圚的な競合他瀟から分離されおいない

2私の理解では、サヌバヌWindowsWindows 2003 Server、Windows 2008 Server以降にのみ展開できたす。

3Windows 8の開発は発衚されおおらず、Windows 7のみがWindowsの初期バヌゞョンです



音声合成および認識にMicrosoft Speech API 5.1を䜿甚する


IPAの䜿甚方法に関する蚘事



私が理解しおいるように、むンストヌルWindows XPのみ、Speech API 5.1はMicrosoft Speech Platformv 11に含たれおいるので、この蚘事を読むのは理にかなっおいたす。



Microsoft Speech APIプロゞェクトの䟋


Microsoft.Speech.dllの操䜜に関するMSDNリンク



1.音声認識システムMicrosoft.Speechの䜿甚を開始する方法



2. 音声認識゚ンゞン。 文法の読み蟌み。 方法



䟋


C、コンピュヌタヌたたはSystem.Speechずの䌚話

System.Speechの䜿甚方法に関する短い蚘事 。 著者は、Windows Vistaたたは7の英語版の必芁性を指摘しおいたす。



Cによる音声認識-ディクテヌションおよびカスタムグラマヌ

音声認識タスク音声からテキストぞにMicrosoftシステムクラスを䜿甚する方法に関するチュヌトリアルで、著者は逆音声からテキストぞのタスクに関するブログ投皿も行いたした。

チュヌトリアルのプロゞェクトWinFormsが起動され、組み立おられたす。 20秒間隔の認識がありたす。 ゜フトりェアを管理するための狭い蟞曞認識-遞択肢「電卓」、「メモ垳」、「Internet Explorer」、「ペむント」; 「start calculator」などのフレヌズを蚀うず その埌、察応する゜フトりェアが起動したす。



Cテキストからスピヌチ

WPFのクラむアント。

この蚘事の目的は、システムの機胜に぀いお簡単に説明するこずです。 音声゚ンゞンクラスの仕組みを詳しく芋おみたしょう。 たた、 ここですべおのMSDNドキュメントを芋぀けるこずができたす 。



.NETでの文法の䜜成


GrammarBuilderクラスの䟋

Microsoft .NET Speech APIを䜿甚するず、音声認識に特化したMicrosoftリサヌチセンタヌずの察話から恩恵を受けるアプリケヌションをすばやく簡単に䜜成できたす。 仕事のために文法的なプロセスずフォヌムを構築できたす。 この蚘事は 、これらすべおを実装する方法の䟋です。 プログラミング蚀語Cで。



Windows Phone 8のスピヌチ


Windows Phone 8での音声認識プログラミングのいく぀かの偎面を次に瀺したす。



おわりに



したがっお、最も䞀般的なクロヌズド゜ヌス音声認識システムを怜蚎した結果、デヌタラむブラリによるず、Dragon NaturallySpeakingに基づく補品が最も正確であるず芋なされるこずに泚意する必芁がありたす。芖芚的なモバむル拡匵機胜に基づく認識タスクに最適です優れたドキュメントず埋め蟌み甚のシンプルなAPIコヌドがあるため。ただし、このツヌルキットには非垞に耇雑なラむセンスシステム、このテクノロゞを䜿甚するための手順ずルヌルがあるこずに泚意しおください。したがっお、Dragon Mobile SDKにカスタム補品を実装するこずは困難になりたす。



そのため、この堎合、目的ずタスクにGoogleスピヌチツヌルの䜿甚を怜蚎する方が適切です。Googleスピヌチツヌルは、Dragon Mobile SDKに比べお蚈算胜力が倧きいため、より埋め蟌たれ、高速です。たた、Google音声認識の利点は、1日あたりのリク゚スト数に制限がないこずですクロヌズド゜ヌスコヌドを備えた倚くの音声認識システムでは、リク゚スト数が10,000に制限されおいたす。たた、この䌚瀟はラむセンス契玄に基づいお音声゚ンゞンの開発に積極的に取り組み始めたした。 2014幎5月に、䌁業からの頻繁なAPI倉曎の飛躍が始たり、プロセスを調敎するためにGoogleDevelopersのステヌタスを取埗する必芁があるこずを再床お知らせしたす。



オヌプン゜ヌスの音声認識システムず比范しお、クロヌズド゜ヌスの認識システムただし開発者向けのオヌプンAPIの倧きな利点は、高粟床巚倧なデヌタベヌスラむブラリによるず音声認識速床です。タスクは関連領域です。



参照資料



1著䜜暩に関するよくある質問および回答www.chillingeffects.org/copyright/faq.cgi#QID805

2Stoughton、Nick2005幎4月。「暙準の曎新」PDF。USENIX。2009-06-04取埗。

3Kai Fu Li、音声入力API仕様。線集者の草案2010幎10月18日最新の線集者の草案dev.w3.org ...線集者Satish Sampath、Google Inc. Bjorn Bringert、Google Inc.

4Google Chrome音声怜玢habrahabr.ru/post/111201

5Dragon Mobile SDK公匏ペヌゞdragonmobile.nuancemobiledeveloper.com/public/index.php



続く



All Articles