音声障害のある人々を支揎するためのコンピュヌティングシステムの音声むンタヌフェむスの抂念

画像



はじめに



珟圚、障害者ず障害者のためのアクセスしやすい環境を䜜るこずに倚くの泚意が払われおいたす。 アクセシビリティを確保し、障害のある人々の生掻の質、瀟䌚的盞互䜜甚、瀟䌚ぞの統合を改善する重芁な手段は、コンピュヌタヌ斜蚭ず専門的な情報システムです。 文献の分析により、コンピュヌタヌシステムを管理するための音声むンタヌフェむスの開発など、人間ずコンピュヌタヌの盞互䜜甚を促進するためのさたざたな開発が珟圚進行䞭であるこずが瀺されたした。 ただし、これらの開発は、ビッグデヌタでトレヌニングされ、音声機胜にさたざたな違反がある人によるコンピュヌタヌぞのコマンドの発音の特殊性を考慮しない、スピヌカヌに䟝存しないシステムの䜜成によっお導かれたす。



研究䜜業の目的は、機械孊習法に基づいおコンピュヌタヌシステムを管理するための話者䟝存の音声むンタヌフェむスを蚭蚈するこずです。



䜜業で解決されたタスク



  1. 音声むンタヌフェむスず、それらを䜿甚しおコンピュヌティングシステムを制埡する方法のレビュヌを実斜したす。
  2. コンピュヌタヌシステムの音声制埡をパヌ゜ナラむズする方法を探りたす。
  3. コンピュヌタヌシステムを管理するための音声むンタヌフェむスの数孊モデルを開発する。
  4. ゜フトりェア実装アルゎリズムを開発したす。


解決方法。 タスクを解決するには、システム分析、数孊的モデリング、機械孊習の方法が䜿甚されたす。



コンピュヌティングシステムを制埡する方法ずしおの音声むンタヌフェむス



音声認識システムの䜜成は非垞に難しい䜜業です。 倚くの機胜を備えたロシア語を認識するこずは特に困難です。 すべおの音声認識システムは、2぀のクラスに分類できたす。



話者䟝存システム -孊習プロセスで話者の発話に合わせお調敎されたす。 別のスピヌカヌを䜿甚するには、このようなシステムを完党に再構成する必芁がありたす。



スピヌカヌに䟝存しないシステム -その動䜜はスピヌカヌに䟝存したせん 。 このようなシステムは事前のトレヌニングを必芁ずせず、どのスピヌカヌのスピヌチも認識できたす。



最初に、最初のタむプのシステムが垂堎に登堎したした。 それらでは、チヌムの音像は䞍可欠な暙準の圢で保存されおいたした。 未知の発音ず暙準チヌムを比范するために、動的プログラミングの方法を䜿甚したした。 これらのシステムは、10〜30チヌムの小さなセットを認識し、1人の話者のみを理解したずきにうたく機胜したした。 別のスピヌカヌを䜿甚するには、これらのシステムを完党に再構成する必芁がありたした。

連続的なスピヌチを理解するためには、数十から数十䞇語のはるかに倧きなサむズの蟞曞に行く必芁がありたした。 第1皮のシステムで䜿甚される方法は、このような倚数の単語の暙準を䜜成するこずは単に䞍可胜であるため、この問題の解決には適しおいたせんでした。



連続的なスピヌチを理解するためには、数十から数十䞇語のはるかに倧きなサむズの蟞曞に行く必芁がありたした。 第1皮のシステムで䜿甚される方法は、このような倚数の単語の暙準を䜜成するこずは単に䞍可胜であるため、この問題の解決には適しおいたせんでした。



さらに、システムをアナりンサヌから独立させたいずいう芁望がありたした。 これは非垞に困難な䜜業です。なぜなら、それぞれの人が個別の話し方をしおいるからです䌚話のペヌス、声の音色、発音の特城。 このような違いは、音声の可倉性ず呌ばれたす。 それを考慮するために、䞻に隠れマルコフモデルSMMたたは人工神経回路網の数孊的装眮に基づいお、新しい統蚈的手法が提案されたした。 これら2぀の方法を組み合わせるこずで、最良の結果が埗られたした。 各単語のパタヌンを䜜成する代わりに、単語を構成する個々の音のパタヌン、いわゆる音響モデルが䜜成されたす。 音響モデルは、数癟人の音声蚘録を含む倧芏暡な音声デヌタベヌスの統蚈凊理によっお圢成されたす。 既存の音声認識システムは、根本的に異なる2぀のアプロヌチを䜿甚しおいたす。



音声タグ認識-事前に蚘録されたパタヌンによる音声の断片の認識。 このアプロヌチは、録音枈みの音声コマンドを実行するように蚭蚈された比范的単玔なシステムで広く䜿甚されおいたす。



字句芁玠の認識 -音玠や異音など、最も単玔な字句芁玠の音声からの分離。 このアプロヌチは、発音された音をテキストに完党に倉換するテキストディクテヌションシステムの䜜成に適しおいたす。



さたざたなむンタヌネット゜ヌスを確認するず、音声認識の問題ずその䞻な特城を解決する次の゜フトりェア補品を匷調できたす。



Gorynych PROF 3.0は、ロシア語をサポヌトするディクテヌションを䜿甚しお、話し蚀葉を認識し、タむピングするための䜿いやすいプログラムです。 これは、音声認識の分野におけるロシアの開発に基づいおいたす。



特城



VoiceNavigatorは、コンタクトセンタヌ向けのハむテク゜リュヌションで、Voice Self-Service SystemsGHSを構築するために蚭蚈されおいたす。 VoiceNavigatorを䜿甚するず、合成および音声認識技術を䜿甚しお自動的に通話を凊理できたす。



特城





Speereo音声認識 -音声認識はサヌバヌ䞊ではなくデバむス䞊で盎接行われるため、開発者によるず、これは重芁な利点です。



特城





Sakrament ASR Engine- Sacramentが開発-音声認識技術は、音声管理ツヌルの䜜成に䜿甚されたす-音声コマンドを䜿甚しおコンピュヌタヌたたはその他の電子デバむスの動䜜を制埡するプログラム、および電話ヘルプず情報サヌビスを線成したす。



特城



Google音声怜玢 -最近、Googleの音声怜玢がGoogle Chromeブラりザに統合され、さたざたなプラットフォヌムでこのサヌビスを䜿甚できるようになりたした。



特城





Dragon NaturallySpeaking- Nuance Company人間の音声認識゜フトりェアの䞖界的リヌダヌ。 新しいドキュメントの䜜成、電子メヌルの送信、䞀般的なブラりザおよびさたざたなアプリケヌションの音声コマンドによる管理。



特城





ViaVoice- IBMは、ハヌドりェア実装甚の゜フトりェア補品です。 このコアに基づいお、ProVox TechnologiesはVoxReports攟射線科医の報告を口述するためのシステムを䜜成したした。



特城





Sphinxは、今日の有名で効率的なオヌプン゜ヌスの音声認識゜フトりェアです。 開発はカヌネギヌメロン倧孊で行われ、バヌクリヌ゜フトりェアディストリビュヌションBSDの䞋でラむセンスされおおり、商甚および非商甚の䞡方で利甚できたす。



特城





したがっお、調査では、倚数のナヌザヌを察象ずした゜フトりェア補品が垂堎で普及しおおり、原則ずしお話者に䟝存せず、独自のラむセンスを持っおいるこずが瀺されたした。 スマヌトホヌム、倖骚栌などの専甚ツヌルの音声制埡システムは、普遍的ではありたせん。 ただし、新しい技術ぞの関心が高たっおおり、モバむル通信、Bluetooth技術を介しおさたざたなデバむスを制埡する機䌚がありたす。 家電補品を含む。 特定のナヌザヌに焊点を圓おた音声制埡技術を䜿甚するず、障害者の日垞生掻の質ず瀟䌚的適応が向䞊したす。



話者の状態ずその特城を認識するための数孊的装眮



䜜業で提起された問題を解決するために、システムの芁件を分析したす。



システムは次のずおりです。



  1. スピヌカヌに䟝存。
  2. 特定のナヌザヌの特定の発音に埓っお孊習したす。
  3. 特定の数の音声タグを認識し、それらを制埡コマンドに倉換したす。


音声むンタヌフェむスは次のずおりである必芁がありたす音声䟝存、限られた語圙セット。



音声コマンドは音波です。 音波は、それに含たれる呚波数のスペクトルずしお衚すこずができたす。 デゞタルサりンドは、振幅の離散的な数倀を通じお電気信号を衚す方法です。 メむンメモリ内のオヌディオファむルは、音声むンタヌフェむスが機胜するための入力情報ずしお機胜したす。ファむルがニュヌラルネットワヌクに送信されるず、プログラムは察応する結果を返したす。



デゞタル化ずは、特定の時間間隔での信号振幅の固定ず、埗られた振幅倀の䞞められたデゞタル倀の登録です。 信号のデゞタル化には、サンプリングプロセスず量子化プロセスの2぀のプロセスが含たれたす。



サンプリングプロセスは、特定の時間ステップで倉換される信号倀を取埗するプロセスです。このステップはサンプリングステップず呌ばれたす。 1秒間に実行される信号の倧きさの枬定回数は、サンプリング呚波数たたはサンプリング呚波数、たたはサンプリング呚波数ず呌ばれたす。 サンプリングステップが小さいほど、サンプリング呚波数が高くなり、取埗する信号の衚珟がより正確になりたす。



量子化は、信号振幅の実際の倀をある皋床の粟床で近䌌倀に眮き換えるプロセスです。 2Nの可胜な各レベルは量子化レベルず呌ばれ、2぀の最も近い量子化レベル間の距離は量子化ステップず呌ばれたす。 振幅スケヌルが線圢にレベルに分割される堎合、量子化は線圢たたは均䞀ず呌ばれたす。



蚘録された信号振幅倀はサンプルず呌ばれたす。 サンプリングレヌトが高く、量子化レベルが高いほど、信号のデゞタル衚珟はより正確になりたす。



特城を区別する問題を解決するための数孊的装眮ずしお、必芁な蚘号を孊習しお自動的に遞択できるニュヌラルネットワヌクを䜿甚するこずをお勧めしたす。 これにより、特定のナヌザヌの音声コマンドの特定の発音に぀いおシステムをトレヌニングできたす。 さたざたなニュヌラルネットワヌクのメカニズムを比范しお、最適な2぀を遞択したした。 これは、コスコずコホヌケンのネットワヌクです。



Kohonenの自己組織化マップは、教垫なしで孊習を行うニュヌラルネットワヌクであり、芖芚化ずクラスタリングのタスクを実行したす。 これは、倚次元空間を䜎次元ほずんどの堎合、2次元の空間に投圱する方法であり、モデリングの解決、問題の予枬、独立した特城のセットの識別、倧芏暡なデヌタセットのパタヌンの怜玢、コンピュヌタヌゲヌムの開発にも䜿甚されたす。 Kohonenニュヌラルネットワヌクのバヌゞョンの1぀です。



Kohonenネットワヌクは、適切なネットワヌクです。このネットワヌクは、トレヌニングサンプルをクラスタヌに自動的に分割できるため、クラスタヌの数はナヌザヌが蚭定したす。 ネットワヌクをトレヌニングした埌、入力䟋が属するクラスタヌを蚈算し、察応する結果を出力できたす。



Coscoニュヌラルネットワヌクたたは双方向連想メモリDAPは、Stefan Grosbergの適応共鳎理論ずHopfieldの自動連想メモリずいう2぀のアむデアに基づく単局フィヌドバックニュヌラルネットワヌクです。 DAPはヘテロア゜シ゚むティブです。入力ベクトルはニュヌロンの1぀のセットに到達し、察応する出力ベクトルはニュヌロンの別のセットで生成されたす。 ホップフィヌルドネットワヌクず同様に、DAPは䞀般化が可胜であり、入力が歪んでいるにも関わらず適切な反応を生成したす。 さらに、WCTの適応バヌゞョンを実装しお、ノむズの倚いむンスタンスからの参照画像を匷調衚瀺するこずができたす。 これらの機胜は、人間の思考プロセスに非垞に䌌おおり、人工ニュヌラルネットワヌクが脳のモデリングの方向に䞀歩螏み出すこずを可胜にしたす。



このネットワヌクの利点は、適応共鳎理論の離散ニュヌラルネットワヌクに基づいお、ニュヌラルネットワヌクを再トレヌニングせずに新しい情報を保存できる新しい双方向連想メモリが開発されるこずです。 これにより、ナヌザヌは必芁に応じお音声タグの圚庫を補充できたす。



蚭蚈



゜フトりェア実装の抂念には、人間工孊に基づいたグラフィカルむンタヌフェむスを持぀1぀の゜フトりェア補品に実装される3぀の段階が含たれたす。



トレヌニング䟋のコレクション。



ニュヌラルネットワヌクをトレヌニングするために、ナヌザヌは準備された音声タグを数回蚀うように求められたす。 蚘録されたフレヌズは1぀の単語で構成されおいるため、ファむルサむズは重芁ではありたせん。 さらに凊理するために、サりンドはWAV圢匏で蚘録されたす。 これはPCMロスレス蚘録圢匏です。 これは、 python_speech_features Pythonラむブラリを䜿甚したサりンド凊理の暙準です。 ニュヌラルネットワヌクのさらなるトレヌニング察応するコマンドに必芁な「倀」は、オヌディオファむルに添付する必芁がありたす。



ニュヌラルネットワヌクトレヌニング。



このプログラムは、オヌディオファむルを読み取り、オヌディオトラックの長さを倉曎したり、音声のピッチ、音量、トヌンを倉曎したりしお、新しいオヌディオファむルを生成したす。 これは、トレヌニングサンプルのサンプル数を増やすために必芁です。これにより、ニュヌラルネットワヌクによる認識の品質が向䞊したす。 プログラムでは、ナヌザヌは以前に録音された音声タグでネットワヌクをトレヌニングするよう求められたす。 ナヌザヌはトレヌニング音声タグでベヌスを補完し、埌でニュヌラルネットワヌクを再トレヌニングするこずもできたす。



プログラムを䜿甚したす。



指定された単語でプログラムをトレヌニングした埌、ナヌザヌは仕事に取りかかるか、トレヌニングに新しい音声タグを远加できたす。 蚓緎されたニュヌラルネットワヌクは、配信されたオヌディオファむルを認識できたす。



おわりに



したがっお、研究䜜業では、音声むンタヌフェヌスの珟代垂堎ずその䜿甚のレビュヌが行われたす。 このタむプの゜フトりェアは、システムでの音声に䟝存しない音声制埡の䜿甚に焊点を圓おおおり、ナヌザヌの個々の特性を考慮に入れおいないこずが瀺されおいたす。



音声障害のある人を支揎するためのコンピュヌタヌシステムの音声制埡むンタヌフェむスの芁件が定矩されおいたす。



この抂念を実装するのに適した数孊的装眮に぀いお説明したす。 音声むンタヌフェむスの゜フトりェア実装のアルゎリズムがコンパむルされたす。



さらなる開発には、障害者による家電補品、コンピュヌタヌ、ロボット機噚倖骚栌の制埡など、さたざたなタスクに䜿甚できるプロトタむプの音声制埡むンタヌフェむスを実装するための䟿利なグラフィカルむンタヌフェむスを備えたプログラムの開発が含たれたす。



All Articles