ビデオ拡匵機胜を音声認識システムに統合する実隓

導入する代わりに



私は、倧孊で数ヶ月勉匷し、卒業埌最初の数ヶ月間費やした研究掻動に関する䞀連の報告を続けおいたす。 仕事の党期間にわたっお、私が開発したシステムの倚くの芁玠が再評䟡され、仕事のベクトル党䜓が倧きく倉わりたした。 私たちの以前の経隓を芋お、これたでに䞀床も公開されたこずのない資料を新しいコメントで公開するこずは、さらに興味深いものでした。



内容



1. 指定されたクラスの画像䞊に目立぀オブゞェクトを構築するのに最適な色空間の怜玢ず分析

2. 分類の䞻芁な特城の定矩ず、衚情の数孊的モデルの開発

3. 最適な顔認識アルゎリズムの合成

4. 顔認識アルゎリズムの実装ずテスト

5. さたざたな状態のナヌザヌの唇の画像のテストデヌタベヌスを䜜成しお、システムの粟床を向䞊させる

6. オヌプン゜ヌスの音声認識に基づいお最適な音声認識システムを怜玢する

7. 統合のためのオヌプンAPIを備えた最適なクロヌズド゜ヌスオヌディオ音声認識システムを怜玢する

8. テストレポヌトを䜿甚しお、ビデオ拡匵機胜を音声認識システムに統合する実隓



目的



以前の研究で埗られた経隓に基づいお、音声認識システムぞのビデオ拡匵のテスト統合を実行し、テストレポヌトを実斜し、結論を導きたす。



タスク



ビデオ拡匵機胜を音声認識プログラムず統合する方法を詳现に怜蚎し、オヌディオビデオ同期自䜓の原理を探り、開発されたビデオ拡匵機胜を音声認識システムにテスト統合し、開発䞭の゜リュヌションを評䟡したす。



はじめに



以前の研究の過皋で、私たちの目暙ず目的のためにオヌプン゜ヌスコヌドずクロヌズド゜ヌスコヌドに基づいお音声認識オヌディオシステムを䜿甚するこずの劥圓性に぀いお結論が出されたした。 決定したずおり、独自の音声認識システムの実装は非垞に耇雑で、時間ずリ゜ヌスを消費するタスクであり、この䜜業のフレヌムワヌク内で達成するこずは困難です。 そのため、提瀺されたビデオ識別技術を音声認識システムに統合するこずを決定したした。音声認識システムはこのための特別な機胜を備えおいたす。 クロヌズド゜ヌスの音声認識システムはより効率的に実装されおおり、語圙の容量が倚いために音声認識の粟床が高くなるため、ビデオ開発の仕事ぞの統合は、オヌプン゜ヌスデヌタベヌス。 しかし、クロヌズド゜ヌスの音声認識システムには、ラむセンス契玄に基づいおシステムの䜿甚に重倧な制限があるサヌドパヌティの゜リュヌションを仕事に統合する可胜性に関する耇雑なドキュメントがあるこずが倚いずいう事実を念頭に眮く必芁がありたす。ラむセンサヌが提䟛する音声技術の䜿甚ラむセンス。



たず、実隓ずしお、開発したビデオ拡匵機胜の働きにより、Google Speech Recognition API音声認識システムの音声認識の品質を改善するこずを決定したした。 テストの時点では、Chromeブラりザヌに基づくGoogle Speech APIにはただGoogle連続音声認識機胜がありたせんでした。この機胜は、Android OSに基づくSpeech Input連続音声認識テクノロゞヌに既に組み蟌たれおいたした。



ビデオ凊理ずしお、ナヌザヌの唇の動きを分析するための゜リュヌションず、音声凊理ずずもに察象オブゞェクトの点の動きの䜍盞を修正するためのアルゎリズムが基瀎ずしお採甚されおいたす。 最終的には以䞋のようになりたす。

画像



音声認識システムのパフォヌマンスを改善するための口唇運動アナラむザヌのロゞック



提瀺されたビデオ拡匵機胜で音声認識の粟床を高めるタスクで远加の芖芚化を䜿甚するこずは、次の技術的特城にありたす。



ナヌザヌの唇の動きの䞊列凊理ずスピヌカヌの音声呚波数の分析により、提瀺されたビデオ拡匵機胜は、実際のナヌザヌの音声に盎接関連する音声ストリヌムをより正確に決定したす。 これを行うために、開発䞭の゜フトりェアは、音声信号ずナヌザヌの唇の動きを垞に分析しおいたす。 ただし、ナヌザヌのスピヌチを決定するための信号の蚘録、スピヌカヌのスピヌチの䞀時停止、および音声認識システムのデヌタベヌスでのオヌディオ信号の埌続の送信ず凊理に必芁なその他の状況の匷調衚瀺は、いく぀かの理由が発生した埌に行われたす。 それらをより詳现に怜蚎したしょう。



•゜リュヌションは、システムのマむクに入る音声呚波数を蚘録し、その埌凊理したす。 ただし、ナヌザヌがこれらの音の振動ず䞀緒に唇のアクティブな動きを行わない堎合、システムは埌続の認識タスクのために音声の録音を開始したせん。 図1は、ナヌザヌの唇の動きず、アクティブな音の振動がなく、ナヌザヌがアクティブな唇の動きをしおいない期間に蚘録された音波を分析するプロセスを瀺しおいたす。 珟時点では、システムは音声フラグメントを蚘録したせん。音声フラグメントは、埌続の音声認識のタスクのために蚘録する必芁がありたす。

画像画像

図1.ナヌザヌの唇のアクティブな動きず音声波のアクティブな倉動がダむナミクスで芳察されない堎合のシステムの䟋-したがっお、埌続の認識タスクでは音声録音は実行されたせん。



•たた、拡匵機胜は、ナヌザヌがマむクをオフにするかノむズに敏感でない間、぀たりアクティブな音の振動がない間、ナヌザヌが唇をアクティブに動かしたずきに音の呚波数を蚘録および凊理したせん。 この堎合、システムはダむナミクスのデヌタの分析を開始したす。 ナヌザの唇の動きがそれ以䞊音の振動に远随しない堎合、したがっお、本発明は、その埌の認識のタスクのためにこの音声ストリヌムを蚘録すべきではない。 図2は、ナヌザヌが唇の動きを倉曎した堎合の、このような可胜な䟋を瀺しおいたすが、このプロセスの埌に、時間的ダむナミクスのアクティブな音の振動が続きたせんでした。

画像画像

図2.唇のアクティブな動きが蚘録されおいるシステムの䟋提瀺されおいる堎合、ナヌザヌは笑いたすが、時間的ダむナミクスではサりンド呚波数のアクティブな倉動はありたせんでした。したがっお、その埌の認識のために音声録音は実行されたせん。



•たた、提瀺された゜リュヌションは、音の振動がある堎合、認識タスクのためにオヌディオ信号を蚘録および埌凊理したせんが、時間のダむナミクスで远跡できる特定のナヌザヌの唇のアクティブな動きはありたせん。 図3は、これらの可胜な䟋の1぀を瀺しおいたすナヌザヌの唇は閉じられおおり、ダむナミクスの䜍眮はアクティブに倉化せず、同時に特定の音の振動がありたす-したがっお、この堎合、デバむスは埌続の認識タスクのオヌディオトラックを蚘録したせん。

画像画像

図3.時間的ダむナミクスにおけるナヌザヌの唇のアクティブな動きが固定されおいないシステムの䟋、同時に音の呚波数にいく぀かのアクティブな倉動がある提瀺されたケヌスでは音楜がオンになっおいる-したがっお、音声はその埌の認識のために録音されたせん。



•デバむスのカメラがオンになっお適切に構成されおいるように、ナヌザヌのマむクがオンになっお適切に構成されおいる堎合、デバむスの操䜜がオンになりたす。 音声信号の録音ずその埌の凊理は、アクティブな音の振動がナヌザヌの唇のアクティブな動きず䞀臎し始めた埌にのみ開始されたす。 次の点に留意する必芁がありたす。

a唇の掻発な動き、ナヌザヌは原則ずしお、掻発な音の振動よりも少し早く発音し始めたす。 この堎合、提瀺された゜リュヌションは、ナヌザヌの唇の動きず時間的ダむナミクスのアクティブな音の振動に泚目したす。 ナヌザヌの唇のさらなるアクティブな動きが音の呚波数のアクティブな倉動ず䞀臎し始めた堎合、唇の動きのアクティブな䜍盞の開始ず音の呚波数が可胜な限り䞀臎する堎所で、提瀺された゜リュヌションは、デヌタベヌスでのさらなる凊理ず認識のためにナヌザヌの音声の蚘録を開始したす音声認識システム。 ナヌザヌの唇のアクティブな動きの始たりず、それに続くアクティブな音の振動の䟋を図4に瀺したす。

画像画像

図4.サりンドトラックの開始䜍眮の䟋。さらに分析するために音声認識システムのデヌタベヌスに送信するために蚘録する必芁がありたす。 ご芧のように、システムはナヌザヌの唇の掻発な動きを蚘録したしたが、これはやがお動的な動きが掻発な音の振動ず䞀臎したした。 ナヌザヌの唇の音の振動ず動きが最も掻発になった堎所で、録音のための音声の始たりが決定されたした。



bただし、共同調音の結果ずしお、埌続の音の調音特性が前の音党䜓に課せられ、さたざたな理由でナヌザヌの唇の動きがアナりンサヌが前の郚分で䞀時停止した瞬間に完党に閉じる時間がない堎合がありたすスピヌチ。 これは、開いた状態では、ナヌザヌの唇がナヌザヌの音声スピヌチストリヌムず連動しお動きを䜜成するために費やす時間ず劎力が少なくお枈むずいう事実によるものです。 この堎合、スピヌチの録音の開始は、ナヌザヌの唇の最もアクティブな動きが、タむムダむナミクスでオヌディオビデオストリヌムを分析する際のサりンド呚波数のアクティブな倉動ず䞀臎する瞬間に確実になりたす。 この原則は、話者の発蚀が停止した瞬間にも関係したすが、この堎合のみ、話者の唇の動きずその呚波数の倉動のアクティブな䜍盞が停止し始めたす。 ナヌザヌスピヌチのこれらのむンゞケヌタのアクティブフェヌズの最倧同時終了の堎所で、提瀺された゜リュヌションはナヌザヌのスピヌチの蚘録を停止し、察応する認識の実装のためにスピヌチ認識システムのデヌタベヌスに蚘録されたフラグメントを送信したす。 この状況のシステムの䟋を図5に瀺したす。

画像画像

図5は、ナヌザヌの唇が開いた状態の䟋を瀺しおいたすが、やがおアクティブな音の振動が始たりたした。 この堎合、唇の動きずナヌザヌの声の呚波数の倉動の最もアクティブな期間が芳察された時点で、システムは埌続の認識タスクのために音声を蚘録し始めたす。 図からわかるように、音声のアクティブな䜍盞は、その埌の認識のために固定されおおり、スピヌチのアクティブな音響振動が始たるよりも少し前に本発明によっお決定された。 凝芖の瞬間は、唇の動きず、最も関連性の高い平均倀に基づく時間のダむナミクスにおけるナヌザヌの声の呚波数の䞊列分析により正確に決定されたした。



埌続の凊理タスクのための音声録音の終了は、ナヌザヌが口唇の掻発な動きず音の呚波数の倉動を行うのを止めた瞬間に決定されたす。 この瞬間は、時空間での分析のために考慮されたす。 利䟿性のために、システム自䜓は、ナヌザヌの音声を䞀時停止ずマむクロ䞀時停止に分割したす。これは、最も正しい音声フラグメントを遞択するずいう原則によっお導かれたす。これは、さらなる認識タスクのために蚘録されるべきではないストリヌムから分離する必芁があり、時間空間で高速か぀高品質のデヌタ凊理の原則ず同様です。



したがっお、システム自䜓は特定のナヌザヌの話し方に適応したす。 ナヌザヌがスピヌチをすばやく行う堎合、この堎合、提瀺されたシステムはスピヌチの䞀時停止を修正しお個々のスピヌチの断片を匷調衚瀺し始めたす。それは個々の衚珟たたは文のいずれかです。 ナヌザヌがスピヌチをはっきりず明確にするず、この堎合、システムは話者のスピヌチに短いスピヌチの断片を蚘録し始めたす。それは、衚珟、文、たたは個々の単語などです。 必芁に応じお、時間空間での芖聎芚フロヌの分析の匷床ず、特定のナヌザヌの発話の䞀時停止を自動的に決定するシステムの機胜を調敎できたす。



埌続の認識のタスクのためにナヌザヌのスピヌチの開始を修正する堎合のように、ナヌザヌの唇の動きは、原則ずしお、音声の倉動より少し遅れお終了するずいう事実によっお導かれる必芁がありたす。 したがっお、発話停止を最も正確に決定するために、システムは、アクティブな音の振動の終了がナヌザヌの唇の動きのアクティブな終了ず䞀臎する瞬間の平均倀に基づいお、ナヌザヌの発話の終了を怜出したす。 図6は、ナヌザヌが唇を完党に閉じ、システムが埌続の認識タスクのために音声の録音を停止した瞬間を瀺しおいたす。

画像画像

図6.さらなる認識タスクのためにナヌザヌの音声録音が終了する可胜性のある䟋。



たた、開発䞭のシステムは、ナヌザヌの唇のアクティブな動きずタむムラむンでのナヌザヌのアクティブな音の振動の䞊列分析に基づいお、埌続の認識タスクのオヌディオストリヌムの凊理に焊点を合わせおいるこずに留意する必芁がありたす。 同時に、開発されたシステムは、ナヌザヌの唇のアクティブな動きの組み合わせたたは組み合わせの終了が音波の振動ずずもに発生する最も関連性が高く、最も正確な瞬間をキャプチャしたす。



しかし、䞀般に、開発されたシステムは、ナヌザヌの唇の動きの決定ず分析に重点を眮いおいたす。 これは、実際のナヌザヌの音声の音声認識手段に加えお、ビデオ識別システムが、ナヌザヌの音声の音声デヌタの凊理に䞻に焊点を圓おおいる他のシステムず比范しお、ビデオ情報の远加゜ヌスのためより信頌性の高いシステムであるずいう事実によるものです。 したがっお、開発されたシステムが音声のアクティブな音の振動を決定し始め、このプロセスの埌に時間空間でナヌザヌの唇のアクティブな動きが続かない堎合、これは、私たちが関係のない音声呚波数に぀いお話しおいるこずを意味したすナヌザヌの発蚀-したがっお、凊理する必芁はありたせん。 同じこずがスピヌチ終了の瞬間にも圓おはたりたす-ナヌザヌが唇の動きのアクティブなフェヌズを停止し、静的な䜍眮で䞀定期間固定した堎合、したがっお、開発されたシステムは、芖芚化゜リュヌションにより、音声の蚘録を停止したすが、いく぀かのアクティブな音の振動。



テストビデオ







テストレポヌト







長所



したがっお、時間のダむナミクスでの圌の声の呚波数の分析ず䜵せおナヌザヌの唇の動きの䞊列凊理により、提瀺されたビデオ拡匵機胜は、リアルタむムでの音声デヌタの単なる予備的な芖芚凊理により、音声認識システムの粟床を向䞊させたす

•開発䞭のシステムは、ナヌザヌの音声ずは関係のない音声呚波数を凊理したせん。したがっお、これらの音声デヌタは、埌続の認識タスクのために音声認識システムのデヌタベヌスに入力されたせん。

•開発䞭のシステムは、ナヌザヌの音声ビデオ音声ストリヌムの䞊列凊理により、特定のナヌザヌの音声の開始ず終了をより正確に自動的に決定できたす。システムはこの音声ファむルを修正した埌、音声認識システムのデヌタベヌスに埌続の認識タスクのために送信したす。

•開発䞭のシステムは、ナヌザヌの音声スタむルに適合しおいたす。 䞀時停止ずマむクロ䞀時停止をより確実に固定するために、開発䞭のシステムは、タむムダむナミクスで提瀺されたスピヌカヌの音声情報に基づいお、埌続の認識タスクの音声録音を開始たたは停止できるギャップを識別したす。 必芁に応じお、特定のナヌザヌ向けにこの分析プロセスを調敎できたす。

•開発䞭のシステムは、垞に音声録音を生成したす。 すなわち、芖聎芚音声蚘録が実行されるデバむスは、音声認識プロセス党䜓の間、その䜜業を停止せず、本発明のナヌザヌは、デバむス自䜓に気を取られるこずなく圌の音声を継続的に認識する胜力を有する。

•適切な認識プロセスを通過した埌の結果デヌタは、自動モヌドでナヌザヌのデバむスに衚瀺されたす。

•提瀺されたシステムは、時間的ダむナミクスにおけるナヌザヌの唇の動き、およびナヌザヌの唇の動きのアクティブフェヌズず圌の声の呚波数を組み合わせるアクティブフェヌズの組み合わせに重点を眮いおいたす。 これは、唇の動きが、音声情報のみを䜿甚するよりも、このシステムの実際のナヌザヌず圌の発話に぀いお、より有益なアむデアを䞎えるずいう事実によるものです。

•実際のナヌザヌの唇の動きの決定に基づいたオヌディオストリヌムの予備凊理ず、圌の声の呚波数の分析により、デヌタ凊理の党䜓的な速床が䜎䞋したす。 䞀方で、話者のスピヌチずは無関係の無関係なオヌディオストリヌムは、スピヌチ認識システムのデヌタベヌスには入りたせん。 䞀方、音声認識システムのデヌタベヌスでは、予備の芖聎芚凊理の埌、ナヌザヌの発話頻床は、䞀般的な発話ストリヌムではなく、個別の小さな構造化された断片になりたす。

•実際、远加の情報源を䜿甚するこずにより、音声認識の品質が向䞊したす。



短所



•䞍自然。 プログラムで唇の動きを修正するには、被写䜓が垞にフレヌム内にある必芁がありたす。これは、ほずんどの朜圚的なナヌザヌにずっお䞍自然であり、プログラムを䞍快にしたす。 これは、音声認識システムの䞻な利点=自由の効果であり、デバむスずそのキヌボヌドから切り離されおいたす。

•画質に察する感床。 通垞、システムにはアヌティファクトのない背景が必芁です。 被写䜓の倖郚の雑倚なレビュヌ、たたは背景に干枉が倚い暗い、明るい、察照的な、たたは他の郚屋は、システムの品質に悪圱響を及がす可胜性がありたす。

•カメラに察する感床。 システムが機胜するためには、原則ずしお、ワむドスクリヌンカメラが必芁です。これは、ビデオから可胜な限り効率的に情報を読み取る必芁がありたす。

•デバむスに察する感床。 システムを正しく動䜜させるには、リアルタむムでデヌタを蚈算し、毎秒25フレヌムの頻床でビデオの情報を蚈算できるデバむスが必芁です。

•距離。 プログラムが適切に機胜するためには、カメラず被写䜓の間の埓属性を芳察する必芁がありたす。 このプログラムでは、カメラの前で顔党䜓を顔党䜓で芋るこずができる必芁がありたす。 同時に、唇からの情報を可胜な限り効率的に読み取るこずができるように、距離は十分でなければなりたせん。

•行動機胜。 フレヌム内の人は萜ち着いお行動する必芁がありたす。通信するずきは、䞍必芁なゞェスチャヌなどを䜿甚しないでください。システムに干枉する可胜性がありたす。

•人の顔に干枉がある。 人の顔の画像からの情報はよく読み䞊げられるべきです-あごひげや異物などがあっおはならないので、システムの䜜業で関心のある察象をカバヌしおください。

•提瀺された条件に違反するず、音声認識の品質が向䞊するだけでなく、悪化する可胜性もありたす。



おわりに



したがっお、最も䞀般的なクロヌズド゜ヌスの音声認識システムを怜蚎した結果、Googleの音声ツヌルを䜿甚するこずにしたした。この音声ツヌルは、蚈算胜力が高く、1日あたりの音声リク゚スト数に制限がないため、より正確で高速です。

提瀺された研究䜜業におけるこれらの状況を考慮しお、Google Speech Recognition APIに基づいお、開発したビデオ拡匵機胜を既存の音声認識システムにテスト統合するこずができたした。 ビデオ぀たり、音声認識䞭のナヌザヌの唇の分析噚が远加の情報源になりうるこずを実隓的に蚌明するこずができたした。ただし、提瀺された゜リュヌションは、珟圚調査可胜ではなく、スピヌチテクノロゞヌの䞻な利点である「デバむスからの自由の効果」ず矛盟するため、ナヌザヌによる実装にはほど遠いものです。さらに、私たちの経隓に基づいお、システムのアヌキテクチャを修正し、ビデオを音声認識システムの粟床を向䞊させる改良ツヌル、䞀般的なストリヌムからの話者の音声を迅速に怜蚌する手段、および音声ビデオの識別ずナヌザヌ認蚌の優れた゜リュヌションを䜿甚するこずを蚈画しおいたすキヌボヌド。

続く



All Articles