音声認識のサイレント死

コンピューターが人間の音声を理解することを学ぶと、人工知能をすばやく作成できると想定されていました。 しかし、音声認識システムの精度は1999年にピークに達し、その後凍結しています。 2006年のアカデミックテストでは事実が示されています。汎用システムは80%のレベルをまだ克服していませんが、人間ではこのインジケーターは96-98%です。



Media Research InstituteのRobert Fortner教授は、音声認識システムの作成者がついに停止したと考えています。 プログラマはできる限りのことを行いましたが、成功しませんでした。 数十年後、彼らは人間の発話は単なる音の集まりではないことに気付きました。 音響信号には、テキスト認識に十分な情報が含まれていません。







タスクの複雑さが想像できます。 いくつかの推定によると、人間の言語で可能な文の数は10 570です。 文書化されたソースにはそれらのほんの一部しか記録されていないため、人々が作成したすべてのテキストを「フィード」しても、システムを教えることはできません。



言語の多くの単語には、数百または数千の意味があります。 特定の意味の選択は、コンテキスト、つまり周囲の単語に依存します。 口頭スピーチでは、依然として表情やイントネーションに依存しています。



私たちの脳は、 機能文法の直観的なルールと、年齢とともに獲得した各単語の意味論的パラダイムを使用して、完全に任意の方法でテキストを生成できます。 これらのルールは、どの単語を互いに組み合わせることができるか、どのように(どの機能要素を介して)組み合わせることができるかを記述しています。 各単語の意味は前の単語の意味に依存し、複雑な場合、私たちの脳は文脈を知っているフレーズの断片によってのみ音声を認識します。



機能的文法の基本的なルールはすべての人が理解できますが、コンピューターが理解できるように、それらを何らかの方法で形式化することはできません。 そして、これなしで。 コンピュータが以前に未知の文を認識しようとすると、文法パーサーと人間の脳に埋め込まれた意味論的パラダイムを備えた辞書がない場合、必然的に認識の誤りを犯します。



たとえば、ロシア語の言語学者は、かつてロシア語の1つの単純な前置詞(PRIと思われる)の意味論的パラダイムを作成しようとしました。 それらは数百の値に達し、それぞれが独自の後続要素のセットを認めています。 そして、これは明らかに完全なリストではありませんでした。



前置詞の文法は、 科学会議全体を開催します (一部の学者は、ソフトウェアの口実を生涯にわたって研究し、その秘密を完全に明らかにすることはできません)。 ただし、接頭辞や接尾辞など、人間の言語の各形態素についても同様の説明が必要です。 その後のみ、コンピューターの音声認識システムのプログラミングを開始できます。 人類はこのタスクを実行できますか? 結局のところ、言語はそれ自身の生活を送り、常に進化しているため、人間の発話の各要素のパラダイムは常に変化していることも考慮しなければなりません。 コンピュータシステムはどのように学習できますか?



Googleによるインターネット上で公開されたテキストの最も表面的な分析は、 1兆個のオブジェクトを明らかにしました。 これは、私たちのスピーチを構成する形態素のほんの一部です。 Googleはパブリックドメインのテキストを含む24ギガバイトのアーカイブを投稿し、このトピックに関するさらなる出版物を停止しました。



Microsoftが「ユニバーサルパーサー」を作成するMindNetプロジェクトは、1991年に始まりました。 彼らは、単語間のすべての可能な関係の普遍的な地図を構築しようとしました。 彼らはプロジェクトに多大な努力と資金を費やしましたが、2005年に研究を実質的に中止せざるを得ませんでした。



それに終止符を打ち、最初からやり直すことができますが、別の方法(はるかに複雑な方法)でのみです。 言語は、すべての言語に共通する単一の機能文法の枠組み内で形式化する必要があり、問題がまったく解決されない場合は、言語学者からの真剣な支援が不可欠です。



All Articles