音声認識システムの歴史:Siriに来た経緯

振り返ってみると、音声認識技術の開発は、子供の成長過程を観察することに似ていることがわかります-個々の単語を定義し、さらに大きな辞書を定義し、最後にSiriのような質問への迅速な回答に進みます。



わずかにエレガントなユーモアのセンスでSiriを聞くと、音声認識業界で長年にわたってどのように成長してきたかに驚嘆します。 音声のみを使用してデバイスを制御できるようになった過去数十年を見てみましょう。





1950年と1960年:ベイビートーク



最初の音声認識システムは数字しか理解できませんでした(言語の複雑さを考えると、エンジニアが最初に数字に注目したのは正しいことです)。 ベル研究所は、1つの声で話された数字を認識するオードリーシステムを開発しました。 10年後の1962年に、IBMは彼らの頭脳を実証しました-Shoeboxシステムは英語の16語を理解しました。



米国、日本、イギリス、ソ連の研究所は、個々の発音を認識するいくつかのデバイスを開発し、4つの母音と9つの子音をサポートする音声認識技術を拡張しました。 それらはあまり良く聞こえませんでしたが、これらの最初の試みは、特に当時の原始的なコンピューターがどれほど素晴らしかったかを考えると、印象的なスタートとなりました。



1970年代:システムは徐々に人気を集めています



70年代には、米国国防総省の関心と支援のおかげで、音声認識システムが大きく進歩しました。 1971年から1976年まで、彼らのDARPA Speech Understanding Research(SUR)プログラムは、音声認識の歴史上最大のプログラムの1つであり、他のすべてに加えて、カーネギーメロン大学のハーピーシステムの責任者でもありました。 Harpyは1011語を理解しました。これは3歳の平均語彙です。



Harpyは、「有限数の状態を持つ可能性のある文のネットワークを実証する」( 音声認識の読み上げ )と呼ばれるより効率的な検索アプローチを導入したため、重要なマイルストーンでした。



70年代には、このテクノロジーのいくつかのマイルストーン、たとえば、さまざまな音声を解釈できるシステムを導入した最初の営利企業Threshold Technologyの設立もマークされました。



1980年代:音声認識が予測を正当化する



次の10年で、新しいアプローチとテクノロジーのおかげで、そのようなシステムの語彙は数百から数千語に増え、無制限の数の語を認識する可能性がありました。 その理由の1つは、 隠れマルコフモデルとして知られる新しい統計手法でした。



単語のパターンと音のパターンを使用して、未知の音が単語である可能性を調べました。 このベースは、他のシステムでさらに20年間使用されています( 自動音声認識技術開発の簡単な歴史 )。



語彙が増えたことで、音声認識は、ビジネスや医療などの専門産業向けの商用アプリケーションへと広がり始めました。 彼女は1987年にWorlds of Wonderのジュリー人形の形で普通の人々の家にさえ入りました。







認識ソフトウェアは、Kurzweilの音声合成プログラムなど、最大5000の単語を認識できましたが、それらには大きな欠点がありました-これらのプログラムは個別のディクテーションをサポートしていました。つまり、プログラムが処理するために各単語の後に停止する必要がありました。



1990年代:自動音声認識が大衆へ



90年代には、コンピューターがついに高速プロセッサになり、音声認識プログラムが実行可能になりました。



1990年に、最初に公開されたDragon Dictateプログラムは、9,000ドルという驚異的な価格で登場しました。 7年後、改善されたバージョンがリリースされました-Dragon NaturallySpeaking アプリケーションは通常の音声を認識したため、毎分約100語の通常のペースで話すことができました。 それでも、使用する前にプログラムを45分間トレーニングする必要があり、それでも695ドルという高い価格でした。



BellSouthの最初のVAL音声ポータルは1996年に登場しました。 それはあなたが電話で言ったことに基づいて情報を提供した最初のインタラクティブな音声認識システムでした。 VALは、今後15年間で発信者を退屈させたすべての不正確な音声メニューへの道を開いた。



2000年代:音声認識の停滞-Googleが登場するまで



2001年までに、音声認識の精度は80%に上がり、技術の進歩は止まりました。 言語ユニバースが限られている場合、認識されたシステムは正常に機能しましたが、類似の単語間の統計モデルを使用して「推測」され、インターネットの成長とともに言語ユニバースは成長しました。



音声認識と音声コマンドがWindows VistaとMac OSに組み込まれていることをご存知ですか? ほとんどのユーザーは、そのような機能が存在することすら知りませんでした。 Windows音声認識とOS Xの音声コマンドは興味深いものでしたが、キーボードやマウスのように、 十分正確で便利ではありませんでした



音声認識技術は、1つの重要なイベントの後に2番目の風になりました。iPhone用のGoogle Voice Searchアプリケーションの登場です。 このアプリケーションの影響は、2つの理由で重要でした。 まず、電話やその他のモバイルデバイスは音声認識の理想的なオブジェクトであり、小さなオンスクリーンキーボードを別の入力方法に置き換えたいという要望は非常に大きかったです。 次に、Googleはクラウドデータセンターを使用してこのプロセスをオフロードする機会があり、ユーザーの言葉と受け取った膨大な数の音声要求サンプルとの一致を見つけるために大規模データ分析に全力を注いでいます。



つまり、音声認識のボトルネックは常にデータの可用性と効率的な処理の可能性でした。 アプリケーションは、何十億もの検索クエリからのデータを分析に追加して、あなたが言ったことをより正確に予測しました。



2010年、GoogleはAndroid携帯電話の音声検索にパーソナライズされた認識を追加しました。 ソフトウェアは、ユーザーの音声要求を記録して、より正確な音声モデルを構築できます。 また、同社は2011年半ばにChromeブラウザに音声認識機能を追加しました。 10個の単語から始めて数千個に達した方法を覚えていますか? したがって、Googleは現在、2300億語を認識しています。



それからシリが来ました。 Goggle Voice Searchと同様に、クラウドコンピューティングに依存しています。 彼女は、あなたについて知っているデータを使用して、特定の人物のように、コンテキストから生じる応答を生成し、あなたの要求に答えます。 音声認識は楽器からエンターテイメントに進化しました。



未来:正確でユビキタス



音声認識アプリケーションのブームは、音声認識の時代が到来したことを示しており、将来、膨大な数の音声認識アプリケーションが期待できます。 これらのアプリケーションでは、音声でコンピューターを制御したり、音声をテキストに変換したりするだけでなく、さまざまな言語を区別したり、さまざまなオプションからアシスタントの音声を選択したりできます。



音声認識技術が他の種類のデバイスに切り替わる可能性があります。 将来、コーヒーメーカーを操作し、プリンターと話し、照明と話し合い、消灯する方法を想像するのは簡単です。



All Articles