GoogleとMicrosoftを理解する



いいえ、この投稿は、法的紛争、「ある会社の最高経営責任者が別の会社に電話をかけた」という精神のニュース、および陰謀についての憶測に関する別のアヒルではありません。 それは、音声認識エンジンと、GoogleとMicrosoftが提供するテキストからの音声生成、それらの内部互換性、相互の友情についてです。



ご存知のように、GoogleとMicrosoftの両方には音声認識とテキストベースの音声生成があります。 Googleではこれらのツールはオンラインであり、翻訳と検索に使用され、Microsoftではオペレーティングシステムに組み込まれ、インターフェイスとの追加の対話の手段として使用されます。 ブルドッグをサイと交差させて、これらが互いにどの程度うまく機能ているか比較してみましょう。 このために、10個のかなりよく知られている英語のフレーズ(ロシア語についての幻想はまったくありません)を取得し、両社のエンジンを使用してそれらからオーディオファイルを生成し、受信したファイルを認識しようとします(もう一度、2つの方法で)。



使用メカニズム


Googleオーディオテキスト生成: Google翻訳

音声によるGoogleテキスト生成:尊敬されるYakhnev プログラム 。これは少し修正する必要がありました(長いライブオープンソース)。



Microsoftテキストオーディオ生成: Annaエンジン

Microsoftオーディオテキスト生成: Windows音声認識



テストフレーズ


  1. フォースがあなたと共にいるように。
  2. マティーニ 振って、攪拌しないで。
  3. 歴史は、人々が同意することを決定した過去の出来事のバージョンです。
  4. それは人にとって小さな一歩であり、人類にとって大きな飛躍です
  5. 正しいことをしてください。 それは一部の人々を満足させ、残りを驚かせるでしょう。
  6. いつかこの国が立ち上がるという夢があります。
  7. 小学校、私の愛するワトソン。
  8. 人生はチョコレートの箱のようなものでした。あなたは何を手に入れるのか決してわかりません。
  9. あらゆる幸運の背後には犯罪があります。
  10. 天才は1パーセントのインスピレーションと99パーセントの発汗です。


誰が退屈している-あなたはフレーズがどこから来たのか覚えていることができます(Googleなしでのみ-それ以外は面白くないです)。



だから、 ここに結果のオーディオファイルがあります。



認識結果


これは、Googleが生成した音声をGoogleが認識した方法です。

  1. 力はあなたと一緒かもしれません-100%
  2. かき混ぜられないマティーニ-100%
  3. エラー500-0
  4. それは人間にとっては小さな一歩です人類にとっては大きな飛躍-92%
  5. 正しいことをすれば、一部の人々とダイヤモンドが直接満足するでしょう-77%
  6. いつかこの国が立ち上がることを夢見ています-100%
  7. 私の親愛なるワトソン-100%
  8. 人生はチョコレートの箱のようだった
  9. すべての偉大な富のテラスの小川の後ろ-50%
  10. 天才は1%のインスピレーションと99%の汗-100%


平均結果: 82% 。 Googleは3番目のフレーズをまったく認識できなかったことに注意する必要があります。エラーが発生しました。



これは、Microsoftの音声エンジンが設計した音声をGoogleが認識した方法です。

  1. 力はあなたと一緒かもしれません-100%
  2. 攪拌されていないマティーニを振って-80%
  3. 歴史は、人々が同意することを決めた過去のいくつかのバンドのバージョンです-93%
  4. それは人間にとっては小さな一歩です人類にとっては大きな飛躍-92%
  5. 正しいことをすれば、一部の人々を満足させ、逮捕を驚かせます-85%
  6. いつかこの国が立ち上がることを夢見ています-100%
  7. 私の親愛なるワトソン-100%
  8. 人生は、あなたが何を手に入れるかわからないチョコレートの箱が欲しい-93%
  9. あらゆる幸運の背後に犯罪があります-100%
  10. 天才は1%のインスピレーションと99%の汗-100%




平均結果: 94%

GoogleはMicrosoftを13%よく理解しています!

おかしい、同意する。 ただし、考えてみれば、これには奇妙なことは何もありません。 Microsoft Annaは、より厳密に、皮肉で、言葉の間で一時停止し、人間の耳は、Googleの翻訳者より機械的に聞こえます。 したがって、Googleのより「人間的な」声が認識されにくいのは当然です。



Windowsを使用してオーディオファイルを認識しようとする試みについては、失敗が待っていました。 第1に、私のロシア語のWindowsはこれを行う方法をまったく知りません(しかし、これらは些細なことです)。 学習メカニズムに基づいて構築されており、コンピューターに理解を教える時間が長くなればなるほど良くなります。 この実験でエンジンをまったく訓練しない価値があるかどうかはわかりませんでした(ただし、この場合、エンジンの始動方法もわかりません)。 誰かがこれを行うことに興味があるなら、もう一度音声ファイルをテストするためのリンクと、マイク入力ではなく音声ファイルからテキストを認識するプログラムを作成する方法に関する記事を提供します。



この実験はGoogleテクノロジーに焦点を当てていることが判明したため、彼のブログにトピックを公開しています。



All Articles