シリのロシアの類似物の開発に関する物語の続き

トピック「ロシア語を話す「アナログ」Siriの開発」を7日間で公開した後私は多くの貴重なヒントやアドバイスを受け取りました。 どうもありがとうございました。 私は多くのヒントとコメントを考慮し、開発を続けました。 カットの下でそれが来たもの。



最初にしたことは、デザインを変更することでした。 このため、アプリケーションの新しいデザインを親切に送ってくれたvipzona harazhitelに感謝します。 これで、デザインは次のようになります。







リンゴドックのどこを掘るかを提案したLimosha haralerのおかげで、サンプリング周波数を44.1 KHzから16 KHzに変更しました。 サーバーに転送されるファイルサイズが減少しました。 サンプリング周波数を8 KHzに下げることでファイルサイズをさらに小さくしたかったのですが、認識品質が著しく低下し、16 KHzに落ち着きました。



もっとも重要なことは、音声エンジンを変更したことです。 彼はGoogleに切り替えました。 ispeech.orgと比較して、認識の質は何倍も優れています。 残念ながら、iPhoneでWaveをFLACに直接変換するためのライブラリがまだ見つからなかったため、サーバーでflacライブラリを使用して変換することにしました。 開発者はフォーラムでデバイス上で変換するよりも速くなると書いていますが、これは古いiPhoneモデルにも当てはまるようです。

Googleエンジンに切り替えるには、より強力なリソースが必要だったため、専用サーバーを注文しました。 以前は共有ホスティングでしかホストしていなかったため、専用のもので苦しめなければなりませんでした。 json_encodeとjson_decode、およびMYSQLをサポートしていないPHP 5.1を備えたCentOsを搭載したサーバーがあり、utf8_general_ciでエンコードされたロシア語による全文検索が正しく機能しませんでした。 2日間、サーバーをセットアップして「殺しました」。 phpを更新し、flacライブラリをインストールしました。



すべての変更の後、アプリケーションロジックは次のようになり始めました。

A)電話がwaveファイルをサーバーに送信します。

B)サーバー上で、ファイルはflacにトランスコードされ、認識のためにGoogleサーバーに送信され、応答として認識された文字列を受信します。

C)サーバーは受信した情報を処理し、応答を生成して電話に送信します。

D)電話は受信した情報を再現します。

このスキームでは、すべてがはるかに高速に動作しますが、サーバーの負荷はわずかに増加していません。 サーバーが同時に耐えることができるリクエストの数さえ知りません。 専用ですが、ゴムではありません。



機能改善



さらに、送信されてコメントに記載されたすべてのヒントを注意深く読んで、機能を改善することを約束しました。 私が最初にしたことは、GPS座標またはIPで天気を表示する天気ウィジェットを挿入することでした。座標が見つからない場合です。 ウィジェットはgismeteo.ruから取得した標準であり、誰もが悪くはなく、広告だけが表示されます。 それほど後ではなく、おそらく独自の天気ウィジェットを作成する必要があります。 受信した座標によって、天気情報を含むXMLファイルを提供するサイトがいくつかあります。 それを解析し、太陽、雲などのアイコンを描くだけです。 そして表示。







次に、発信者を呼び出し、連絡先の音声を呼び出す機能を追加しました。 連絡先が見つからない場合、これが報告されます。 もちろん、多くの人にとって、そして私にとって、連絡先は、FIGが正しく発音できるように名前が付けられています。 より便利にするために、名前または姓だけでなく、ニックネームでも購読者を探しています。 連絡先にエイリアス(ニックネーム)を追加すると、電話がはるかに便利になります。 原則として、仮名を使用した方法が最も正確です。アップルでさえ、Siriに使用することをお勧めします。プログラムをトレーニングしないと、すべての姓を辞めるように教えることは非常に難しいからです。 さらに、電話の制御(タイマー、目覚まし時計、メモ)のトピックでは、アップルがプログラムをハッキングしないように、まだ深く入り込まないことにしました。 彼らはすでに手紙を送っており、ごめんなさいと言っているので、そう言いますが、あなたの申請をチェックするのにさらに時間がかかります。待ってくれてありがとう。



次に、地図上で自分の居場所を見つけ、レストラン、カフェ、ナイトクラブなどに最も近いオブジェクトを表示する機会を追加しました。これには、Yandexからのリクエストを使用します。 実際のsiriは米国以外のオブジェクトを探していないことを考えると、非常に便利な機能であることがわかりました。







彼はまた、よく聞かれるが絶対に意味のない質問にユーモアと回答を少し加えました。 これを行うには、トピックに関する情報源、Siriが最もよく尋ねる質問を読んでください。 私の質問もすべてデータベースに入力されるので、すぐに私たちの人々が最もよく尋ねるものを知ることになります。

また、Googleから写真や写真を検索する機能を追加し、Wolfram | Alpha Webservice APIを接続しました。 Siriは同じベースを使用しているため、Appleは音声アシスタントでタングステンアルファベースを使用するすべてのプログラムを容赦なくリダイレ​​クトすることを読んだため、接続しましたが、まだアクティブにしていません。 1日あたりのリクエスト数が2000以下のWolfram | Alpha APIの使用は無料です。







その後、航空券の検索やホテルの予約など、必要なことを始めました。 この結果はスクリーンショットで見ることができます。







その結果、かなりまともなアプリケーションがすでに判明していますが、これはApp Storeに置くのは恥ずべきことではありません。 確かに、知識ベースを最後まで記入する必要があります。今のところ、私のアシスタントは、12の椅子の人食いエロッカに似ています。

アップルがアプリケーションをスキップした場合、非常に良好なスタートアップを取得できます。 次に、アプリケーションをAndroidとWindows Phoneに移植します。 あなたが見逃さないなら、私はあまり動揺しません。 成果は失われないと思います。 モバイルアプリケーションで音声認識をどのように、どこで適用できるかについてはすでに考えています。

プレリリースバージョンの機能のビデオデモはこちら: www.youtube.com/watch?v = JlkJva - TGfY



PS

いつものように、私はアドバイスや建設的な批判を喜んで聞きます。



Habrazhiteliのいずれかが、チケット、ホテル、およびその他の有用なサービスを健全なIPAで予約するためのサービスを提供している場合、これらのサービスをアプリケーションに組み込む問題について喜んで説明します。



UPD:今夜、アップルはアプリケーションを拒否しました。 私は彼らと長く退屈なやりとりをし、彼らが必要とするものを変えます。








All Articles