ビジネスでの音声認識の使用方法

画像



コールトラッキング市場で革命が起きつつあります。音声認識技術を導入しようとしています。 Calltouch CEOのYevgeny Vlasov氏は、最近、アメリカのサービスに適用され、ロシアにトレンドがどのくらい早く届くのか、事業主にどのようなメリットがあるのか​​を発見しました。



背景



まず、音声認識とは何かを理解しましょう。 科学界では、音声信号をデジタル情報(テキストデータなど)に変換するプロセスはそれと呼ばれます。 テクノロジーの対極は、デジタル情報を音声信号に変換するロボットの話です。



最初の音声認識デバイスは1952年に登場し、人が話した数字を理解しました。 1990年代の初めに、障害のある人がテキストを操作できるようにするプログラムがリリースされました。 しかし、いくつかの問題が原因で認識が不正確だったため、テクノロジーは普及していませんでした。







画像



さらに、人がアクセントで話したり、誤って強調したり、会話のペースや音量を変えたりすると、同じ単語の発音が異なる場合があります。 これらの詳細は、コンピューターはもちろんのこと、人々の間の理解に影響する場合があります。



しかし、プログラムは徐々に音声を認識することを学び、彼らが理解した最初の言語は英語でした。それは広く普及しており、十分にシンプル(ロシア語や中国語よりも簡単)なので、それほど複雑でない数学的アルゴリズムを必要とします。 欧米のIT技術の市場は急速に成長しており、激しい競争により、音声認識はすぐにビジネスで広く使用されるようになりました。



会話ビジネス



ロシアでは、これまでのところ最大の成功を収めているのはYandexだけです。2013年に、同社はSpeechKitCloudクラウドテクノロジーを発表しました。これは、音声の合成と認識に役立ちます。



合成は、音響モデリングの統計的アプローチを通じて行われます。 簡単に言えば、プログラムは生きている人々のイントネーションに基づいて新しい声を形成します。 これにより、人工音声に感情的な色付け(種類、悪、中立)を与えたり、性的特性(男性、女性)を付与したりできます。 執筆時点では、このサービスは1か月間無料のテストを提供しており、さらに1,000リクエストあたり5ドルの推定コストがかかっていました。



残念ながら、大企業はこのテクノロジーを最大限に活用することを急いでいませんが、まだ熱心な人がいます。 たとえば、ロシアのコールセンターオートメーションシステムの開発者であるOktellは、SpeechKitCloudを使用して、発信者が聞くグリーティングと音声メニューを作成し、よくある質問への回答を記録します。 この技術は、コールセンターの作業と同時に適用され、オペレーターの負担を軽減します。



Repka.UAの同僚は、人々を機械に置き換えることにほぼ成功しました。 彼らはSpeechKitCloudスピーチシンセサイザーとオンラインストアアカウンティングシステムを接続し、注文確認スクリプトを開発しました。その結果、Christinaが登場しました。



画像



人に質問がある場合、コールはコールセンターのオペレーターに転送されます。 当然のことながら、クリスティーナの音声認識率は最初は低いものでしたが、異常な状況では、着信コールのピーク時に彼女は人を交換できず、仕事につながりました。



画像



しかし、独自の音声モデルを作成したおかげで、同社はなんとか精度を上げることができました。 ロボットのコストは、オペレーターのコストの5倍、外部コールセンターの8倍になりました。



もう1つの機能SpeechKitCloud-音声認識により、顧客は電話で自動モードで注文することができます。 現在、標準の回答(「問題」、「配信」、「確認」)に加えて、この技術は「完了しましょう」、「わからない」、「拾います」、「大丈夫」などのフレーズを認識します。 同時に、システムはロシア語の音声の約82〜95%を認識します。これは、元の音声、符号化品質、音声の明瞭度とテンポ、フレーズの複雑さおよび長さに依存します。 音声合成の場合のように、技術の使用は主にコールセンターの負荷を軽減し、将来、品質が改善されれば、完全に置き換えることができます。



近い将来



現在、システムは発信および着信コールの受信と配信にのみ使用されています。 ただし、Calltouchではこれが制限ではないことを確信しており、年末までに音声認識技術とコールトラッキングサービスの統合を完了する予定です。これにより、広告キャンペーンとビジネスプロセスの最適化をまったく新しいレベルに進めることができます。



たとえば、コール配信のストーリーを考えてみましょう。 今日のほとんどのビジネスマンは、電話の流れを管理する方法を学び、電話をかける人とコンサルティングに興味がある人を区別したいと考えています。



たとえば、Yandex.Direct、Yandex Advertising Network(YAN)、およびVKontakteソーシャルネットワークで広告を掲載する玩具店では、購入に至るまでにどのソースが彼を呼んでいるのでしょうか。 VKontakteが主に無料相談、YAN-サービスへの呼び出し、Yandex.Direct-販売を希望する人々をリードするとします。 この場合、ソーシャルネットワークでの広告費用を最小限に抑えながら、Yandex.Directを優先して予算を再配分する価値があります。 しかし、潜在的な顧客の呼び出しがどのように配信されるかを知らないため、これは不可能です。



現在、2つの分離方法があります。



  1. 自動 電話をかけると、音声システムがトリガーされ、選択を提案します。「1」ボタンが営業部に転送され、「2」ボタンがサービスセンターに転送されます。 この情報はコールトラッキングシステムに送られ、分析されます。
  2. 機械的 顧客が購入に興味を持っていることに気づいた会社秘書は、サービスのサービス-番号「2」の場合、番号「1」を押します。 サービスは、最初の呼び出しを「販売」としてマークし、2番目の呼び出しを「サービス」としてマークし、このデータに基づいて分析を構築します。




どちらの方法も人的要因に依存します。 最初のケースでは、クライアントが追加のアクション(ボタンを押す)を実行するのは不便であり、クライアントは電話を切るか、別の番号を押します。 2番目の方法では、秘書は、たとえば自分のKPIが「セールス」コールの数に依存している場合、コールのマーク付けを忘れるか、結果を「終了」することがあります。



新しい技術の出現により、人的要因を排除することができます。 広告で最も頻繁に使用されるキーワードを理解するようにシステムに教えると、それ自体がキーワードをグループに分割し、呼び出しを「販売」または「サービス」としてマークします。



音声認識は、従業員の管理にも役立ちます。 たとえば、会社の所有者は、部下が変更しない、顧客に対して無礼である、または電話に出られないという感覚を持っています。 これは、電話での会話の記録を聞くことによってのみ1つの方法で確認できます。 しかし、タスクを完了するために従業員を雇う場合、これは時間とお金を費やす必要があります。 一方、音声認識コールトラッキングサービスは、既存の問題を自動的に示します。 これを行うために、クライアントとの「正しい」通信のためのスクリプトとテンプレートがシステムにダウンロードされ、従業員がこれらの言葉を何回言わなければならないかが決定されます。 プログラムが会話でそれらを検出した場合、マネージャーは正しく動作しました。 一方、コールトラッキングは、攻撃的な行動や不適切な会話の特定に役立ちます。 当然、この方法では絶対的な結果は得られませんが、顧客とのコミュニケーションの質を理解するのに役立ちます。



テクノロジーによって提供される情報を分析することにより、売り上げを増やすことができます。 たとえば、このプログラムは広告キャンペーンで使用されたことのない単語を識別しますが、ほとんどの顧客は店に電話をかけるときにそれらを発音します。 このようなフレーズを広告に挿入すると便利です。これにより、コンテキストのオーディエンスが広がり、マーケティング担当者によって書かれた通常のテキストよりも多くの効果がもたらされます。



もちろん、ロシアの通話追跡サービスが音声を理解するには時間がかかります。 しかし、ユーザーがテクノロジーが開く機会を高く評価することは間違いありません。



ソース: SearchEngines.ru



All Articles