コンタクトセンターの連絡先トピックの分類

こんにちは同僚! この記事では、開発中に発生したコンタクトセンターへの顧客からの電話のトピックを分類するソリューションを構築する機能について簡単に説明します。



通話のトピックの定義は、傾向を追跡し、関心のある録音を聞くために使用されます。 従来、この問題は適切なタグをオペレータに貼り付けることで解決されていましたが、このアプローチでは「人的」要素が大きな役割を果たし、多くのオペレータの作業が費やされます。







この問題を解決するために、私たちのチームであるData4は、テキストの分類に基づいてトピックを決定するシステムを開発しました。



入力では、周波数8 kHzの2チャンネルWAVファイルが使用されました。 ファイルは、音声認識システムを使用して転写されました。 WERメトリックによると、ロシア語の自発音声のデータの認識品質は60〜70%でした。 この品質により、文を列などに分解する方法を視覚分析に適用することは難しくなりますが、統計分析には十分です。



テキストに加えて、予測の品質は、一時停止、中断、オペレータの発話と加入者の発話の比率などの発話パラメータの影響を受ける可能性があるという仮説をテストしました。 これらの兆候を識別するために、次のように機能する音声存在検出器を使用しました。





検証では、信号処理から得られた兆候がモデルにプラスの寄与をしていないことが示されました。 トレーニングは小さなサンプル(クラスごとに1,000レコード)で実施されましたが、おそらくより大きなトレーニングサンプルでは異なる結果が得られる可能性があります。



テキストに基づいて分類子を作成するには、テキストを特徴ベクトルに変換する必要がありました。 このために、TFメソッド-IDFを使用しました。 TF-IDFは、単語の重みが文書内の単語の使用回数に比例し、コレクション内の他の文書内の単語の使用頻度に反比例する文書のコレクションの一部である文書のコンテキストで単語の重要性を評価する統計的尺度です。 次元を減らすために、単語形式の見出し語化が使用されました。







まれにしか使用されない単語や頻繁に使用される単語を考慮しないために、ロシア語のストップワードリストを使用し、特徴ベクトル3000の長さ、およびトークン2の最小頻度を実験的に制限しました。組合、粒子、大多数の場合、それらは音声認識システムの誤操作の結果であるか、重要な情報を運ばなかったからです。 残りの単語には、ベクトル表現を使用してトピックの分類子をトレーニングするのに十分な情報が含まれています。







品質のメトリックはFメジャーでした。 Fメジャーは、精度とリコール値を考慮し、次の式で計算されます。F= 2 P * R /(P + R)。ここで、Pは精度、Rは完全性です。

再トレーニングの影響を最小限に抑えるために、L2正則化と10ブロックの相互検証が使用されました。



トピックは、残りのトピックを対比することで区別でき、トピック内のトピックはツリー形式で表現できるという仮定に基づいて、バイナリ分類子を使用しました。







アルゴリズムテストにより、コールテキストを分類するタスクでは、ロジスティック回帰とランダム決定フォレストが最良の結果をもたらすことが示されました。 同時に、ロジスティック回帰ではいくつかのデータセットで安定した結果が示され、ランダムフォレストでは最高の品質が示されましたが、データセットを変更する場合は追加の手動チューニングが必要です。



品質測定基準F1によると、少なくとも1,000の例を含む加重クラスで0.98の測定値が達成されました。 この品質は、多くのテストデータでのみ達成されたことに注意してください。 250〜300の例を含む一部のクラスでは、最大値は0.7でした。 これは、トピックの分離の形式化と、モデルトレーニング用のテキストセットでのトピックの出現頻度によるものです。 したがって、ターゲットコールと非ターゲットコールの分類の品質は、特定のサービスおよびより一般的なタイプの顧客要求の分類よりも高くなります。



要約:



コンタクトセンターへのコールのトピックを分類するには、ロジスティック回帰に基づくアルゴリズムを使用して持続可能な品質を実現するか、事前に設定する必要があるランダムな決定フォレストに基づくアルゴリズムを使用するのが合理的です。 アルゴリズムの入力は、テキストから派生した特徴ベクトルです。 メトリックF1メジャーで高品質を実現するには、各クラスの少なくとも1,000の例を含むトレーニングサンプルを使用する必要があります。



テキストを操作するための便利なリンク:



Big-ARTM-最先端のトピックモデリング

Gensim-人間向けのトピックモデリング

テキスト分類アプローチの概要

ニューラルネットワークの分類

SVM分類



PS記事の作成とソリューションの開発に貢献してくれたAnna Larionovaに感謝します。



All Articles