感情テキスト分析

情報フローのセンチメント分析は、監視、分析、および信号システム、Webページを対象とするワークフローシステムおよび広告プラットフォームにとって大きな可能性を秘めています。



この資料では、感情分析の概念、調性を決定するための基本的な方法、およびこの分野の新しいアプローチを紹介します。







情報に加えて、自然言語のテキストは、報告されている内容に対する感情的な感謝を表すことができます。 たとえば、そのような提案には、何が起こっているのかという否定的な評価が含まれています。



(1)2012年、Armstrongは、米国アンチドーピング機関による調査の結果、違法薬物の使用で有罪判決を受けました。



そしてこれはポジティブです:



(2)Appleは、新しいキャンパスを建設する最終的な許可を受けています。



テキストで表現される感情評価は、テキストの調性または感情(英語の感情-感情、意見、気分から)と呼ばれます。 人は多くの尺度(善悪、強弱、大小、幸福-不幸、変な悲しい、速い-遅いなど)で一度に世界を評価し、これらの尺度はさまざまな方法で感情的に読み込まれます。 しかし、簡単にするために、感情的評価は善悪の尺度または正負の尺度まで下がると仮定できます。



歴史的に、感情分析に対する従来のアプローチは、テキスト(テキストの一部)を2つまたは3つのカテゴリ(ネガティブ、ポジティブ、ニュートラル、または単にネガティブまたはポジティブ)に分類するタスクでした[Pang&Lee; ターニー]。 調性の分析が開発を開始したのは、タスク(映画、レストラン、電子機器など)に関する評価レビューの感情を評価することでした。



それでも、これはテキストのセンチメント分析が解決すべき唯一のタスクではなく、決定するタイプでもありません。 現在、読者はテキストの全体的な感情評価(病院内の平均気温)に興味を持っているのではなく、テキストで言及されている特定のオブジェクトに対する感情の態度、または議論中のオブジェクトに対する発言の主題の態度に関心があります。



感情的評価が表現される相対的なオブジェクトは、調性のオブジェクトと呼ばれます。 したがって、文(1)では調性の対象はArmstrongであり、文(2)ではAppleです。 このような感情分析は、オブジェクトベースと呼ばれます。



テキストで表現された感情評価のキャリアは、通常、明確な人物であり、一般的な場合、それはテキストの著者です。 ただし、テキストの作成者が次の文(3)のように誰かの意見を参照する場合、または文(4)のように他の人の声明を引用する場合、感情のキャリアはその口調の人になります意見が参照されます。



(3)宗教研究は、S。A.ブリャノフによれば、今日は単一性を特徴とする正確な科学ではなく、厳格で一般に受け入れられている原則を持っています。



(4)昨日、中央選挙管理委員会の長であるベシュニャコフは、選挙法の変更を再び称賛し、今では法律が虐待の多くの抜け穴をカバーしていると述べた。



したがって、発話の調性は、調性の対象(評価を行った人)、調性の対象(評価について誰または何を表現したか)、および実際の音調評価(推定)の3つの要素によって決定されます。 例では、このような調性のコンポーネントを見つけることができます。







1つの文で、調性の異なるオブジェクトに関していくつかの感情的評価を同時に行うことができます。



(5)サムスンはAppleに2億9000万ドルの補償金を支払うよう命じました。



Appleに関してはこれはかなり前向きなイベントであり、 Samsungについては言えません。



同じオブジェクトに関して異なる調性がある場合もあります。



(6)地域の顧客に愛されているキャラメルベースの「最愛の」レモネードは、病気の発症を引き起こす可能性があります。



ここで、オブジェクト「レモネード」は、ポジティブな方法とネガティブな方法の両方で言及されています。



センチメント分析のもう1つの方向は、調性オブジェクトの属性のネガティブ/ポジティブの識別です(機能ベース/アスペクトベースのセンチメント分析)。たとえば、



(7)このスマートフォンのもう1つのプラスは、バッテリー電力を大幅に節約し、最大8 GBのフラッシュドライブをサポートするライトインジケーターです。しかし、カメラは非常に弱いです。



ここで、調性の対象は「スマートフォン」ですが、その調性はいくつかの要素(ライトインジケータ、バッテリー、フラッシュドライブ、カメラ)で構成されており、異なる極性を持つことができます。 したがって、ここでのタスクは、製品(オブジェクト)の属性を識別し、その調性を決定することです。 さらに、1つの属性の同じ定性的特性はプラスになる場合があり、別の属性ではマイナスになる場合があります(たとえば、電話の「大きなバッテリー」はかなり良いが、電話の「大きな重量」はかなり悪い)。



キーに加えて、テキストは判断の主観性/客観性によって評価できます(オピニオンマイニング)。 これが記述されている内容の主観的評価を含む声明の著者の意見である場合、テキストは主観的であると見なされます。 逆に、これが対話の参加者によってデフォルトで共有されるメディアのレポートまたは意見である場合、それは客観的であると見なされます。



たとえば、ソーシャルネットワークからのメッセージ:



(8)今のところ、私は自分のものです。SamsungGalaxy Note 3は私の手に渡った最高のガジェットです。



スマートフォンの主観評価があります。 メディアからのテキスト:



(9)Promsvyazbankは、組織への融資ポートフォリオの上位10のロシアの銀行での地位を強化しました。



客観的な情報が含まれています。



主観的な情報には、引用だけでなく、テキスト内の直接および間接的なスピーチが含まれます(例3および4を参照)。 このような場合、ステートメントの主観性/客観性の自動決定は、一般的な場合よりも技術的にはるかに簡単に実装できます。



キー定義方法



この自動調性決定タスクを解決するには、主に2つの方法があります。





さらに、混合方法が使用されることもあります(1番目と2番目のアプローチの組み合わせ)。



統計的アプローチでは、テキストの一般的な分類の問題を調性クラス、サポートベクトル法(SVM)、ベイジアンモデルに解決するために、さまざまな回帰が広く使用されています[ 。



目標が特定の所定のオブジェクト(複数のオブジェクト)の調性を決定することである場合、CRF [Antonova and Soloviev]、セマンティックプロキシミティアルゴリズム(たとえば、潜在セマンティック分析-LSA、潜在ディリクレ割り当て-など) LDA)およびその他、ならびにルールに基づく方法[Pazelskaya and Soloviev]。



属性の調性を決定するために、言語モデル[García-Moya&all]、ニューラルネットワーク[Tarasov]、または主題のシソーラスが使用されます。



SentiFinderキー検出モジュール



SentiFinderモジュールは、1つの文内およびドキュメント全体の平均の両方で、特定の調性オブジェクトに関して3種類のロシア語テキストの調性(ポジティブ、ネガティブ、ニュートラル)を定義します。



このモジュールは、音調辞書を使用したランダムマルコフフィールドのアルゴリズムに実装されています。 これにより、高品質(3種類の調性の平均精度約87%)だけでなく、高速のワードプロセッシング(1つのストリームでSentiFinderモジュールの速度が100 kB / s以上)を達成することができました。



このモジュールの特徴は、感情の力を評価できることです。 したがって、ユーザーには、調性の関心対象に関する文書全体の質的感情的評価を取得する機会だけでなく、それに対する否定的および肯定的な態度の定量的比率も取得できます。



このモジュールは、ニュースストリームの「クラシック」テキストとソーシャルメッセージの「非クラシック」言語の両方で機能します。 メディア。



サイトeurekaengine.ruでこのサービスに慣れることができます。



参照資料

  1. Bo Pang、Lillian Lee、Shivakumar Vaithyanathan いいね! 機械学習手法を使用した感情分類 //-2002。-P. 79–86。
  2. ピーターターニーは親指を立てるか、それとも親指を下げますか? レビューの教師なし分類に適用されるセマンティックオリエンテーション //計算言語学協会の議事録。 -2002。-S. 417-424。 -arΧiv:LG / 0212032
  3. Anna AntonovaとAleksey Soloviev、 ロシア語でテキストを処理するための条件付きランダムフィールドの方法の使用。 計算言語学とインテリジェントテクノロジー:Dialogue 2013。 土 科学論文/ Vol。 12(19).- M .:ロシア国立人道大学出版社、2013年。– P.27-44。
  4. ROMIP-2012のセンチメント分析トラック。 Chetviorkin II、Loukachevitch NVコンピュータ言語学およびインテリジェントテクノロジー。 計算言語学とインテリジェントテクノロジー:Dialogue 2013。 土 科学論文第2巻、p。 40-50。
  5. アンナ・パゼルスカヤとアレクセイ・ソロヴィエフ、 ロシア語のテキストの感情を決定する方法。 計算言語学と知的技術。 計算言語学と知的技術:「Dialog-2011」。 土 科学論文/ Vol。 11(18).- M .:ロシア国立人道大学出版社、2011年。– P.510-523。
  6. Tarasov DS Deep Recurrent Neural Networks for Multiple Language Aspect-Based Sentiment Analysis // Computational Linguistics and Intellectual Technologies:Proceedings of Annual International Conference "Dialogue-2015"、Issue 14(21)、V.2、pp。 65-74(2015)。
  7. García-Moya、L.、Anaya-Sanchez、H.、Berlanga-Llavori、R .: カスタマーのレビューから製品の機能と意見を取得しています。 IEEEインテリジェントシステム28(3)、19–27(2013)



All Articles