コンピュヌタヌに感芚を教えたすロシア語での感情分析





感情分析 ロシア語では、調性分析は、テキスト文曞の意芋や感情を研究するコンピュヌタヌ蚀語孊の分野です。 最近、機械孊習を䜿甚しお調性を分析するこずに関する蚘事がハブに掲茉されたしたが、あたりにも構成が䞍十分だったため、自分のバヌゞョンを曞くこずにしたした。 そのため、この蚘事では、調性の分析ずは䜕か、たたロシア語に同様のシステムを実装する方法に぀いお、アクセス可胜な方法で説明しようずしたす。





キヌ分析



調性の分析の目的は、テキストで意芋を芋぀け、その特性を決定するこずです。 タスクに応じお、たずえば次のような異なるプロパティに関心がある堎合がありたす。

  1. 著者-この意芋の所有者
  2. トピック-意芋で蚀われおいるこず
  3. 調性-蚀及されたトピックに関する著者の䜍眮通垞は「ポゞティブ」たたは「ネガティブ」


: "        –      ,       », —   " :   : "  " : ""
      
      





文献には、意芋のモデルを圢匏化するさたざたな方法がありたす。 そのうちの1぀を䟋ずしお匕甚したした。 異なる甚語も䜿甚されたす。 英語では、この研究分野は䞀般的に意芋マむニングずセンチメント分析ず呌ばれたす 文字通り「意芋を求めお感情を分析する」。 ロシアの蚘事では、「調性分析」ずいう甚語が通垞䜿甚されたす。 調性は意芋の特城の1぀にすぎないずいう事実にもかかわらず、今日最もよく研​​究されおいるのは調性を分類する䜜業です。 これにはいく぀かの理由がありたす。

  1. 著者ずトピックの定矩は、調性の分類よりもはるかに難しいため、最初に単玔な問題を解決しおから残りに切り替えるのが理にかなっおいたす。
  2. 倚くの堎合、調性を決定する必芁があるのは、 他の特性はすでにわかっおいたす。 たずえば、ブログから意芋を収集する堎合、通垞、意芋の著者は投皿の著者です。 著者を特定する必芁はありたせん。 たた、トピックをよく知っおいたす。たずえば、Twitterで「Windows 8」ずいうキヌワヌドで怜玢する堎合、芋぀かったツむヌトの調子を決定するだけです。 もちろん、これはすべおの堎合に機胜するわけではなく、ほずんどの堎合にのみ機胜したす。 しかし、これらの仮定により、すでに困難なタスクを倧幅に簡玠化するこずができたす。




調性の分析は、さたざたな分野で実甚的であるこずがわかりたす。

  1. 瀟䌚孊-゜ヌシャルからデヌタを収集したす。 ネットワヌク䟋宗教的信念
  2. 政治孊-人口の政治的芋解に関するブログからデヌタを収集したす
  3. マヌケティング-Twitterを分析しお、最も需芁のあるラップトップモデルを芋぀けたす
  4. 医孊ず心理孊-私たちは瀟䌚サヌビスのナヌザヌの間でう぀病を定矩したす。 ネットワヌク




䞻芁な分類アプロヌチ



調性の分析は通垞、コンピュヌタヌ蚀語孊のタスクの1぀ずしお定矩されたす。 自然蚀語凊理ツヌルタガヌ、パヌサヌなどを䜿甚しお調性を芋぀けお分類できるこずが瀺唆されおいたす。 倧芏暡な䞀般化を行った埌、既存のアプロヌチを次のカテゎリに分類できたす。







  1. ルヌルベヌスのアプロヌチ
  2. 蟞曞ベヌスのアプロヌチ
  3. 教垫ずの機械孊習
  4. 教垫なしの機械孊習


最初のタむプのシステムは、システムがテキストの調性に぀いお結論を出す䞀連のルヌルで構成されたす。 たずえば、「I love coffee」ずいう文には、次のルヌルを適甚できたす。

   ("")      ("", "", "" ...)      ,     ""
      
      







高䟡であるずいう事実にもかかわらず、倚くの商甚システムはこのアプロヌチを䜿甚しおいたす。 システムが適切に機胜するには、倚数のルヌルを䜜成する必芁がありたす。 倚くの堎合、ルヌルは特定のドメむン「レストランの件名」などに関連付けられおおり、ドメむンを倉曎するずき「カメラレビュヌ」、ルヌルを再コンパむルする必芁がありたす。 それにもかかわらず、このアプロヌチは、適切なルヌルのベヌスがあれば最も正確ですが、研究にはたったく興味がありたせん。



蟞曞ベヌスのアプロヌチは、いわゆる音調蟞曞感情蟞曞を䜿甚しおテキストを分析したす。 簡単な圢匏では、音調蟞曞は各単語の調性倀を持぀単語のリストです。 ロシア語に翻蚳されたANEWデヌタベヌスの䟋を次に瀺したす。

蚀葉 原子䟡 1-9
幞せな 8.21
いいね 7.47
぀たらない 2.95
怒っおいる 2.85
悲しい 1.61




テキストを分析するには、次のアルゎリズムを䜿甚できたす。たず、テキスト内の各単語に蟞曞からの調性倀を割り圓お蟞曞に存圚する堎合、次にテキスト党䜓の党䜓的な調性を蚈算したす。 党䜓の調性を蚈算するには倚くの方法がありたす。 最も単玔なのは、すべおの倀の算術平均です。 より耇雑なのは、分類噚たずえば、ニュヌラルネットワヌクをトレヌニングするこずです。



教垫による機械孊習は、研究で䜿甚される最も䞀般的な方法です。 その本質は、事前にマヌクされたテキストのコレクションで機械分類噚をトレヌニングし、その埌、結果のモデルを䜿甚しお新しいドキュメントを分析するこずです。 この方法に぀いおは埌で説明したす。



教垫なしの機械孊習は、おそらく最も興味深いず同時に、音調を分析するための最も正確でない方法です。 この方法の1぀の䟋は、自動ドキュメントクラスタリングです。



教垫ずの機械孊習


調性分析システムを䜜成するプロセスは、機械孊習を䜿甚しお他のシステムを䜜成するプロセスず非垞に䌌おいたす。

  1. 分類噚をトレヌニングするためのドキュメントのコレクションを収集する必芁がありたす
  2. トレヌニングコレクションの各ドキュメントは、特城ベクトルずしお衚す必芁がありたす
  3. 各ドキュメントに察しお、「正解」を指定する必芁がありたす。぀たり、 調性のタむプたずえば、正たたは負、これらの回答に埓っお、分類噚は蚓緎されたす
  4. 分類アルゎリズムの遞択ず分類子のトレヌニング
  5. 結果のモデルを䜿甚する




クラスの数


調性を分割するクラスの数は、通垞、システム仕様から指定されたす。 たずえば、顧客は、「ポゞティブ」、「ニュヌトラル」、「ネガティブ」の3皮類の調性を区別するようにシステムに芁求したす。 研究では、調性のバむナリ分類の問題、すなわち 「ポゞティブ」ず「ネガティブ」の2぀のクラスのみがありたす。 私自身の経隓から、調性を3぀以䞊のクラスに分類するこずは非垞に難しい䜜業であるず蚀えたす。 3぀のクラスであっおも、䜿甚するアプロヌチに関係なく、高い粟床を達成するこずは非垞に困難です。



タスクが3぀以䞊のクラスに分類するこずである堎合、分類噚をトレヌニングするために次のオプションが可胜です。





通垞、階局分類はフラットよりも優れた結果をもたらしたす。 各分類子に぀いお、結果を改善できる機胜のセットを芋぀けるこずができたす。 ただし、トレヌニングずテストには倚くの時間ず劎力が必芁です。 本圓に倚くのクラス5぀以䞊がある堎合、回垰はより良い結果を瀺すこずができたす。



機胜の遞択


結果の品質は、分類子にドキュメントをどのように提瀺するか、぀たり、特城ベクトルのコンパむルに䜿甚する特性のセットに盎接䟝存したす。 compタスクでドキュメントを衚瀺する最も䞀般的な方法。 蚀語孊ず怜玢-これは、単語のセットbag-of-wordsたたはN-gramのセットのいずれかです。 たずえば、「I love love black coffee」ずいう文は、ナニグラムI、love、black、coffeeたたはバむグラムi love、love love black、black coffeeの圢匏で衚瀺できたす。



通垞、ナニグラムずバむグラムは、次数の高いNグラムトラむグラム以䞊よりも良い結果をもたらしたす。 ほずんどの堎合、トレヌニングサンプルは最倧次数のN-gramを数えるほど倧きくありたせん。 ナニグラム、バむグラム、およびそれらの組み合わせを䜿甚しお結果をテストするこずは垞に意味がありたす黒が倧奜き、コヌヒヌ、倧奜き、黒が倧奜き、ブラックコヌヒヌ。 デヌタの皮類によっおは、ナニグラムはバむグラムよりも優れた結果を瀺すこずができたすが、その逆も可胜です。 たた、ナニグラムずバむグラムの組み合わせにより、結果が改善される堎合がありたす。





ステミングず語圙化
いく぀かの研究では、テキストを提瀺するずきに、すべおの単語がステミング゚ンディングの削陀たたは芋出し語化初期圢匏ぞの還元の手順を経たす。 この手順の目的は、問題の次元を枛らすこずです。蚀い換えるず、テキストに同じ単語が含たれおいるが、語尟が異なる堎合、ステミングずレンマタむれヌションを䜿甚しお、それらを1぀の圢匏にできたす。 ただし、実際にはこれは通垞、具䜓的な結果を生成したせん。 この理由は、語尟を取り陀くず、圢態孊的情報が倱われ、調性の分析に圹立぀可胜性があるためです。 たずえば、「want」ず「wanted」ずいう蚀葉のトヌンは異なりたす。 最初のケヌスで調性が正である可胜性が最も高いのは、 著者は垌望ずポゞティブな感情を衚珟できたす。そしお、過去圢の動詞では、著者が埌悔を衚珟するず調性がネガティブになりたす。





テキストを衚すもう1぀の方法は、文字N-gramです。 䟋のテキストは、「I love」、「love」、「fuck」、「fuck」などの4文字のN-gramの圢匏で衚すこずができたす。 この方法はあたりにも原始的に芋えるかもしれないずいう事実にもかかわらず、 䞀芋、文字セットにはセマンティクスが含たれおいたせんが、この方法ではNグラムの単語よりも優れた結果が埗られる堎合がありたす。 よく芋るず、文字のNグラムは単語の圢態玠にある皋床察応しおおり、特に単語のルヌト「愛」がその意味を持っおいるこずがわかりたす。 文字N-gramは、次の2぀の堎合に圹立ちたす。

  1. テキストにスペルミスがある堎合、゚ラヌのあるテキストの文字セットず゚ラヌのないテキストの文字セットは、単語ずほずんど同じです。
  2. 豊かな圢態の蚀語ロシア語など-テキストには同じ単語がありたすが、異なるバリ゚ヌション性別たたは数の違いがありたすが、単語の語根は倉わらないため、䞀般的な文字セットです。


文字N-gramは、N-gramの単語よりもはるかに少ない頻床で䜿甚されたすが、結果が改善される堎合がありたす。



たた、品詞、句読点笑顔の存圚、テキスト内の感嘆笊、テキスト内の吊定の存圚「いいえ」、「いいえ」、「決しお」、間投詞などの远加機胜を䜿甚するこずもできたす。



加重ベクトル


特城ベクトルをコンパむルする次のステップは、各特城に重みを割り圓おるこずです。 䞀郚の分類子では、たずえば、ベむゞアン分類子の堎合、これはオプションです。 圌自身が兆候の確率を蚈算したす。 ただし、サポヌトベクトル法を䜿甚する堎合、重みを蚭定するず結果が倧幅に改善されたす。



情報怜玢においお、特城の重みを掚定する最も䞀般的な方法はTF-IDFです。 調性分析の堎合、この方法では良い結果が埗られたせん。 この理由は、調性の分析では、怜玢タスクずは察照的に、テキストで頻繁に繰り返される単語぀たり、TFの高い単語はそれほど重芁ではないためです。 したがっお、通垞はバむナリの重みが䜿甚されたす。぀たり、属性ナニグラムを䜿甚する堎合、単語にテキストに存圚する堎合、単䜍の重みが割り圓おられたす。 それ以倖の堎合、重みはれロです。 たずえば、「I love black coffee」は次のベクトルずしお衚瀺されたす重み= 0の単語は省略したす。



 {"": 1, "": 1, "": 1, "": 1}
      
      







しかし、 デルタTF-IDFなど、調性の分類においおはるかに優れた結果をもたらす単語の重みを蚈算する単語の重芁性を評䟡する方法がありたす。



デルタTF-IDF
TF-IDFデルタ方匏の背埌にある考え方は、次のように、䞭性ではない調性を持぀単語にもっず重みを付けるこずです。 テキスト党䜓のトヌンを決定するのはこれらの単語です。 単語wの重みを蚈算する匏は次のずおりです。



Vt、d = Ct、dlog| N | Pt | P | Nt



ここで

  • V t、d-ドキュメントd内の単語tの重み
  • t、d-単語tがドキュメントdに出珟する回数
  • | P | -ポゞティブなトヌンのドキュメントの数
  • | N | -負の調性を持぀文曞の数
  • P t-単語tが出珟する肯定文曞の数
  • N t-単語tが出珟する吊定文曞の数




結果は䜕ですか 映画レビュヌのコレクションを扱っおいるずしたしょう。 「優秀」、「退屈」、「スクリプト」の3぀の単語を考えおみたしょう。 匏で最も重芁なこずは、デルタTF-IDF です 。これは、2番目の芁玠のログ...です。 これらの3぀の蚀葉が違うのは圌です。

  1. 「優秀」ずいう蚀葉は、ほずんどのポゞティブP t レビュヌで芋぀かる可胜性が最も高く、ネガティブN t でもほずんど発生したせん。その結果、重みは倧きな正の数になりたす。 比率P t / N tは1よりもはるかに倧きい数倀になりたす。
  2. 反察に、「退屈」ずいう蚀葉は䞻に吊定的なレビュヌで発生するため、比率P t / N tは1未満になり、その結果、察数は負になりたす。 その結果、単語の重みは負の数になりたすが、倧きさは倧きくなりたす。
  3. 「スクリプト」ずいう単語は、肯定的レビュヌず吊定的レビュヌの䞡方で同じ確率で発生する可胜性があるため、比率P t / N tは1に非垞に近くなり、その結果、察数はれロに近くなりたす。 単語の重みは実質的にれロになりたす。




その結果、正の調性を持぀単語の重みは倧きな正の数になり、負の調性を持぀単語の重みは負の数になり、䞭立語の重みはれロに近くなりたす。 ほずんどの堎合、このような特城ベクトルの重み付けにより、調性の分類の粟床を向䞊させるこずができたす。





分類子の実装



私は、Pythonで映画をレビュヌするための単玔な調性分類噚を実装したした。 デヌタはキノポむスクから収集されたした 。 500の肯定的なレビュヌず500の吊定的なレビュヌが遞択されたした。 分類アルゎリズムずしお、 単玔ベむズ分類噚 NBずサポヌトベクトル法 SVMを䜿甚したした。 ナニグラム、バむグラム、およびそれらの組み合わせを笊号ずしお、および重み関数ずしおテストしたした。ベむずSVMのバむナリ関数、SVMのデルタTF-IDFです。 分類噚のパフォヌマンスを評䟡するために、 クロスチェックを実斜したした。パラメヌタヌのセットごずに、5぀のテストが連続しお実行され、各テストで800のレビュヌず200のテストを䜿甚したした。 以䞋は、9セットのパラメヌタヌすべおの結果パヌセント単䜍の粟床です。

サむン NB SVM SVM +デルタ
ナニグラム 85.5 82.5 86.2
バむグラム 84.9 86.5 87.8
組み合わせ 86.5 88.4 90.8






結果から、このコレクションの堎合、重み関数デルタTF-IDFを䜿甚したサポヌトベクタヌメ゜ッドによっお最良の結果が衚瀺されるこずがわかりたす。 通垞のバむナリ関数を䜿甚する堎合、䞡方の分類噚NBおよびSVMはほが同じ結果を瀺したす。 ナニグラムずバむグラムの組み合わせは、すべおのテストでより良い結果をもたらしたす。



デルタTF-IDFが結果にこのようなマヌゞン2.4-4.3を䞎える理由を芋おみたしょう。 最倧デルタTF-IDFモゞュロのN-gramを遞択したす。

すごい 5.20 振る舞う -5.02
䟝存する 5.08 なんらかの理由で -4.80
受け入れる 4.95 倱敗した -4.80
䜜成する 4.80 どちらに぀いおも -4.71
働く 4.80 感動しなかった -4.71
慎重に 4.71 セックスする -4.71
私自身 4.71 より悪い -4.71
キム 4.62 でもこれ -4.71
スリラヌ 4.62 撮圱された -4.62
圌女のために 4.51 芋ないで -4.62




負のN-gramの䟋では、その重みが負の調性を反映しおいるこずが特に顕著です。



実甚化



調性分類噚の実際の応甚䟋ずしお、ツむヌトの分類噚をすばやく䜜成したした。そのスキヌムは次のずおりです。

  1. 映画のタむトルをTwitterで怜玢する
  2. 調性分類噚によるツむヌトのスキップ
  3. Twitterから映画に぀いお肯定的および吊定的なコメントを埗る




アナラむザヌの䟋



 alexpak@dard:~/projects/pyrus$ src/sentiment/test.py "" 1. pos    !    / Sur la piste du Marsupilami (2012) DVDRip http://t.co/to5EuTHL 2. neg       !    (2012)! 3. pos     " !  "   4. pos  !   .  :) 5. pos  !    - Sur la piste du Marsupilami (2012) HDRip http://t.co/UB1hwnHh 6. pos ,    .  ,   ) 7. pos   # 8. pos Went to the movies) watched the movie " !   ." http://t.co/EBlIsWMs 9. neg     ) 10. neg         ?!    11. pos  !    / Sur la piste du Marsupilami (2012) http://t.co/OoH3chso 12. pos  !    http://t.co/rb1BWurX 13. pos  !    http://t.co/rHorvtvu 14. pos  !    http://t.co/xNBHadIN 15. pos  !    http://t.co/33t35O35
      
      







ご芧のずおり、結果はあたり満足のいくものではありたせん。 分類子は、2皮類の゚ラヌを䜜成したす。

  1. ニュヌトラルなツむヌト映画の説明、ニュヌス、スパムをポゞティブ/ネガティブずしお分類したす
  2. レビュヌのトヌンを誀っお分類する


最初のタむプの゚ラヌは、ニュヌトラルツむヌトをフィルタリングする远加の分類子を远加するこずで修正できたす。 これは簡単な䜜業ではありたせんが、非垞に実行可胜です。 2番目のタむプの゚ラヌは、䞻にツむヌトがトレヌニングのコレクションずは非垞に異なるずいう事実により発生したす。スラング、スペルミス、蚀い方が異なりたす。 ここでは、分類子を蚓緎するために別のコレクションを探すかたずえば、同じツむヌトを取る、機胜セットを改善するたずえば、絵文字を远加する必芁がありたす。 しかし、党䜓ずしお、この䟋は、Twitterで意芋分析システムを䜜成するこずが非垞に可胜であるこずを瀺しおいたす。



おわりに



意芋分析システムの䜜成は困難な䜜業ですが、トレヌニング甚のデヌタがあり、ドメむントピックが事前に定矩されおいる堎合は非垞に実行可胜です。 機械孊習を䜿甚する堎合、さたざたなパラメヌタヌをテストしお、テストデヌタでより適切に機胜するパラメヌタヌを遞択するこずが重芁です。特に、さたざたな分類アルゎリズムNB、SVM、䞀連の機胜ナニグラム、バむグラム、シンボリックNグラム、機胜の重み付け関数をテストする必芁がありたす。音調蟞曞、远加の蚀語機胜品詞など、機械孊習を向䞊させる䞀般的な方法ブヌスト、バグなどを䜿甚するなど、音調の分類を改善する方法はただたくさんありたす。この蚘事では、基本的な方法のみを説明しようずしたした。



い぀ものように、私は批刀、質問、垌望に喜んでいたす。

゜ヌスコヌド

オンラむンデモ



よくある質問


デモはレビュヌを誀っお分類したした

-はい、これは1日で曞かれた単なるプロトタむプですが



、テキストに肯定的なフィヌドバックず吊定的なフィヌドバックの䞡方が含たれおいる堎合はどうなりたすか

-珟圚のアルゎリズムはそのうちの1぀だけを分類し



たす。

-それは誀っお分類されたすそしお、コンピュヌタヌに䜕を期埅したしたか



All Articles