🌇 ⏩ 👌🏼 テキスト感情の自動検出（感情分析） 🐱 👰🏼 🍡

学習プロセスの短い時間で、私は一つのことに気付きました-知識を共有する必要があります。私はこれを長い間実現しましたが、時間を乗り越えて見つけるのが面倒であるとは限りません。

この記事では、自然言語処理（NLP）に関連する問題を解決するためのさまざまな機械学習方法の使用について説明します。これらの問題の1つは、テキストデータの感情的な色付け（ポジティブ、ネガティブ、ニュートラル）の自動決定、つまり感情分析です。このタスクの目的は、特定のオブジェクトの評判に対する効果において、特定のテキスト（映画のレビューや解説など）が肯定的、否定的、または中立的かどうかを判断することです。調性を分析することの難しさは、感情的に豊かな言語の存在にあります-スラング、曖昧さ、不確実性、皮肉、これらすべての要因は、人だけでなくコンピュータも誤解させます。

調性1、2、3の定義に関する記事が複数回ハブに掲載されましたとにかく、このトピックは最近世界中で最も議論されているトピックの1つです[1、2、3、4]。

この記事ではイノベーションは見当たらないことをすぐに説明します。この資料は、機械学習とNLPの分野の初心者向けのチュートリアルとして役立つでしょう。このリンクで使用した主要な資料を見つけることができます。このリンクですべてのソースコードを見つけることができます。

それで、問題は何であり、どのようにそれを解決するのですか？

テキストメッセージ（映画の説明、レビュー、コメント）があるとします。

「この映画は私を動揺させました。 それはただあなたの自由な時間を取り、それをゴミ箱に投げているだけです（（（”

またはそれ以外：

「今まで見た中で最高の映画!!! 作曲、俳優、シナリオなど これらはすべて驚くべきものです!!!」

最初の例では、コメントが否定的であるためシステムは否定的な結果を返し、2番目の例では肯定的である必要があります。機械学習の同様のタスクは分類と呼ばれ、その方法は教師による学習です。つまり、最初にトレーニングセットのアルゴリズムが「トレーニング」し、必要な係数と他のモデルデータを保存し、新しいデータが入力されると、特定の確率でそれらを分類します。係数とは、次のようなものです。

ここで、ベータ値は、テストデータのトレーニングに基づいて取得した係数です。ご覧のとおり、この式は最終的に0〜1の値を返します（詳細についてはシグモイドを参照）。つまり、0に近づくほど、テキストに負の情報が含まれる可能性が高くなります。

トレーニングサンプルでは、 www.kaggle.comのオープンデータセット、つまり、調性解析用に特別に選択されたIMDB Webサイトの50,000件の映画レビューのデータを含むデータセットを使用しました。調性メトリックはバイナリ値です。つまり、IMDB評価<5には値0が割り当てられ、評価> = 7には値1が割り当てられます。

このデータセットの各レコードは、次のフィールドで構成されています。

ID-各レビューの一意の識別子。
感情-レビューの調性; 1または0;
レビュー-テキストをレビューします。

アルゴリズム

したがって、問題の解決に直接進みます。この記事で説明するアルゴリズム全体は、Python（v。2.7）で実装されています。読みやすくするために、アルゴリズムを次の手順に分割しました。

ステップ1.前処理

データ処理の前処理が必要になる前。この段階で、すべてのhtmlタグ、句読点、文字が削除されます。この操作は、Pythonライブラリ「Beautiful Soup」を使用して実行されます。また、テキスト内のすべての数字とリンクはタグに置き換えられます。さらに、テキストにはいわゆる「ストップワード」があります-これらは基本的に意味を持たない言語の頻繁な単語です（たとえば、英語では「the、at、about ...」のような単語です）。ストップワードは、Python Natural Language Toolkit（NLTK）を使用して削除されます。ソーステキストを前処理すると、次の結果が得られます。

[伝記、パート、特集、映画、覚え、行く、見る、映画、元々]-つまり、一連の単語。

この段階では、各単語をその最初の形式（ステミング）などに変更することにより、自分自身をさらに洗練させることができます。しかし、この実験のために、私は自分自身を制限し、それをやめることにしました。

ステップ2.ベクターとしてのプレゼンテーション

アプローチ1

事実は、数式だけでなくコンピューターも、単語のセットではなく数字を扱う方が簡単だということです。したがって、テキストを数値のベクトルとして表す必要があります。これを行うには、すべての単語を含む辞書を作成できます。テキストで見つかったすべての単語を1つの大きな辞書にまとめるか、既製の辞書（DahlまたはZaliznyak）を使用して、テキストの単語を辞書のインデックスに置き換えます。つまり、次の前処理された単語ベクトルを使用したレビューが3つしかないとします。

[伝記、パート、特集]
[映画、覚えて、行く]
[もともと映画をご覧ください]

リストのすべての単語を1つにまとめると、次のソートされた辞書が得られます（ベクトルの基礎と呼びます）。

[伝記、映画、特集、映画、行く、元々、一部、覚えている、見る]

以前のベクトルを辞書の単語のインデックスに置き換えると、次のようになります。

[1、0、1、0、0、0、1、0、0]
[0、0、0、1、1、0、0、1、0]
[0、1、0、0、1、0、0、0、1]

すべてのレビューに対してこのような作業を行ったので、かなり大きなリストを取得できます（私の例では、最も一般的な単語を5000個取りました）。これらのベクトルは、「プロパティベクトル」または「機能ベクトル」と呼ばれます。このようにして、各テストレビューのベクトルを取得し、ユークリッド距離、コサイン距離などの標準メトリックを使用してこれらのベクトルを比較できます。このアプローチは「単語の袋」または「単語の袋」と呼ばれます。

from sklearn.feature_extraction.text import CountVectorizer #   sklearn       “Bag-Of-Words” vectorizer = CountVectorizer(analyzer = "word", \ tokenizer = None, \ preprocessor = None, \ stop_words = None, \ max_features = 5000) train_data_features = vectorizer.fit_transform(clean_train_reviews) train_data_features = train_data_features.toarray()

アプローチ2

最初のアプローチはかなり一般的な方法であり、実装が非常に簡単ですが、欠点から除外されていません。 2つのベクトルを比較する場合、正確な単語一致が使用され、重要な情報が失われます。そのような「失われた」情報の1つは、単語のセマンティクスです。たとえば、「黒」という言葉を「暗い」という言葉に簡単に置き換えることができます。それらの意味は非常に似ているからです。そのような単語は、セマンティック関連の単語と呼ぶことができます。このような単語のグループには、同義語、下位語、上位語などが含まれます。

別のアプローチでは、リスト内の各単語をそのセマンティックグループの番号で置き換えようとします。その結果、「言葉の袋」のようなものが得られますが、より深い意味があります。これを行うには、GoogleのWord2Vecテクノロジーを使用します。これは、組み込みのWord2Vecモデルを備えたgensimライブラリパッケージに含まれています。

Word2Vecモデルの本質は次のとおりです-大量のテキストが入力に渡され（この場合、約10,000件のレビュー）、出力では各単語の重み付きベクトル、固定長（ベクトルの長さは手動で設定）を取得します。これはデータセットにあります。たとえば、単語menについて、すべての単語と比較し、降順で並べ替えると、次の結果が得られました（近接性の尺度については、余弦距離を選択しました）。

単語「man」の意味に関連する単語

言葉	対策
女	0.6056
男	0.4935
少年	0.4893
男性	0.4632
人	0.4574
婦人	0.4487
彼自身	0.4288
少女	0.4166
彼の	0.3853
彼	0.3829

このリンクで、Word2Vecモデルがどのように機能するかについて詳しく知ることができます。

次に、クラスタリングを使用して、意味の近い単語を結合します。はい、ここに別の不条理な言葉があります-クラスタリング。これについては詳しく説明しませんが、wiki記事（ sigmoid ）ですべてをうまく説明できると思います。しかし、最も原始的なクラスタリングアルゴリズム（K-means）の本質を説明します。特定の数のクラスターNを用意し、トレーニングデータから学習してそれらをクラスターに分割し、それぞれの中心を見つけ、テストデータを入力するときに、アルゴリズムがクラスター番号、中心を割り当てます彼に一番近いです。この場合、各クラスターに平均5単語が含まれることを考慮して、辞書の単語数を5で除算しました。平均して、約3000個のクラスターを取得しました。次に、最初の「Bag-Of-Words」アプローチと同じことを行い、各単語をクラスターインデックスに置き換えますが、今回は「Bag-Of-Clusters」のようなものを取得します。このメソッドの説明を含む完全なソースコードは、このリンクから入手できます。

ステップ3.テキストの分類

したがって、入浴段階では、不要なものをすべて削除し、テキストをベクトルに変換してから、フィニッシュラインに進みます。この実験では、ランダムフォレスト分類アルゴリズムを使用してドキュメントを分類します。このアルゴリズムは既にscikit-learnパッケージに実装されています。残りはテキストデータをフィードしてツリーの数を示すことだけです。さらに、アルゴリズムはすべてを処理し、トレーニングセットでトレーニングを行い、必要なデータをすべて保存します。

 from sklearn.ensemble import RandomForestClassifier #    - 100 forest = RandomForestClassifier(n_estimators = 100) forest = forest.fit( train_data_features, train["sentiment"] )

結果

要するに、固有ベクトルを取得するための両方のアプローチに基づいた分類器を起動しました。私はそのような興味深い結果を得ました：

方法	精度	思い出す	Fメジャー	精度
バッグオブワード	85.2％	83.7％	84.4％	84.5％
Word2vec	90.3％	87.2％	88.7％	89.8％

古いラップトップでWord2Vecを起動すると2時間かかったという事実を考えると、古き良きBag-Of-Wordsよりも比較的良い結果を示しました。

使用材料：

[1] I. Chetviorkin、P。Braslavskiy、N。Loukachevich、「ROMIP 2011のセンチメント分析トラック」、計算言語学および知的技術：国際会議の議事録「Dialog 2012」、Bekosovo、2012年、pp。 1-14。

[2] AA Pak、SS Narynov、AS Zharmagambetov、SN Sagyndykova、ZE Kenzhebayeva、I。Turemuratovich、「注釈なしコーパスからの同義語抽出の方法」、In proc。 DINWC2015、モスクワ、2015年、pp。 1-5

[3] T. Mikolov、K。Chen、G。Corrado、J。Dean、「ベクトル空間における単語表現の効率的な推定」、Proc。 ICLRでのワークショップ2013年。

[4] P. BoおよびL. Lee、「センチメンタル教育：最小カットに基づく主観的要約を使用したセンチメント分析」、ACLの議事録、2004年

[5] T.ヨアヒムス、「サポートベクターマシンを使用したテキストの分類：関連する多くの機能を使用した学習」、欧州機械学習会議（ECML）、Springer Berlin / Heidelberg、1998年、pp。 137-142

[6] PD Turney、「親指を立てるのか、親指を下げるのか？レビューの教師なし分類に適用されるセマンティック指向、「計算言語学協会（ACL'02）の第40回年次会議の議事録、ペンシルベニア州フィラデルフィア、2002年、pp。 417-424。

[7] A. Go、R。Bhayani、L。Huang、「遠隔監視を使用したTwitter感情分類」、テクニカルレポート、スタンフォード。 2009。

[8] J. Furnkranz、T。Mitchell、およびE. Riloff、「WWW上のテキスト分類に言語句を使用する場合の事例研究」、AAAI / ICML Workshop on Learning for Text Categorization、1998 5-12。

[9] MF Caropreso、S。Matwin、F。Sebastiani、「自動テキスト分類のための統計的フレーズの有用性の学習者に依存しない評価」、テキストデータベースとドキュメント管理：Theory and practice、2001、pp。 78-102。

テキスト感情の自動検出（感情分析）