キャンペヌンを監芖するタスクでの自然蚀語凊理

この蚘事では、自然蚀語凊理ず機械孊習を䜿甚しお、むンタヌネットメディアのロストフ地域セグメントでキャンペヌンを監芖するための方法論を開発するプロセスを怜蚎したす。

タスクは非垞に専門的であったため、特殊性ずニュアンスに぀いおも説明したす。興奮を割り圓おる必芁があり、法埋に違反する可胜性がある堎合は、盎ちに遞挙委員䌚に通知しおください。 将来を芋据えお、このタスクにうたく察凊できたず蚀いたす。



むンタヌネットメディアのロストフ地域セグメントで遞挙キャンペヌンを監芖するための方法論を開発するタスクでは、いく぀かの関連する知識分野の開発が適甚されたす。





むンタヌネットメディアのキャンペヌン出版物のドキュメントの電子アヌカむブを䜜成する堎合、特定の実質的な基準に近いドキュメントがカテゎリ、ルヌブリック、コレクション、クラスタヌ、ストヌリヌなどず呌ばれるグルヌプに結合されるず、情報配列を合理化するタスクが発生したす。



知的システムは、5回目の召集のロストフ地域の立法議䌚の議員の遞挙䞭に、むンタヌネットメディアのロストフ地域セグメントでの遞挙キャンペヌンを監芖したした[1]。

システムは、地域のメディアサむトから自動的に電子出版物を芋぀けおダりンロヌドしたした。 その埌、特別に開発されたアルゎリズムに埓っお、テキスト配列の知的凊理が実行されたした。 アルゎリズムは、キャンペヌンパブリケヌションを識別する蚀語属性を䜿甚しお、各パブリケヌションのポむントを獲埗したした。 候補者に察するたたは反察のキャンペヌンを含む出版物は、少なくずも10のスコアを持ちたす。候補者に察するたたは反察のキャンペヌンを含み、珟圚の法埋に違反する可胜性がある出版物は、少なくずも20のスコアを持ちたす。

レポヌトはシステムによっお毎日生成されたした。 レポヌトはxlsxファむルに含たれおおり、スプレッドシヌトプログラムで開きたす。



自動分類システムの䜜業の䞻な結果は次のずおりです。システムは、2013幎8月9日付けのロストフ地域議䌚の議員の遞挙に参加しおいる候補者および遞挙協䌚がホストするむンタヌネットメディアのロストフ地域セグメントのプロパガンダ出版物を怜出したせんでした。 報告期間の監芖システムの指暙は次のずおりです。







むンタヌネットメディアのロストフ地域セグメントでキャンペヌンを監芖するためのむンテリゞェントな自然蚀語デヌタ凊理の方法論を開発するために、挔learning的な機械孊習を䜿甚しお次の分類タスクを蚭定したす。



倚くのカテゎリクラス、ラベルがありたす 。 キャンペヌンテキストを含むメディア出版物を凊理する堎合、4぀のクラスが区別されたす。

  1. 法埋違反
  2. 立法プロパガンダ出版
  3. キャンペヌン以倖の情報公開
  4. クラスが定矩されおいないパブリケヌション定矩゚ラヌ


むンタヌネットメディアのテスト枈み出版物のセットである倚くのドキュメントがあり、クラスを決定する必芁がありたす。 。 䞍明なタヌゲット関数 。 分類噚を構築する必芁がありたす に近い 。

タグ付きドキュメントの初期コレクションがありたす 倀がわかっおいるもの -本物のプロパガンダ出版物のセット。 コレクションは、「トレヌニング」郚分ず「怜蚌」郚分に分かれおいたす。 1぀目は分類噚のトレヌニングに䜿甚され、2぀目は䜜業の品質を独立しお怜蚌するために䜿甚されたす。

分類子は正確な答えを出すこずができたす。 たたは類䌌床 。 類䌌床は、正しく分類されたドキュメントの割合です。



「トレヌニング」サンプルを凊理するために、いわゆる「単玔な」簡略化されたベむズアルゎリズムが遞択されたした。 トレヌニング速床、さたざたなデヌタの安定性、および実装のしやすさの点で、「単玔な」ベむズアルゎリズムは、既知の効果的な分類アルゎリズムのほずんどすべおを超えおいたす[3]。



アルゎリズムは、クラス属性の固定倀を䜿甚しお、入力デヌタのすべおの属性の倀の盞察頻床を決定するこずにより蚓緎されたす。 分類は、ベむズ芏則を適甚しお、入力属性のベクトルの各クラスの条件付き確率を蚈算するこずにより実行されたす。 入力ベクトルは、入力属性の特定の倀に察しお条件付き確率が最倧になるクラスに割り圓おられたす。 アルゎリズムの「玠朎さ」は、入力属性が条件ごずにクラス倀ごずに互いに独立しおいるずいう前提にありたす。 この仮定は非垞に匷力であり、倚くの堎合、䞍正であるため、「単玔な」ベむズアルゎリズムを䜿甚した分類効率の事実は予想倖です。



単玔ベむズ分類噚の利点は、分類に必芁なパラメヌタヌを評䟡するために必芁な少量のトレヌニングデヌタです。

NBC単玔ベむズ分類噚は、ベむズの定理に基づいおいたす。



どこで







図1.攪拌制埡方法論のモデル

図1は、Naive Bayes分類噚による機械孊習を実装する遞挙キャンペヌン制埡方法論のアルゎリズムずモデル、およびそれによっお生成された結果を補完および改善するキャンペヌンの特別に開発された蚀語モデルを瀺しおいたす。



モデルの段階を怜蚎しおください。



1. 文曞の玢匕付け。 最初の段階では、むンタヌネットメディア出版物の自動収集ずDBMSぞの蓄積が、埌続の凊理のために実行されたす。

2. 分類子の構築ずトレヌニング。



2.1 トレヌニング。 動揺属性の配列は、信頌できるキャンペヌン出版物の配列ず区別されたす。 単玔ベむズ分類噚を䜿甚するず、最も有益な属性を識別し、コンテキストを考慮しおそれらを倉曎できたす。



2.2 予枬。 「予枬」のプロセスでは、属性の配列がむンタヌネットメディア䞊の䞀連のテストパブリケヌションにマップされたす。 むンタヌネットメディアのロストフ地域セグメントでキャンペヌンを監芖するための方法論を䜜成する研究問題を解決する過皋で、キャンペヌン出版物の蚀語モデルが開発されたした。 このモデルは、キャンペヌンパブリケヌションのトレヌニングセットでの機械孊習モゞュヌルの結果を補完し、キャンペヌンの特別な蚀語属性ず以䞋に説明するルヌル[5]を評䟡に远加したす。



3. 分類の質の評䟡。 その結果、方法論は、出力がむンタヌネットメディア出版物の定性的にマヌクされた配列であるこずを保蚌したす。



むンタヌネットメディアのロストフ地域セグメントでの遞挙キャンペヌン甚の䞀連の監芖ツヌルの゜フトりェアコンポヌネントを怜蚎しおください。 次のラむブラリのセットを䜿甚したす。





正芏衚珟RVは、基本的にPythonに組み蟌たれた小さなプログラミング蚀語であり、reモゞュヌルからアクセスできたす。 これを䜿甚しお、チェックが必芁な可胜性のある䞀連の行に察しおルヌルが指定されたす。 このセットには、単語、フレヌズ、数字、たたはメヌルアドレスが含たれる堎合がありたす。 たた、正芏衚珟を䜿甚しお行を倉曎したり、候補者や関係者の長いリストを自動的に凊理するために郚分に分割したりする機胜も䜿甚されたす。 自動ベむゞアン分類噚の結果、䞀連の特別な蚀語構成パタヌンがバむグラム2語の圢匏で取埗されたした。



むンタヌネットメディアのロストフ地域セグメントにおける遞挙キャンペヌン管理甚の゜フトりェアパッケヌゞには、最も有益な属性を衚瀺する機胜も含たれおいたす。 リスト1は、このような属性を5぀瀺しおいたす以䞋、プログラムコヌドの断片を瀺したす。 各属性に぀いお、頻床の応答が利甚可胜であり、キャンペヌンテキストの決定においおこの属性たたはその属性がどのように「成功」​​したかを瀺したす。 たずえば、候補者の姓ず任意の圢匏の「vote」ずいう単語の組み合わせがテキストで芋぀かった堎合、分類子は、指定されたテキストが1キャンペヌンの確率でほが26の確率を持っおいるず結論付けたすパヌセンテヌゞで96.1。



classifier.show_most_informative_features(5) Most Informative Features suffix(4) = ('', '') agitacia : ne_agitacia = 25.9 : 1.0 suffix(4) = ('', '') agitacia : ne_agitacia = 17.0 : 1.0 suffix(2) = ('', '') agitacia : ne_agitacia= 11.5 : 1.0 suffix(1) = ('', '') ne_agitacia : agitacia = 6.3 : 1.0 suffix(2) = ('', '') ne_agitacia : agitacia = 4.4 : 1.0
      
      







リスト1.ベむゞアン分類噚の結果2぀の単語ずそれに察応する興奮の確率が芋぀かりたした。



問題のステヌトメントで䞊蚘の4぀のクラスを識別する問題を包括的に解決できるかどうかを理解するために、自動分類の結果をより詳现に怜蚎する䟡倀がありたす違反のない動揺、法埋違反の動揺、情報公開 分類子の結果を分析した埌、プロパガンダ出版物を情報出版物から分離するタスク、぀たり、さたざたな圹人の仕事、レポヌトや䌚議でのむベントやスピヌチを説明するタスクにうたく察応しおいるこずが明らかになりたした。 さらに、監芖の䞻なタスクは、法埋に違反する可胜性のあるキャンペヌンを含む出版物を特定するこずであり、このタスクはより耇雑です。 ベむゞアン分類子の自動化はこのタスクにうたく察応しおいたせん。䞻な理由は、ロシア語の構成の耇雑さ、およびプロパガンダテキストでよく䜿甚される感情的に色付けされたフレヌズ、隠meta、all話、ヒントの存圚です。 したがっお、法埋の違反が存圚するかどうかを刀断する粟床は、远加の属性を䜿甚しお高める必芁がありたす。



科孊調査の結果、遞挙運動䞭に遞挙運動の蚀語モデルが実斜されたした。 モデルの各蚀語属性には、蚀語構造の重芁性を反映する重み係数が含たれおいたす。 したがっお、モデルは、属性の数に応じた、n次の倚項匏の積の合蚈です。







たたは省略圢







ここで、anは属性の重芁床の固定係数ポむントです。

x-倉数、プロパガンダ蚀語属性の組み合わせがテキスト内に䜕回あるか。



このモデルには、開発されたハヌドりェアず゜フトりェアの耇合䜓[1]によっお自動的に怜出される蚀語構造である特別な属性のセットが含たれおいたす。



モデルの基瀎は、候補たたはその他の堎合にキャンペヌンテキストに衚瀺される名前の候補者の完党なセットです。 以䞋、䌚議の姓の簡単な説明のために、パヌティヌ<パヌティヌ>に指定<名前>が䜿甚されたす。



゜フトりェアの実装では、候補者ず関係者の基本的な蚀及は次のように実装されたす。

  if re.search(re.compile('\b(?:%s)\b' + '|'.join(map(re.escape, kandidats_all))), corpus.raw(fileid)): dict_features[fileid][' '] = 10 else: dict_features[fileid][' '] = 0 if re.search(re.compile('\b(?:%s)\b' + '|'.join(map(re.escape, partii_all))), corpus.raw(fileid)): dict_features[fileid][' '] = 1 else: dict_features[fileid][' '] = 0
      
      





リスト2.プログラム関数のフラグメント候補者ず関係者を探したす。



モデルの特城はポむントシステムです。テキストで芋぀かった各特殊属性の各パブリケヌションには、特定のポむント数が割り圓おられたす。 たずえば、テキストで候補が蚀及されおいる堎合、出版物はすぐにしきい倀ずしお10ポむントを取埗したす。 出版物が立法議䌚にも蚀及しおいる堎合、ポむントの合蚈数は12です。したがっお、ポむントの数により、出版物の法埋に違反する朜圚的可胜性を簡単に刀断できたす。出版物の埗点が10ポむント未満の堎合、これは、それは情報であり、政治的なテキストの属性が含たれおいたすが、各属性の寄䞎は倧きくありたせん1たたは2ポむント。 パブリケヌションが12ポむントを超える堎合、候補者の名前に加えお、興奮の属性も含たれるため、コンテンツをより慎重に分析する必芁がありたす。 17ポむント以䞊の出版物はプロパガンダであるこずが実質的に保蚌されおいるず認められたしたが、それぞれのシステムでロストフ地域の議䌚ぞの遞挙に関する法埋ずの関連性ず関連性が瀺されたした。



キャンペヌンテキストで䜿甚される戊術の生産的なモデルに぀いお説明し、分類プログラムコヌド[4]で実装されたこれらの戊術を実装する最も頻繁に䜿甚される特殊な蚀語構成芁玠もリストしたす。

蚀語構成「自己提瀺」。 「正矩の劎働で石宀を䜜るこずはできない」、「莈り物は莈り物を愛する」、「莈り物は莈り物を埅っおいる」ずいう蚀い回しの蚀葉の民俗芁玠の䜿甚は、候補者のコミュニティを聎衆普通の人々ず瀺し、圌女ず同じ蚀語で考える胜力を実蚌したす

蚀語構成「動機」。 動きは人気がありたす私有暩者のようなは珟状に満足しおいたせん。 これを次のように倉曎したす。1倉曎する必芁があるため、䞋院に行きたす。 2難しい質問を提起する人々が珟れるはずなので、䞋院を瀟䌚に圹立おおください...」

蚀語構成「玄束」。 この蚀語構​​造により、テキスト内の「玄束」を自動的に芋぀けるこずができたす。 朜圚的な候補者の名前のセットず組み合わせお、構成䜓の䜿甚は次のようになりたす<私は玄束したす、私は意図したす、私は意図したすa、私は保蚌したす、私は誓いたす> + <姓>

蚀語構造「暩嚁の誘臎」。 「信頌できる意芋」は、芖聎者に圱響を䞎える匷力なツヌルです。 暩嚁圱響力のある尊敬される人-[6、p。15]の圹割は、「圱響の察象」が意芋を聞く個人によっお挔じられたす。 この蚀語構​​造により、テキスト内のサポヌトおよびロビヌ構造を自動的に芋぀けるこずができたす。

蚀語構成䜓の「ins蟱」。 信甚䜎䞋戊略は、いわゆる「ダりングレヌド戊略」です。 政治的な競争盞手を察象ずしおおり、肯定的なむメヌゞを砎壊したり、「盞手」の既存の吊定的なむメヌゞを匷調するために䜿甚されたす。

蚀語構成「動揺の合法性」。 特別な属性を䜿甚しお、メディアぞの掲茉に察する支払いの事実を自動的に怜蚌したす。 䞻なマヌカヌは、さたざたな基金での立法議䌚ぞの蚀及ず、出版物の支払い元の衚瀺ですリスト4。



  if re.search(r'(    )|([--][--][--] [--]  [--])', corpus.raw(fileid), re.IGNORECASE): dict_features[fileid][' '] = 2 else: dict_features[fileid][' '] = 0 if re.search(r'([--][--][--] [--][--])', corpus.raw(fileid), re.IGNORECASE): dict_features[fileid][' '] = 2 else: dict_features[fileid][' '] = 0
      
      





リスト4.゜フトりェア関数のフラグメント支払いファクトの蚀及を芋぀ける。



蚀語構成「比image的なむメヌゞ」。 芞術的スピヌチのように、政治的蚀説における隠phorは類掚に基づいおいたす;ここでは、特定の䞻題の類掚が特に特城的であり、関連しおいたす

戊争ず闘争ストラむキ、戊いに勝぀、

ゲヌムムヌブする、ゲヌムに勝぀、カヌドにベットする、ブラフする、切り札を保存する、

スポヌツロヌプを匕っ匵る、ノックアりトする、䞡方の肩甲骚を装着する、

狩猟trapにかけられ、誀った道を導く、メカニズム暩力のレバヌによる、

生物成長病、民䞻䞻矩の芜、郜垂の内郚改善、

劇堎䞻圹を挔じる、人圢になる、゚クストラ、プロンプタヌになる、舞台の前に行くなど



キャンペヌン資料では、「暙準のセット」のメタファヌを芋るこずができたす「その足跡をたどりたした」、「キャリアの梯子党䜓を通り抜けたした」、「障壁を眮く必芁がありたす...」、「郜垂囜...の運呜があなたの手にありたす」。 この蚀語構​​造により、テキスト内の比phor的な画像を自動的に芋぀けるこずができたす。 朜圚的な候補者の名前のセットず組み合わせお、構造の䜿甚は次のようになりたす。<metaphorical image> + <last name>

蚀語構成「ロヌル神話」。 政治テキストの普遍的な基盀。 「レスラヌ」、「パトロン」、「人々の䜿甚人」、「マスタヌ」、「ビゞネス゚グれクティブ」などの圹割は人気がありたす。この動きの成功は、䞻に圹割が聎衆の期埅にどれだけ応えるかによっお決たりたす。 䟋 Alexey Khrustalevは腐敗ずの戊いに぀いお盎接知っおいたす。 圌はロストフりィヌクの線集者ずしお、たた䞋院の副議長ずしお圌女ず戊っおいる。 圌に察する脅嚁は繰り返し響きたした。 そしお最近、圌のために車が爆砎された-機知に富んだ。 しかし、アレクセむ・クルスタレフは脱走者にはならなかった。圌は腐敗ずの戊いを続け、立法議䌚の遞挙で勝利を目指しお戊っおいる。 この蚀語構​​造により、キャンペヌンテキストで候補者の「圹割」を自動的に芋぀けるこずができたす。



実斜されたモニタリングの䞻な結論は事実の声明です。䞻に出版物には遞択的たたは遞挙に近い䞻題のテキストが含たれおいたしたが、十分な数の特別な蚀語属性がありたせんでした。 原則ずしお、最倧数のポむントを持぀出版物は情報提䟛でした。 圌らは圌らのポストで特定の候補者の仕事をカバヌしたか、遞挙に関する䞀般的な芁玄情報、遞挙に関する統蚈、政党を含んでいたした。



攪拌制埡゜フトりェアパッケヌゞは掚奚的な方法で機胜したした。぀たり、むンタヌネットメディアのロストフ地域セグメントの状況の有胜な構造を迅速に通知し、2013幎8月9日のロストフ地域議䌚の議員の遞挙䞭にネットワヌク䞊の法埋ず秩序の遵守を確保したした。



間もなく、゜ヌシャルネットワヌクの知的分析にコヌドスロヌガン「ビッグデヌタ」を䜿甚しおGrail Startupを開始したす。 自然蚀語、グラフ、およびビッグデヌタの凊理のトピックに興味がある堎合-ようこそ



文孊




All Articles