Dialog 2012:テキスト感情分析コンペとパーサーコンペ

昨年、私たちコンピューター言語学に関する国際会議「Dialogue」についていくらか詳細に書きました。 今年の会議は、自動テキスト分析システム間の2つのコンテストの結果をまとめたという点で注目に値しました。 詳細については、猫へようこそ。







コンピューター言語の世界、特にヨーロッパでは、かなり長い間、自動テキスト分析システムを比較および評価する慣行がありましたが、ロシアの科学はこれまでこの方向への最初の一歩しか踏み出していません。 そこで、Dialogue 2010では、ロシア語の自動形態素解析システム(単語の文法解析を行うことができるシステム)のコンテストが開催されました。 昨年、パーサー(パーサー)の競争を開催することが決定され、ダイアログ2011はその実施の条件について議論しました。 コンテスト自体は2011年秋に開催され、今年の結果はダイアログでまとめられました。 パーサーコンペティションに加えて、会議ではセンチメント分析コンペティションの結果を要約しました。その間、システムが比較され、記述オブジェクトに対する作者の態度を判断することができました。 そのような競争を開催することの価値は、共通の標準の開発にあります。どの研究者も特定の標準に導かれ、それらに従って自分の開発を評価できるようになりました。



だから、誰が誰と競争したのか、そしてその理由を把握しましょう。



テキストの感情分析センチメント分析 )は、コンピューター言語学の特定の応用問題の1つであり、今日非常に人気があります。 これはどういう意味ですか? たとえば、長編映画のレビューの選択があり、タスクはこれらのレビューがポジティブかネガティブかを判断することです。 この問題は、テキストの調性を評価する自動システムを使用して解決できます。システムは、言語の平均を分析することでレビューの性質を判断します。 調性を分析するためのタスクのリストが膨大であることは明らかです。たとえば、企業は顧客が新製品をどのように評価するかをすばやく見つけることができます。たとえば、政府はブログを分析するなどして、新しい法律に対する市民の反応を追跡できます



調性分析コンペティションは、情報検索方法の評価に関するロシアのセミナー( ROMIP )と併せて開催されました。 ROMIPは、ヨーロッパの標準に従って情報検索方法の独立した評価を行うのに役立つ非営利プロジェクトですが、同時にロシア語の情報を扱うことに焦点を当てています。 ロシア語の資料に基づく調性評価システムの比較が初めて実施されました。



当初、テストコレクションはコンテストのすべての参加者に配布されました。imhonet.ruポータルの書籍レビューと映画、およびYandex.Marketのデジタルカメラの顧客レビューです。 これらのコレクションでは、参加者は自動調性評価のためにシステムを訓練しました。 どの言語ツールがレビューの性質に影響するかを判断しようとしました。



レビューとブログのレビューのコレクションは、コンテスト自体のために手動で準備されました。 参加者システムは、これらのテキストを3つのスケール(2、3、5ポイント)で分析しました。 最初のケースでは、システムはリコールがポジティブかネガティブか、2番目は正、ネガティブ、ニュートラル、3番目はリコールが純粋にポジティブかどうかを判断する必要がありました。 肯定的だが、負の評価の要素を持つ。 中立; 肯定的な評価の要素を持つ否定的な; 完全に否定的。 次に、分析の正確性が専門家によって手動で評価されました。



コンテストには12のシステムが参加しました。 Nicolas Chetverkin(MSU Computing Center)が率いるグループシステムが最良の結果を示しました。 さらに、競争の結果として、検証済みのマークアップされたテキストのコレクションが作成され(ROMIP Webサイトで利用可能)、他の開発者が使用できます。 参加者の出版物は、 DialogのWebサイトで入手できます。



自動解析は通常、より一般的な自動テキスト処理システム(たとえば、機械翻訳システムやニュース監視システム、ブログなど)の一部の1つであるため、パーサー間の競合はより科学的な性質のものでした。 テキストの解析中に、文内の単語の相互接続が確立されることを思い出してください。 どの単語は、どの単語とどの方法に依存します。 (学校では、矢印は主題から-定義へ、述語から-状況などに引かれたことを思い出してください。)



この競争の目的は、システムの品質の比較だけでなく、テキストを解析するための単一の標準の開発でもありました。 実際、異なるシステムでは、構文構造を表現するために異なる原則が使用されることがよくあります。 説明された競争では、分析の結果を依存関係ツリーの形式で提示することに同意しましたが、この場合でも、異なるシステムは異なる方法で単語形式間の接続を解釈するため、互いに非常に異なっていました(たとえば、一部の構文学者では前置詞が名詞を制御し、他の場合は逆になります)。



そのため、このような競技会の開催は非常に難しく、すべての参加者の異なる理論を共通の分母にもたらすことは困難でした。 その結果、参加システムの評価が実施された標準の準備と開発に非常に長い時間がかかりました。



モスクワ、サンクトペテルブルク、ニジニノヴゴロド、ドネツク(ウクライナ)の11の開発グループから、コンテストの申し込みが提出されました。 最終結果は、フォーラム参加者10人中8人:SynAutom、DictaScope Syntax、SemSin、STEP-3、SemanticAnalyzer Groupのロシア語のセマンティックセマンティックアナライザ、AotSoftプロジェクト、ABBYY Compreno、および文法リンクのパーサーから取得されました。



競争はどうでしたか? 当初、潜在的な参加者は、100文のテストコレクションでシステムをテストしました。その結果、システムがさまざまな方法で解析を行うことが判明しました。 これに基づいて、統一された解析ルールが開発されました。これはすべてのシステムでガイドされる必要があります。 いわゆる「ゴールデンスタンダード」も準備されました-これらのルールに従って、専門家によって手動でマークされたテキストの参照コレクション。 さらに、参加者にはレイアウト用の競争力のあるテキストが提供されました。 受信したシステム応答は、ゴールドスタンダードと比較されました。 規格への違反は専門家によって評価されました。参加者が自分のシステムのロジックでこれがゴールドスタンダードと同じタイプの接続に対応することを証明できた場合、そのようなエラーはカウントされません。



最良の結果は、ABBYY ComprenoとETAP-3システム (A. A. Kharkevichにちなんで名付けられた情報伝送問題研究所で長年開発されました)によって示されました。 ABBYYにとって、この結果は確かに重要ですが、最初の場所が基本的な言語学に基づいたシステムで占められていることも重要です。 これは、構文解析の分野では、表面的な統計的推定方法のみを実行することは不可能であり、ABBYYが何年も前に選択したパスが有望であることを意味します。



モスクワ州立大学の哲学学部の理論および応用言語学科とRSUHの言語学研究所の学生は、競争の準備と実施を支援しました:彼らはコンピューター言語学のライブプロジェクトで優れた実践であり、さまざまなパーサーと知り合い、その強みや弱みを見ることができました。 d。



パーサーの競争の結果、手動でマークおよび検証されたテキストの本体が取得され、研究目的で使用できます(ウェブサイトtestsynt.soiza.comで無料で入手できます)。 ここで出場者の仕事に慣れることができます



タチアナ・パンフィヨロワ

対話の組織委員会の支援を受けて



All Articles