データ抽出タスクを解決するための技術的アプローチの比較

この記事の目的は、ニュアンス、オプションの組み合わせ、予想される結果の改善に寄与する可能性のあるトリックを考慮せずに、テキストの意味分析の問題、それらの違いおよび概念レベルでの有効性の問題を解決するための主要なアプローチの比較分析を試みることです。







今日まで、テキストの意味解析の問題を解決するための特定の手法を説明する資料が大量にあります。 この潜在セマンティック分析、SVM分析、「転送コンボリューション」など。 特定のアルゴリズムのレビューと比較に関する別の記事を書く-これは時間の浪費を意味します。







いくつかの記事の枠組みの中で、意味論的分析の基礎となる基本的なアイデアと問題を、実際の応用の観点から、いわば、基本的な哲学的および存在論的観点から議論したいと思います。 テキスト分析に生成文法をどの程度使用できますか? スペルオプションとさまざまな種類の "corps"を蓄積するか、ルールに基づいて分析アルゴリズムを開発するか。







私たちの推論の枠組みでは、W。クインが言ったように、用語と確立された表現から意識的に逃げようとします-用語はオントロジーのフレームワークの名前であり、論理の問題を解決し、特に何かを理解するための実用的な価値はありません。[ 1] したがって、彼の許可を得て、ラッセルの単一の説明に依存するか、より簡単に、既存の確立された用語の不利益について完全な説明を提供します。









感情的な発色の分析、音声分析などの特定のタスクを考慮しない場合、テキスト分析タスクの観点から、次の主要なタイプの分析段階を区別できます。







1.構文

依存関係ツリーを構築するための単語の線形シーケンスの分析。 目標は、提案の構造とそのコンポーネントの関係を分析することです。 分析の基礎は、さまざまな種類の文法です(スラブ語とドイツ語の依存関係、ロマンス、生成などを直接構成します)。







2.セマンティック

単語またはフレーズの一般的なコンテキストへの依存の分析。 多義性、同義語などの問題を解決する 基礎は異なる種類の住宅です。







3.記号論

テキストの意味の分析、association話、異なる文化的協会に関連する「翻訳エラー」を考慮し、ナレーターの環境、概念の文脈で安定した表現を受け入れました。 基本はまだ難しいです。 おそらく、文化の一時的および領土的境界を伴う、連想フィールドのマップまたは政治を連想させるマップの作成。







考えられる基本的なアイデア-一般的な形式の技術的アプローチを考慮すると、正反対の2つのアプローチがあります。







1.既知の経験(機械学習)に基づいた経験を蓄積する技術と、それを新しい状況の分析に適用する試み。 これらは統計ベースのアルゴリズムとも呼ばれます。 出版物の90%は、特にテクノロジーに関連しています。 言い換えれば、統計的手法。







2.例を使用した予備的な「トレーニング」なしで論理接続を構築するためのアルゴリズムの開発による、マシンの分析機能の開発のための技術。 または、ルールまたは文法に基づくアルゴリズム。







最初のタイプには、もちろん、簡略化された形式で、分析されたエンティティのスペルのバリエーションと重ね合わせを作成してシステムを「トレーニング」する技術を含める必要があります。 同じトピックのバリエーションには、潜在セマンティック分析などのさまざまな周波数アルゴリズムがあります。







2番目のタイプには、SVM分析、キャリー畳み込み、および文法構築などのテクノロジーが含まれます。







一般的に、ここではプラトンとアリストテレスのアイデアが栄光の中で衝突します。 テクノロジーの利点に関する質問に答えるとき、出力で何を取得したいのか、どのようにこれを達成したいのかについて質問する必要がありますか? 分析中のテキストの情報が以前の経験と一致しているかどうか、またはこの経験以外の情報を許可するかどうかを確認しますか? そして、この場合、仮説を立てて仮説に反論しますか?







さらに、解決するタスクを分離する必要があります。 書かれた全体の「意味」を理解したいですか、それとも私たちが知っている何かを見つけて、経験に従ってテキストをマークアップする、つまり情報を抽出するのに十分ですか?







説明と例として、「モスクワの水路はモスクワ通りにあります。 アースシャフト。」







おそらく、テキストを翻訳するタスクでは、意味解析の価値は膨大ですが、これに加えて、連想シリーズ、安定した表現、感情的な色合いなどの違いの問題を解決する必要があるため、十分ではありません。 たとえば、セマンティック分析に関する最も基本的な研究では、作家の「非識字」の可能性を考慮していません。 これらの基礎研究の大部分は20世紀の60年代までに作成されたため、これは非常に正常です。 したがって、彼らは本質的に投機的であり、それ自体としての思考に関連付けられていますが、テキスト認識のタスクには関連付けられていません。 「真面目な」科学作品を撮らない場合は、ウンベルトエコを「ほぼ同じように言ってください」と読む必要があります。 翻訳の実験」では、翻訳に対する記号論的アプローチの影響の問題が一般的な形で調査されています。







情報を抽出する問題を解決するのに意味論的アプローチは十分ですか、それとも問題はより広範ですか? 実際、セマンティック分析のみに頼るべきですか、それとも自分自身を抽象化してより一般的なレベルである記号論に進むべきでしょうか?







現在の傾向の分析は、真に画期的な技術がしばしば商業的な秘密であるという事実と、本質的に互いの再版である膨大な量の資料によって複雑になっています。 幸いなことに、インターネットはすべてに耐えます。 学位論文の分析もまた、多様性を備えたものではありません。 むしろ、それは本当に何か新しいものの開発ではなく、申請者による科学的な学位の確認を指します。 もちろん、非常に興味深い出版物があります。 たとえば、I.V。の研究は、論争のある結論はあるものの、レビューとして非常に興味深いものです。 スミルノバとA.O. Shelmanova「自然言語のセマンティックおよび構文解析」[2]。







記事の本質に移りましょう。まず、目標と問題の基本的な層を決定します。







分析の目的:







  1. テキスト翻訳
  2. テキスト検索
  3. ユーザーのヒント
  4. データを抽出します。


問題は次のとおりです。







  1. 移行フロー。

    多数のエラーを伴うセマンティックフィールドと記号フィールドの大規模な混合。 構文違反(文法)およびテキストのセマンティクス







  2. 異なる言語の音韻ランクの違い。

    タイプミスを予測できないため、スペルのバリエーションの「完全な」ベースを作成することは不可能です。







  3. ガジェット化

    今日、誰もがスマートフォンとタブレットを持っています。 テキストのヒントと修正の開発されたシステムの結果として、新しいクラスのエラーが発生します。 コンテキスト外のドロップダウン単語。







  4. 概念の多義性。

    ロシアでは、これは、たとえば部門がさまざまな方法で本質的に同じサービスの名前を付けるときに「公共サービス」ポータルによって表明される問題です。 さらに、それらは非常に「官僚的な」正式な形式または非常に長い名前で提示されます。 普通の人が理解することは不可能です。


世界全体の観点から、英語の支配的な影響と、「ミドルアテンティック」の簡略版の出現。







これは完全なリストではありませんが、この記事の目的には十分です。







技術的アプローチの簡単な比較をする前に、いくつかの基本的な観察をしたいと思います。







まず、比較は本質的に純粋に適用され、翻訳タスクに関係しない非常に狭い焦点を持っています。 データの抽出および取得タスクの分析が実行されます。 多くの場合、視覚画像、画像、テキストの認識技術は簡単に組み合わせることができ、本質的に共通のメカニズムを実現する必要があるという仮説を聞くことができます。 おそらくそうかもしれませんが、この考えは物理学における統一された場の理論の探求に似ているように思えます。 おそらく見つかるかもしれませんが、これまでのところ、この調査の枠組みでは、テキストデータを操作するタスクに限定しています。







第二に、記事の限られたサイズのためのフレームワークは、詳細な分析を提供していません。 したがって、材料は、状況の詳細な分析なしで、本質的に論文です。







第三に、特定の技術的アプローチの比較、すなわち:ニューラルネットワーク、遺伝的アルゴリズム、JSM法などの長所と短所の比較。 主題には関係ありません。 これは、ロジックを「ロード」できる結果を得るための手段にすぎません。 したがって、原理そのものとさまざまな技術的アプローチの能力を比較したいと思います。







第4に、例外のないすべてのアルゴリズムは、以前の経験に基づいており、以前の経験の結果です。 残念ながら、生来の本能は前世代の経験であるため、生来の本能を含む世界のデータに関する知識はありません。 したがって、一部のアルゴリズムは以前の経験に依存しているが、他のアルゴリズムは依存していないと言っても過言ではありません。 問題は、この構造をどのような構造でラップするか、この経験をどのように使用するかです。







したがって、この記事の目的は、基本的なロジック自体の可能性と限界を分析するための最初の近似を試みることです。







そのため、統計とルールベースの2つの主要なテクノロジーがあります。 冗長性のため、複合オプションは考慮しません。







統計的方法







アルゴリズムの大部分は事前にマークされたケースで、略語、標準エラーなどのスペルオプションが豊富です。 現時点では、統計の収集を始めたばかりなので、代表性はあまり高くありません。 それにもかかわらず、次の特徴的な「一般的な特性」を強調します。







1.全文検索で使用されるソリューションの大部分。







2.高速化のためにデータハッシュが広く使用されています。







3.同一エンティティのスペルオプション標準は1〜100です。例として、最も一般的に使用されるサービスの1つがその「トレーニングセット」が5,000万のオプションで構成されることを示す、住所データのクリーニングの分野でソリューションを引用できます。参照ベースサイズは120万オプションです。







4.分析は、標準に完全に準拠するためのサブストリングの直接比較によって実行されます。







5.最終決定を行うには、別の検証プロセスが必要です。







この方法の利点は次のとおりです。







  1. 実装が比較的簡単。
  2. 高速検索オプション。


欠点は次のとおりです。







  1. 個々のエンティティの書き込みオプションを保存する必要があるため、データベースのサイズが雪崩のように増加します。
  2. オプションの多義性の可能性の増加につながる一貫性制御の複雑さ
  3. 部分一致の分析と形態の説明の不可能性または厳しい制限。
  4. スペルオプションのベースを蓄積する必要があるため、アルゴリズムの初期作成のコストが高くなります。 これは、たとえば、住所を解析するときに新しい国を接続するのが難しいことに反映されています。 各国が独自のスペルバリエーションのベースを作成する必要があるためです。
  5. ヒューリスティックアプローチを使用して、既知のオプションの範囲を超える状況を分析することは不可能です。


ルールベースのアルゴリズム







アルゴリズムの大部分は、フレーム、構文の概念に基づいており、人工的な述語言語の使用、意味的にラベル付けされたさまざまなケースに基づいています。







一般的な機能を考慮することができます:







  1. 何らかの方法でマークアウトされたケースまたはリファレンスリファレンスガイドの存在。 たとえば、「Lexicographer」[3] VNIITI、ロシア語の国軍[4]、KLADR / FIASなど。
  2. 文法に結合されたルールの存在。 文法は、関連するパターン、人工的な述語などの形で実装できます。
  3. 分析は、単語の順次比較によって実行されます。 文法によって単語の並べ替えや部分一致が許可されている場合、許可されます。
  4. 最終結果を受け入れるために、別個の検証手順は必要ありません。


利点は次のとおりです。







  1. より高い精度
  2. さまざまなケースや知識の領域で作業するときの優れた移植性。
  3. 発見的アプローチを使用して、ケースに詰め込まれた知識の範囲を超える状況を分析する機能。
  4. あらゆる種類のエラーや過剰なコンテンツに関連するデータの深刻な「汚染」の状況で分析および意思決定を行う機能。


欠点は次のとおりです。







  1. 既製のツールがないために文法を実装するのが難しい。
  2. 低速。
  3. ルールの一貫性を制御することの難しさ
  4. 事前にマークされ、論理的にリンクされたナレッジベースビルディングの構築の難しさ。


結論







ルールベースの技術アプローチの利点の明らかな証拠にもかかわらず、両方のアプローチには存在する権利があります。 問題は、その適用分野と経済的実現可能性にあります。







したがって、統計的手法に基づいたアプローチは、分析対象のエンティティが少数存在し、ビッグデータの汚染がないタスクでそれ自体を証明できることは明らかです。 例としては、小さな店の商品アイテムの検索[5]、ソーシャルネットワークのハッシュタグの検索と分析、テキストの感情的な色付けの評価などのタスクがあります。 ドキュメントの種類を分析し、さらにカタログ化するために、ドキュメントの分析を表現します。







同時に、参照データの大きな配列に関連する問題を解決する際に、スラブ語を扱う場合、技術的なルールベースのアプローチには利点があります。 例は、アドレス解析の問題の解決策です。 既存のソリューションのテスト結果と分析により、統計ベースのソリューションは、汚染が10-15%以内で、精度が80%から85%に向上し、汚染が10%未満に減少する状況で、検索精度の安定した結果が60-70%パーセントで提供されることがわかります。







KLADR / FIASが埋め込まれた、たとえばエラスティック[6]などのフルテキストインデックスのような、スタンドを組み立てることによって与えられた数字を確認するのは簡単です。







この記事は基本的に入門書です。 将来的には、各質問についてさらに詳しく説明していきます。







注釈

[1] W.クイン「論理の哲学」

[2]この作業は、ロシア連邦財産基金(プロジェクト番号12-07-33068)および2012年8月8日の州契約番号07.514.11.4134の下でロシアの教育科学省によってサポートされていました。

[3] Lexicographプロジェクトは、1990年にS.A. Krylovが語彙セマンティクスの書誌データベースを作成するために生まれたという考えに関連付けられていました。ロシア語の辞書の草案が提案されました。書誌。 このアイデアは、言語学者のグループに興味を持ち、辞書編集者の作業ツールになる可能性のある語彙意味のデータベースを作成するというアイデアに徐々に変わりました。

初期段階では、G.I。クストフ、E.V。パドチェバ、E.V。ラキリーナ、R.I。ロジナ、S.Y。セメノバ、M.V。フィリペンコ、N.M。がレキシコグラフの作成に参加しました。ヤクボバ、T.E。ヤンコ。

[4]このプロジェクトには、ロシア語学院の専門家が参加しています。 VV Vinogradova RAS [IRY RAS]、言語学研究所RAS [INR RAS]、情報伝達問題研究所RAS [IPPI RAS]、全ロシア科学技術情報研究所RAS [VINITI RAS]および言語学研究所RAS [OR RAS]サンクトペテルブルク(サンクトペテルブルク州立大学[SPbSU]と)、カザン(ヴォルガ)連邦大学、ヴォロネジ州立大学、サラトフ州立大学。 ウェブサイト:www。 http://ruscorpora.ru

[5]汚染とは、言葉だけでなくエラーの存在も意味します

[6] https://www.elastic.co








All Articles