Grafematicモジュール。 強調表示の提案

ソリッドテキストからの文の選択は、自然言語分析システムでテキストをさらに分析するために必要な手順です。



オファーとは何ですか?



この質問に対する最初の答えは、「。」、「!」、または「?」の文字で終わるものです。 しかし、出会ったテキストをより詳しく調べると、「。」は文の終わりを決定するためだけでなく、略語や頭字語にも使用され、時には両方の役割を果たしていることがわかります。 これに関係なく、事例の90%のポイントは文の終わりの指標です(Riley 1989)。





ただし、どちらが必要かを知るための例外があります。他の句読点を使用して、文として識別できるフラグメントを強調表示することがあります。 これらのフラグメントは、次の単純な例のように、「:」、「;」、「-」などの記号によって片側(および両側)で区別される場合があります。

「シーンはすばやく効率的に書かれました。著者は気分が良く、ヴェネツィアにいました」

多くの組織でのタイピングの慣行に関連する別の問題は、ドット記号の後に閉じ引用符を配置することです。 文には引用符を含める必要があります。

この情報に基づいて、多くのシステムは独自の文抽出アルゴリズムを開発しますが、ほとんどはこれに類似しています:



  1. 「。」、「!」、および「?」のすべての出現後に文の終わりの記号を付けます(または「:」、「;」、および「-」の後に)
  2. 終了引用符がある場合は、終了引用符の後に文末フラグを移動します。
  3. 次の場合は、文の終わりの記号を削除します。

    1. 前の単語が既知の略語である場合、たとえば「prof。」、「St。」、「D。」のように、文の終わりに使用することは想定されていません
    2. 前の単語がよく知られている略語であるが、その後に大文字が続かない場合:「etc。」、「ml。」など。


  4. 「?」および「!」の後の文の終わりの記号を削除します。大文字のない単語が後に続く場合。


ただし、このような規則(小さな変更)はすべての情報ドメインに適用されるわけではありません。書類や組版の規則を変更する場合は、提案の割り当ての品質を改善するために変更を加える必要があります。



文を計算するための統計の使用に関連する開発があります。 ライリーは、統計的分類ツリーを使用して供給境界を決定しました。 これを行うために、彼は文の終わりに先行する単語の長さとケースのパラメーターを使用しました(ただし、このツリーを作成するにはかなり大量のタグ付きデータが必要でした)。 ニューラルネットワークとエントロピー計算に基づいて、インターネット上で見つけることができる他の開発がありますが、それぞれ98-99%と99.25%の供給境界を決定する精度が得られます。



参照:






All Articles