テキストの自動抽象化/注釈付けのトピックはかなり前に提起され、その実装の多くの方法が発明されました。 誰もが主なものを知りたいという欲求を持っていますが、これは通常、多くの資料を見ることに関連しています。
完成したライブラリを見つけるのはそれほど簡単ではありません。また、構成が不十分で未完成であり、最も重要なのは英語のみです。 この欠陥を修正したかったのです。
数日間、私はインターネットからロシア語テキストの分析のロシア語コンポーネント、主にAOTを取って、要約アルゴリズムのいくつかのバージョンを書きました。
これらの抽象化アプローチの主なアイデアは、テキスト全体の意味を最もよく伝えるテキストの主要な文を選択することです。
3つのアルゴリズムはすべて、LexRankの修正です。
私の場合、 参照は次の3つの方向に進みます。
1. 提案 (アルゴリズムは、いくつかの発見的手法で文を打ち負かすので、すべてのポイントが終わりではありません)
2. キーワードは名詞です(AOT形態に基づくPOSタガーを使用して抽出します)
3. アクション -オブジェクトアクションサブジェクト。 (AOTでPOSタガーも使用)
あなたの意見では、アルゴリズムのいずれかで十分である場合。
私はする予定です:
1. API、
2.抽象RSS
3.時間間隔(日、週)で抽象化する機能。
4.ブラウザのプラグインを使用して、文のテキストを強調表示します。
これらのものを作成するのを手伝いたい人がいるなら、書いてください。
update1:
json = trueパラメーターを追加する場合のJSON出力形式を追加しました
update2:
現在Googleフォームで収集された統計 (210票):
アルゴリズム1-3:77%(最初の50%)
すべて悪い:23%
キーワードは回答者の70%にとって有用でした。
私に関しては全く悪くない)