この記事では、 事実は次のように理解されます-それは命題(文)であり、任意のサブジェクトまたは名前付きオブジェクトを指します。 多くのテキストから同様の事実を抽出する機会を得ると、「水」がなく、事実のみを含むテキストが得られます。
テキスト内の事実と俳優
もちろん、結果として用語「事実」の解釈に対するこのアプローチは、いくつかのテキストでは、多くの情報を見逃しています。 ただし、この問題はすべてのテキストで観察されたわけではありません。 同時に、アナリストが作業する(最終的なソフトウェア情報アナライザーで作業する)情報は、かなり高い精度で分析されました。
私たちが直面している課題をもう少し明確に定式化しましょう:テキスト形式の利用可能な情報で、人格または他の重要なオブジェクトである単語を見つけてください(たとえば、場所の名前、場所、または単語の人間の理解に重要な何か)。 次に、この人物が見つかったすべてのオファーを検索します(既に述べたように、そのオファーは「ファクト」と呼ばれます)。
パーソナリティと普通の言葉を区別する理由は何ですか? この質問に対する答えは非常に単純だと思います-大文字で。 粗野で厳しい。 もちろん、そのような一般化には多くの問題があり、それなしでは同様の方法は機能しない可能性があります。 そして、同様の何かを実装しようとしている人にどのような問題が発生し、どのように対処するかについて正確に説明します。
件名検索の問題
主なものを理解しました(最初に)-大文字で始まるものはすべて、本文または本文で参照される件名またはオブジェクトと呼ばれます。 ただし、すぐに各言語のいくつかの規則を思い出す価値があります。 たとえば、次の単語はほとんどの場合大文字で始まる記号があります。 ロシア語では、そのような記号はピリオド、疑問符、感嘆符などです。 したがって、少なくとも文の先頭にあるすべての単語は、どのような理由で大文字であるかがわからないため、アプローチの範囲外になります。 このような制限は、一見、作業の結果にプラスの影響を与えることはできません。 ただし、実践が示しているように、マイナスの影響は観察されません。
したがって、中間結果を要約すると、情報の主題を大文字で識別することを学びました。 大文字で始まるすべての単語がサブジェクトではないため、例外を分析するルールのリストを作成する必要があります(単語が大文字で始まる場合でも、サブジェクトとは見なされません)。
さらに、主題ごとに事実を分類するという問題に直面しています。 異なる事実の同じ主題は、変更された形式(異なる偏位、ケースなど)で言及できるためです。 2つの単語-主題-が同じ主題に属するかどうかを判断するために、これら2つの単語を互いに「類似性」で比較します。 単語の「類似性」の閾値を実験的に確立し、単語は同一と見なされます。
テキスト内のパーソナリティの検索をこのように解釈すると、ほとんどすべての言語で、言語テキストアナライザーに多大なコストをかけることなく、タスクを同等に効率的に自動的に実行できます。 つまり、アルゴリズムは英語、ウクライナ語、ロシア語の両方で同様に良い結果を示します。
大文字で人格を分離することに同意したことを思い出させてください。 また、大文字が配置されるすべての文字をリストするセットAがあることに同意します(これは、性格を通常の単語と混同しないようにするためです)。 つまり、単語が大文字で始まり、セットAに含まれない最後の空でない文字である場合、この単語は人と見なされ、この単語を含む文はこの人に関する事実と見なされます。
プロセス自動化
もちろん、今、上記を考慮して、次の問題を自動的に解決できます。
- 本文に記載されている人物のリストを作成します。
- 性格による事実のグループ化。
- 事実にペアで登場する人物を整理し、それによって一部の人々を結び付ける事実を見つけます。
しかし、これは完全自動モードでできることの完全なリストとはほど遠い。 さまざまな事実と個性を持つことで、人と人の間に事実関係を築くことができます。 リンクグラフは、個別のテキストに基づいて作成することも、後続のテキストにリンクを蓄積することもできます。 たとえば、特定の人物に関する事実、この人物が誰とつながりがあるか、どの事実を介して検索することができます。
ファクトを介した人と人とのつながりのチェーンの長さを測定できます。
マドウィン
これらの機能はすべて、MadWinと呼ばれる単一のソフトウェアパッケージにまとめられました。 残念ながら、プログラムのソースコードをレイアウトする方法はなく、プログラム自体を少し「削減」する必要がありました。 プログラムは、x86用のdebおよびrpmパッケージでコンパイルされます。 ダウンロード可能なプログラムの「削除された」バージョンの機能は次のとおりです。
- テキストで人を見つける方法を知っています。
- テキストで事実を見つける方法を知っており、見つかった人にそれらを結び付けます。
- 見つかった人との関係を構築する方法を知っている(および関係の段階的実施)。
出力ファイル(レポート)で、プログラムは以下を表示します。
- テキスト内の人物のリスト。
- 人による事実のリスト;
- リンクテーブル。
- 個人間の詳細な関係のリスト。
プログラム操作例
入力テキスト
ニコールキッドマンの物語を伝える入力ファイル(報道から取られた): txt ( ここで取られたテキスト)。
テキストからの小さな引用:
高いフェンスの後ろの中庭には、大きなプールと豪華な庭園があります。 家は、あらゆる種類の見知らぬ人の四半期からしっかりと保護され、同様に確実に保護されています。これは、配偶者が住宅を選ぶ際に決定的な役割を果たしました:両親は娘が最もリラックスした雰囲気で成長することを望んでいます。
これらのすべての設備について、スターカップルは約500万ドルを支払いました。 並行して、ニコールはロンドンの家を探しており、すぐにミュージカル「ナイン」のプロダクションに参加する必要があります。
出力レポートファイル
html形式のプログラムレポート。
レポートは人格をグループ化し、それぞれに事実が含まれています。 たとえば、以下はサブジェクトニコールの事実です。
ニコール
- いくつかのスターカップルは、子供を産むことでビジネス全体を作り、赤ちゃんの出版およびビデオ撮影の権利を事前に販売していますが、ニコールキッドマンは「そのような」ものではありません
- 女優のニコール・キッドマンと夫の歌手ケイト・アーバンは、生まれたばかりの赤ちゃんサンデー・ローズの最初の写真を公開するために提供された数百万ドルを拒否しました
- しかし、キースとニコールは自分自身と赤ちゃんに大きな関心を持っていると思っています。
- 雑誌を扱う時間はありませんが、娘の人生の最初の日を楽しんでおり、ニコルは母乳育児などの問題を最も心配しています
- トム・クルーズとケイティ・ホームズは、ニコールにバラの大きな花束と、おもちゃ、ベビー服、赤ちゃんに必要な他のものを入れたいくつかの大きな袋を送ったことに注意してください
- 最近、ニコール・キッドマンが夫のカントリー歌手キース・アーバンとともにビバリーヒルズの邸宅を買収したことが知られました
- 並行して、ニコールはロンドンで家を探しています。そこで、彼女はすぐにミュージカル「ナイン」の制作に参加する必要があります。
入力した上記のテキストから事実を見ることができます。
以下は、レポートの個人的な関係の表です。 各人には番号が与えられ、2つの数字の交点には「+」があります。これは、これらの人の間で事実を介して接続を確立できることを意味します。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1:ロンドン、ナイン - - + + + + - - + + + + + + 2:E-motion - - - - - - - - - - - - - - 3:ヒルズ、ビバリー、クジラ + - - + + + - - + + + + + + 4:ホームズ、ケイティ + - + - + + - - + + + + + + 5:クルーズ + - + + - + - - + + + + + + 6:テネシー州、ナッシュビル + - + + + - - - + + + + + + 7:マコノヒー、マシュー、アギレラ、クリスティーナ、アンソニー、マーク、ロペス、ジェニファー、ピット、ブラッド、ジョリー - - - - - - - - - - - - - - 8:ヘラルド、モーニング、シドニー - - - - - - - - - - - - - - 9:スターライフ + - + + + + - - - + + + + + 10:日曜日のバラ + - + + + + - - + - + + + + 11:アーバン + - + + + + - - + + - + + + 12:ケイト + - + + + + - - + + + - + + 13:キッドマン + - + + + + - - + + + + - + 14:ニコール + - + + + + - - + + + + + -
そして彼は、接続があるすべての人格をつなぐ「パス」の表を完成させます。
参照資料
UPD:
ベータ版
madwin x867 deb
madwin x86 rpm
著者のブログb0noI