みんなのためのYandex Tomitaパーサー

Yandexは、引き続きAPI関数を開発しています。 そして、これが新しいパーサーの形での結果です。 Tomitaパーサーは、自然言語テキストから構造化データ(事実)を抽出するためのツールです。 事実は、文脈自由文法とキーワード辞書を使用して抽出されます。 パーサーを使用すると、文法を記述したり、辞書を追加したり、テキストを実行したりできます。



Tomita-parserを使用すると、ユーザーが作成したパターン(COP文法)に従って、テキストからフィールドに分割された単語または事実のパターンを選択できます。 たとえば、アドレスを強調表示するパターンを作成できます。 ここでの事実は住所であり、そのフィールドは「都市名」、「通り名」、「家番号」などです。 パーサーには、トークナイザー(ワードラップ)、セグメンター(ワードラップ)、および形態素解析器(mystem)の3つの標準言語プロセッサーが含まれています。 パーサーの主なコンポーネントは、地名辞典、KS文法のセット、およびこれらの文法が解釈手順の結果として生成する事実のタイプの多くの記述です。



1つの文と1つの文法のパーサーアルゴリズム



1.地名辞典からすべてのキーの出現を検索します。 キーが複数の単語(たとえば、「ニジニノヴゴロド」)で構成されている場合、「人工単語」と呼ばれる新しい人工単語が作成されます。



2.検出されたすべての地名辞典のうち、文法に記載されているものが選択されます。



3.選択されたキーの中には、互いに交差するか、単一のキーワードを含むマルチバードがある場合があります。 パーサーは、可能な限り大きな文のチャンクがそれらによってカバーされるように、互いに素なキーワードで文をカバーしようとします。



4.単語とマルチワードの線形チェーンがGLRパーサーに入力されます。 文法ターミナルは、入力語と複数語にマップされます。



5.端末セットのシーケンスで、GLRパーサーはすべての可能なオプションを構築します。 構築されたすべてのオプションのうち、オファーを可能な限り幅広くカバーするものも選択されます。



6.次に、パーサーは、構築された構文ツリーで解釈手順を開始します。 彼は特別にラベル付けされたサブノードを選択し、それらに対応する単語が文法によって生成されたファクトフィールドに書き込まれます。



どのタスクを解決できますか? たとえば、有名な人格の生年月日、生年月日、彼らが学んだ教育機関などに関する構造化された情報を提供します。 おそらく、これは深刻なレベルの最初のテキストアナラ​​イザーであり、ワードプロセッシングおよびその出力での新しい言語応用問題を解決するための無料のアクセス権があると言えます。 開発者は、結果として得られるツールのフルパワーをまだ実現していませんが、これらの機能がサイト作成のテクノロジーに新たな命を吹き込むことはすでに明らかです。



All Articles