NLPノート(パート5)

さあ、続けましょう。 (最初の部分: 1 2 3 4 )。 私は長い間、次のトピックに良いものを選択しました-言語の語用論について哲学するか、アルゴリズムの解析について具体的に話します。 前の部分が非公式であることを考えると、私はまだ詳細に切り替えることにしましたが、私たちは表示します。



したがって、文を解析します。 すぐに、依存関係解析の概念の枠組み内で分析を議論することを決めましょう。正確な分析(統計的ではない)が分析の定義方法です。 周りで何が起こっているかについての簡単な概要から始めましょう。



たとえば、私の机にはDependency parsingという本があります 。 名前と注釈によって、既存のメソッドの詳細なレビューを待っていると思われるかもしれませんが、残念ながらこれは完全に真実ではありません。 著者はトピックに比較的素早く移動し、本の半分はアプローチに専念していますが、他の多くの方法についても言及されていません。



私が彼らを批判しているとは思わないでください-問題は、この本が私たちの時代の非常に特徴的であるということです。 私は、業界の現状を「混乱と揺れ」として特徴付けます。 たぶん私は間違っている、私は最高のことを信じたい:)これには多くの理由があります。 各自然言語は、独自の方法で「特殊」です。 ソマリ語をいくつか取り入れ、よく知られている方法を一生かけて適応させることができます。常に新しいものがあります。 確立されたツールを備えた定評のある研究所が形成されました。スタンフォードのパーサーを書いたスタンフォードの同じグループです。 彼らは近い将来に自分の考えを変えることはまずありません。 さらに、アプローチの質を評価することは困難です。 私の同僚の論文のかなりの量は、解析アルゴリズムを評価および比較する方法に当てられています! そして、彼は私のような話者ではない、彼は簡潔に書いている。 (ところで、私は論文をお勧めします-それは現代の分析方法の良い概観を含んでいます。はい、たくさんのテキストがありますが、多くの方法があるからです-他のソースではボリュームは劣らないでしょう)



本、特に古い本を読むと(出版年が誤解を招かないように、これは80年代前半のテキストの復刻版です)、すべてがずっと前に行われたようです。 しかし、明らかに、望ましいものの多くは現実のものとして提示されるか、私たちが望むほど洗練されたものではありません。 たとえば、フィンランド語の形態素解析ツールを検索すると、 1984年にこの分野の有名な専門家である Kimmo Koskenniemi によってすべてが行われたことが確認されます。 ただし、フィンランドの形態素解析ツールであるOmorfiプロジェクトのサイトも、同じKoskenniemiの指導の下で、ヘルシンキ大学(Linus Torvaldsにちなんで名付けられた)で現在書かれています(まだ完成にはほど遠い)。 これはヒントです。



現在利用可能な形式を理解することは容易ではありません。 そして、それらのどれが何かの価値があるかを理解することは一般に不可能です。 これは信仰の問題だと思います。



ここに、解析理論があります:





それぞれのアプローチには、独自の学校、独自のパーサー、プロジェクトがあります...そして、リーダーがどこにいるのかを理解するのはまだ困難です。 私のお気に入りはXDGですが、すべてが良いとは限りません。また、科学界でのこの開発に対する熱意は聞いていません。 私自身、他の多くのアプローチについて読み込もうとしました。 異なる理論には多くの巧妙なものがあり、しばしばそれらは交差します。



すみません、完全なレビューはここにはありません。 カッコネン博士による前述の論文を読んでください。 そこから絵を取りました。



語彙化

古い形式論は引退することを急ぐことはありません。 この図からわかるように、今日までかなり多くのかなり古い方法の開発に成功しています。 しかし、明確な傾向の1つは明確です。 語彙化モデルへの移行です。 図では、それらは灰色で示されています。



この用語の意味は非常に単純です。何らかの方法で、言語の辞書からの実際の単語が言語の構文規則のエントリに表示されます。 非字句モデルでは、より一般的な概念が使用されます。 たとえば、字句規則では、「テーブル」という単語がここにある必要があります。 非語彙ルールでは、「男性名詞」、いくつかの明確な属性があるとしか書けません。



原則として、私が理解しているように、線は非常に細いです。 一方では、オブジェクトは、「テーブル」という言葉に加えて、その定義に当てはまらない条件によって「クランプ」される可能性があります。 一方、語彙化されたルールには、特定のオブジェクトだけでなく、抽象的な概念「subject」、「adverb」も含めることができます。



実際には、語彙化されていないルールのセット(「文法」)は、ボリュームが小さく、おそらく統計的に導出されたものに関連付けられます。 語彙化された文法は、詳細な観点から個々の単語の説明に到達する厚い辞書です。



解析木の射影性と多重度の問題

ご覧のとおり、解析を約束しましたが、解析はできません。 繰り返し接近していると仮定します:)

解析グラフはツリー(つまり、一般的なグラフ)であるだけでなく、これは特定の状況であり、純粋な解析では発生しないことを既に述べました。 したがって、このシナリオに後で戻るかもしれませんが、ここでは、ツリーが分析の結果であると仮定します。



だから、誰かが私に新しいパーサー(依存関係パーサー)を見せたい場合、私が最初に尋ねるのは、アルゴリズムが非射影ツリーの構築をサポートしているかどうか、そして彼があらゆる解析オプションを構築できるかどうかです。



射影木は、その枝が元の文の単語への射影と交差しない木です。 これは、常に隣接要素のみを共通ノードに結合する場合に発生します。 原則として、ほとんどの場合、これはまさに起こることです:





しかし、単語を互いに結合し、3番目の単語を「ジャンプ」する必要がある場合があります。





(「食事を手伝いたい」というタイプの動詞「ソーセージ」は、異なる理論で異なるように扱われます。図はオプションの1つだけを示しています。)



私の知る限り、フレーズ構造解析では、このような状況はまったく処理されません。 Chomskyの文法は、定義により、互いに直接隣接する要素のみを記述するためです。 依存関係解析の謝罪者が、このアプローチにより(英語よりも)より自由な語順で作業できると言うようになったとき、チョムスキーは答えました:最初に、非射影ツリーを構築できるパーサーを作成します-それらがなければ、潜在的な自由の利点はわずかです。



問題はどのくらい緊急ですか? ある記事では、実際のチェコ語のテキストを分析すると、23%のケースで「非投影性」が検出されたと書いています。 しばしば。 非射影ツリーの問題は、単語を他の単語に接着しようとすると、計算量に関するすべての礼儀的な基準をすぐに超えてしまうことです。 実際、最悪の場合、N個の語の頂点を持つすべての可能なグラフの完全な列挙が得られます。つまり、指数関数的な複雑さの問題です。



理論家が参加し、パーサーの機能にわずかな制限を課すだけで、その計算の複雑さを「許容できる」まで減らすことができることを証明しました(詳細については研究していません。正確な計算はできません)。 同時に、同じチェコ語の「非常に厳しい」ドキュメントのコレクションについては、この限定されたアナライザーにはすでに0.5%のオファーしかありません。



ちなみに、提案の非射影分析の最初の言及はかなり最近です- 1997年頃。 これは、私たちの分野で文学をどれだけ原理的に信頼できるかという問題です。 特に、「すべてがすでに決定されている」80年代のこれらの素晴らしい本。



次に、解析の多様性について。 原則として、これは同じ問題ですが、一方では問題です。 すべての有効な解析ツリーを構築しようとすると、同じ「指数ピット」に陥ります。 解析には2つまたは3つの、4つのオプションがあることは明らかです。 しかし、何かを接着しようとする過程で、明らかなオーバーヘッドが発生します:)



多くの単語があいまいであることは明らかですが、その解釈はツリーの外観、つまり、「銀行にお金を預けます」という構文には影響しません。 ここで分析は明確です:私はお金を(どこに?)保管します-銀行に。 ガラスの瓶や石の銀行の建物があるかどうかは関係ありません。



「中間」オプションがあります。 「鎌を持つ少女が通りを歩いていた。」 あなたはいつでもこれを分解することができます:女の子(何と?)-鎌を持つ。 そして、あなたは選択することができます:女の子(何?)-鎌を持つ(私たちが髪型について話している場合)。 少女(何と?)-鎌(金属製の鎌について話している場合)



完全に異なるツリーの明らかなケースがあります。 私のお気に入りの例:「彼は目の前で彼女を見ました。」

最初の選択肢は明確です:彼は(誰?)彼女(どこ?)を目の前で見ました。

しかし、「限界的な」解釈もあります。彼は(何?)目の前(つまり、前部)(何/どのように)を見ました-自分の目で。



嘘はつきませんが、XDG / XDK以外に、考えられる多くのツリーをすべて構築できるプロジェクトを設計することは考えていません。



おそらく今日で終わります。 私は眠りたいです:)



All Articles