NLPノート(パート8)

(最初の部分: 1 2 3 4 5 6 7 )。 このパートでは、構文セマンティックアナライザーについて説明します。 ちなみに、パート7に注意してください-彼女はメインページに到達しなかったので、興味のある人全員が彼女を見たかどうかはわかりません。



解析を超えて

私が挙げた最後の部分では、重要なトピックのように思われます。文から抽出するためには、ツリー構造に加えて、どのような情報が必要ですか? 「彼は母親のカップを破った」という文で、フレーズの構造を知っていると、形容詞「母親」が単語「カップ」を指していることが理解できるようになります。したがって、英語に翻訳する場合は、所有ケースとして翻訳する必要があります:「母親の」 ただし、1つの構造だけでは、ほぼ12個の選択肢の中から「破壊された」動詞の正しい翻訳を見つけるのに十分ではありません。



この問題の一部は、セマンティクス分析の助けを借りて解決できます。つまり、フレーズ構文とともにそれに含まれる単語の意味を研究します。 ここで、まず第一に、私は先生に敬意を表したいと思います-Vitaly Alekseevich Tuzov 、私はかつて私が大学院生だった。 この問題に対する私の見解は、主に彼のアイデアの影響によって形作られ、私が述べようとする主な考えは、彼の、または少なくとも彼の調停を通して私に知られているものです。



まず、タスクの範囲の概要を説明します。 比較的単純なものから始めましょう-単語の意味の曖昧性の解消、つまり、この特定のコンテキスト内の単語の意味をフレーズレベルで判断します(UPD:この部分では、これより先には進まないようです:))。 文内のすべての単語が明確に理解できるわけではありません。 「鎌を持つ少女が通りを歩いていた。」 私たちはどのような三つ編みの話をしていますか-まだわかりません。 「私には兄弟がいます」-「兄弟」という言葉を「兄弟」または「姉妹」と訳しますか? これもローカルコンテキスト内では不明です。



しかし、多くのことは非常に「タフ」であり、アナライザーはフレーズのレベルでテキストを解析します。 たとえば、「クラッシュした」という単語の翻訳は、明らかにオブジェクトに依存します。 壊れていることがわかっている場合は、動詞を翻訳できます。 (エースはこのアナロジーを愛していました:sin(x)とは何ですか?この質問はxがわかっている場合にのみ答えられます)。



さらなるアクションが一般的に示唆されています。 オントロジー(概念の階層)を導入し、各単語に「クラス」を割り当てる必要があります。 さらに、クラスに応じて、翻訳について、またはより広義には単語の意味について特定の結論を引き出すことができます。



「クラッシュした」という単語を含む例に戻ると、言語の文法に次のルールを含めることができます。



料理CUP()カップ
輸送車()車
人軍()軍

 BREAK(サブジェクト、オブジェクト:料理)を破る
クラッシュする(サブジェクト、オブジェクト:トランスポート)クラッシュする
破る(対象、オブジェクト:人々)


ここで、「道具」、「輸送」、および「人」は、階層内のデータ型です。 このような厳密な型付けにより、安定した式をかなり自然な方法で記述することができます。



 プロパティ/はげボールド()はげ
プロパティホワイト()ホワイト
鳥EAGLE(プロパティ)イーグル
鳥イーグル(プロパティ/白頭))白頭ワシ(白頭ワシではない:)) 




もちろん、ここではタイプだけでなく、ツリー構造も必要なので、オブジェクトタイプの必要な詳細レベルを指定できます。 サブクラスの明確な指示が必要な場合もあれば、スーパークラスで十分な場合もあります。



たとえば、上記の例では、「白頭ワシ」のみが「白頭ワシ」として翻訳されますが、他の形容詞(白頭ワシ)はデフォルトの翻訳「ワシ」を変更しません(つまり、「白」は単に「白」ワシ」)。



同様に、「三つ編みの女の子」の問題を解決できます。たとえば、三つ編みが金髪の場合、これは髪の毛であり、金属製のものが農業用具の場合です。 それが単なる鎌、または「黒」である場合、質問は未解決のままです。



階層:夢と現実

提案された概念を受け入れた場合(ただし、世俗的な知恵とは根本的に対立するものは見当たりません)、すべての人とすべての人を分類するという問題全体が生じます。 確かに、「世界のすべてのオブジェクト」の合理的なツリーを構築することは可能ですか? この問題については、次のように思います。 そもそも、そのような作品はすでに存在します( EuroWordNetWordNet )。 しかし、私がかなりクールなのは、まさに「すべての普遍的なカタログ化」です。 成熟した推論により、特定の構文セマンティックアナライザーのオブジェクトの階層が、2つの密接に関連するものに依存していることが多かれ少なかれ明らかになります。 (b)分析された言語の世界の写真。



純粋な形では、「タスク」は、ある方向または別の方向でツリーの詳細に影響します。 分析器は、人力車からロケットまでの車両の深い階層で開発できます。 それどころか、1つのクラスの「車両」に制限することができます。 すべてのオブジェクトを「大」、「小」、「抽象」に分割するアナライザーを作成できます。



機械翻訳のタスクでは、「割り当てられたタスク」は、すでに世界の言語的状況と鋭く交差しています。 英国人の場合、「壊れた」という言葉は10の方法で翻訳されるため、ロシア語-英語の翻訳者を作成する場合、「壊れた」という言葉の複数の説明を作成する必要があります。 ただし、「分割」の代替システムがあまり開発されていない言語が翻訳のターゲット言語として機能する場合は、説明が少なくなります。



ソース(分析済み)言語の画像も重要です。 たとえば、イギリス人がどこかに旅行している場合、彼にとっては常に「to」です。モスクワへの旅行、イギリスへの旅行、キプロスへの旅行です。 あなたと私にとって、少なくとも「オン」の場所と「イン」の場所があります。モスクワに行く、キプロスに行く、クリミアに行く、サハリンに行く。 ここにはあまりロジックはありません。 もちろん、島が「オン」で、国、地域が「イン」のような一般的なルールがあります。 しかし、私たちは「ロシアで」と言います(「ウクライナで」、すべてのウクライナ人がこれを愛しているわけではありませんが、私たちは言語を政治圏外にしようとします)。



さらに、ある言語の絵は、もちろん、別の言語の絵とは著しく異なる場合があります。 フィンランドでは、「オン」の場所と「イン」の場所もあります。 それらは、ロシア語の基準とは関係のない基準に基づいて選択されます(基本的には、私たちと同じランダム性です)。



実際、これらすべての観察から、私は比較的楽観的な結論を導き出しました。「すべておよびすべての普遍的な分類」(これは常に議論の余地がなく、実用的ではありません)は必要ありません-言語分野の枠組み内での分類のみが必要です。 一方で、これは悪いことです。言語ごとに、独自の階層を構築する必要があります。 一方、これは良いことです。世界の言語学的な図は、既存のテキストに基づいて明確に研究することができ、必要な階層の構築は少なくとも理論的に達成可能であるようです。



はい、質問は請います:それは階層ですか? おそらく、これはより複雑な構造であり、オブジェクトを階層の異なるブランチに同時に所属させる「多重継承」のようなものでしょうか? 正直なところ、わかりません。 階層に落ち着きましたが、クラスのツリーシステムでは不十分な場合の例を挙げることはできません。 しかし、私はこれが起こることを認めることができます。



ところで、XDGの問題の1つが出てきます。階層型はサポートされていません。 しかし、私は自分で解決策を見つけました。すべての可能なスーパークラスに対して個別の型を生成する必要があります。 たとえば、「object-material-utensils」というブランチがあります。 次に、XDGのフレームワークでは、クラス「皿」の単語「カップ」が3つの記述に変わります。



  CUPオブジェクト()
オブジェクト/マテリアルCUP()
オブジェクト/素材/料理カップ() 




それだけです。 次の、おそらく最後の部分では、「セマンティック言語」について話をし、私たちの地域のどこで掘ることができるのか、「科学的および政治的」面の難しさについて少し考えます。



All Articles