NLPノート(パート9)

(最初の部分: 1 2 3 4 5 6 7 8 )。 はい、マイナスの人は喜ぶでしょう、今日、私は読者の注意を最後の、最も可能性の高い、ノートの一部に提示します。 予想どおり、さらにセマンティック分析について説明します。 また、原則として、あなたが私たちの地域で何ができるか、そして「科学的政治的」な性質の難しさについても少し話します。



前のパートでは、フレーズを構文解析する際に、フレーズの構文だけでなく、文に含まれる単語の意味にも注意を払って、「構文セマンティック分析」について説明しました。 それから私は、「意味論」を翻訳と同一視する最も簡単な方法であるように思われました。単語を翻訳し、その意味を理解することができます。



構文解析によって単語間の接続の確立だけでなく、その役割の識別も理解している場合、場合によっては、構文解析でも単語の基本的なセマンティクスの知識が必要であると言わなければなりません。 たとえば、「イヴァンは故郷から来た」と「イヴァンは礼儀正しさから来た」というフレーズは構文的に同じです。 ただし、最初のケースでは、「自宅から」は場所の状況(どこから)であり、2番目のケースでは-理由(理由)です。 「家庭」と「礼儀正しさ」の違いがわからない場合、提案のメンバーの役割を決定することはできません。



ただし、これは側の発言です。 主な質問は異なります。別の言語への翻訳以外の「意味」を定義する他の方法はありますか? どうやら、単語は他の単語によってのみ定義でき、これが問題です。 コメントでは、「中間言語」(interlinguaとaymara)がすでに議論されています。 実際、それらの目的は、単語の意味の「参照」記述に正確にあります。 自然言語の単語(ロシア語、英語など)は、何らかの方法でインターリングアに翻訳され、その後インターリングアからターゲット言語に翻訳されます。 したがって、interlinguaのタスクは、ソース言語から取得した単語の意味を保存し、ターゲット言語で意味を表示することです。



しかし、より科学的にタスクにアプローチする、つまり意味を記述するための特別な形式言語を開発する試みがあります。 私の上司(Vitaliy Alekseevich Tuzov)自身がこの分野に従事していました。 彼のアプローチが最もよく知られていることは明らかです。 しかし、異なるアプローチの間には、異なるアプローチよりも多くの共通点があると思います。



解説コンビナトリアル辞書

おそらく、トゥゾフよりも前に、有名なメルチュクの説明-組み合わせ辞書に言及するのは正直でしょう。 これは本当に壮大な仕事です。ロシア語の単語がいくつ含まれているのかは確かではありませんが、20年間のフランス語の仕事(どれだけ活発かはわかりません)については、わずか500語しか記述されていません。 それは難しい問題です。



作品の意味は次のとおりです。 説明辞書はいずれも非公式に単語を解釈します。一方は他方を通して定義されます。 ある程度、これには特定の文化的「背景」が必要です。さもないと、 レムのsepのintoに陥る危険性があります。つまり、希望する意味ではなく、円の中を歩き、新しい単語を頭に載せます。



ここでは、数学は、そのように機能しないとしましょう。 公理があり、それらはほとんどありません。 そして、これらの公理に関する推論の厳密な言語を使用して、定理が構築されます。 ロシア語の言葉も同じように説明できますか? Melchukで何が起こったのか見てみましょう:



画像




なるほど-単語はアルファベットの変数であっても可能な限り形式的に記述されています:)これらの造語に注意してください:







(「原因」は「召喚」を意味します)。 人は単に「豚のように」ではなく、「豚2b」のようになっていることに注意してください。







したがって、ここで言う「豚1a」は次のように説明されます。







幸いなことに、Melchukは有名な人物です。彼は私の賛辞を必要としません。 しかし、いずれにせよ、このような辞書のアイデアは非常に進歩的であり、辞書が最終的に20世紀の科学と文化において果たす役割に関係なく、私はこの仕事に敬意を表したいと思います。 それでは、そのような数学的方法で言葉の解釈を表現できる人文科学はいくつあると思いますか?



単語の厳密な説明に加えて、Melchukには別の素晴らしいアイデアもあります。それは語彙関数です。 彼らの本質は、同じセマンティック操作を説明するためにさまざまな単語を使用することです。 たとえば、MelchukはMagn()関数を使用し、渡された単語の引数を「強化」します。 「重い」、「嵐の」、「大きい」という言葉の共通点は何ですか? そしてここに何があります:



Magn() =

Magn() =

Magn() =








機械可読な意味辞書

エースは、Melchukの記述を機械可読な数式に還元しようとしました。 このために、まず、「公理」が拡張されました。 たとえば、「豚」という単語はアトミックと見なされました。つまり、「豚」は言語のセマンティックフィールドの特定のオブジェクトであり、原則としてコンピューターに「説明」する必要はないと想定できます。 必要に応じて属性を属性付けできます。 説明は必然的に長い意味がわからなくなり、さまざまな豚の側面を照らします。



次に、Melchukの語彙機能と同様に、「セマンティックファンキー」のメカニズムが開発されました。 違いは、Melchukがまだ人々のための辞書を作成していることです-彼はその言語の言葉を説明しています。 概して、エースは意味と、その背後にある特定の単語だけで動作します-2番目の質問。 「原子」とセマンティック関数を使用して単語を説明できる場合、その単語が説明されます。 たとえば、IncepCopul()、Copul()、およびMagn()になり、プロパティを持ち、強化する機能があります。 次に、彼らの助けを借りて、次のようにmulattoblushhugeという単語を表現できます:



Copul(, ) // ,

IncepCopul(x, ) // "x "

Copul(x, Magn()) // x , ""








ここでは、この特定の形式主義の特徴に焦点を当てたくありません。アプローチ、アイデアは大きく異なる可能性があります。 主なアイデアは明確である必要があります。新しい原子の概念を記述できる「原子」概念と概念上の「機能」のシステムを開発することです。 次に、数学的に単語を説明する正式な説明辞書を開発しようとすることができます(円をたどって追跡するのではなく、一方を他方から識別しようとします)。 したがって、私たちは言葉から離れて意味に来ます。



単語が式で記述され、文がそれぞれ式の合成である場合、単語と文は何らかの形で数学的に研究できます。 たとえば、「角かっこ」、適用操作などです。 この考えには頭にたくさんの食べ物があります...ところで、HarrisのOperator Grammarsについての作品には似たようなことが書かれていますが、正直なところ、私は彼の作品をマスターしませんでした。 そこのテキストは、従来の言語学に非常に近い(多くの単語と少しの数学:))。



セマンティック式は、機械翻訳でも役立ちます。 たとえ一片も翻訳できない場合でも、簡単に式を「発見」して、語彙関数を造語された数学テキストに置き換えることができます。 「ムラート」と「女性」がどのように英語で書かれているかを知っているが、辞書に英語の「ムラート」という単語がないとします。 しかし、ロシア語の説明的意味辞書があります。 次に、「ムラート」に出会った後、セマンティック辞書からの対応するフレーズを英語に翻訳することができます:「女性であるムラート」。



理想的には、異なる言語のフレーズ全体を同じセマンティック式にマッピングする必要があります。 教師は「女性である教師」です。 しかし、英語では「教師」という単語はありません。性別を強調する必要がある場合、「女性教師」のようなものを書きますが、出力は同じ式になります。



セマンティック式の翻訳のデータベースを充実させると、次第に不格好な翻訳を実現できます。 つまり、自動翻訳者は「女性であるムラート」で始まり、完全なデータベースでは、正しい翻訳が単なる「ムラート」であることをすでに理解しています。 また、原則として、あなたや私と同じように、正確な翻訳を知らないので、より簡単なものを通して単語を説明し始めます。



そして、時にはそれは(しかし、忘れないでください、私は理論を立てています!)ターゲット言語の必要な単語が単に存在しない場合に状況を保存するだけです-そして、「公式を開示する」は何が起こっているかのアイデアを与えることができます。 この例はアイドル状態ではありません。 フィンランド語では、「持っている」という動詞はなく、奇妙なことに聞こえます。 「私が持っている」(「あなたが持っている」、「彼が持っている」)と言えますが、抽象的には「持っている」とは言えません。 そして、「犬を飼うのはいい!」のような単純なフレーズでさえ翻訳することは、想像以上に難しいことです。 確かに、動詞「own」がありますが、フィンランド語では「犬を飼うのがいいです!」ロシア語と同じようにばかげています。



では、セマンティクスから政治に移りましょう:)



どこへ行く?

ここで私は専門家ではなく、私自身もその過程にいます:)しかし、私はいくつかの考えを表明したいと思います。 一般的に言えば、 AI Winterの結果はまだ発生しています。 最初はあまりにも多くの希望が、一般的にはAIに、特にコンピューター言語学に固定されていました。 多くのものが破裂し、説明組み合わせ辞書のような野心的なプロジェクトは時代遅れになりました。 賢い人はなぜこれが起こったのかを考えている間、リソースアロケーターは個々のテクニックの明確なアプリケーションに集中しました。 形態学的分析を実行できますか? いいね! テキストを文章に分割できますか? 罰金-適用可能! 少しずつ良い結果が得られました。 しかし、一般的に、特定の停滞が存在します。 たとえば、おそらく最も人気のある商用機械翻訳者はSYSTRANのままであり、これは60〜70年代の技術です。



コンピューター言語の問題は、仮説をテストするのに多大な労力が必要なことです。 さて、明日、ロシア語のXDG文法を書き始めると想像してください。 たぶん私は退職を終えるでしょう。 同時に(少しやってみましょう、大丈夫ですか?)科学コミュニティに小さなプロトタイプを打ち込むことも簡単ではありません。 たとえば、次の説明で私の記事が数回拒否されました:提示されたアイデアがどのように自然言語のさまざまな複雑さに対処できるかは明確ではありません。 この考え方は非常に理解しやすく、正しいものです。 しかし、一方で、文法/辞書/何でも書くことなく、「すべてのさまざまな困難に対処する」能力をどのように証明できますか? そして、これは本格的なプロジェクトです。



私自身は、これまでのところ、教育におけるNLPを思いついてきました。 仕組みを見てみましょう。 一番下の行は次のとおりです。 物理学または化学を教えるソフトウェアを見ると、そこにはすべてがあります:実際の仮想研究所。 外国語を教えるプログラムから、私はただ泣きたいです。 誰もがこれらの不幸を見たと思います:悪夢のようなクリップアート、数百の有声の言葉、膝の上に作られたカラフルなインターフェース...しかし、出力は本とテープレコーダーのハイブリッドでした。



だから私は、(言語を学習するための)教育用ソフトウェアに欠けているものが仮想実験室に変わると思いますか? しかし、NLPでは十分ではありません。 単純なものから始めましょう:同じ形態学的アナライザー/シンセサイザー。 このようなソフトウェアは、言語を学習するすべての人に役立つと確信しています。 そしてさらに進んだら? たとえば、今では単語の「レゴキューブ」のアイデアを展開しています。 コンピューター画面上の単語カードを想像してください。 それらはフレーズや文のフレーズに接着することができます。 しかし同時に、互いに互換性のない単語は接着されません。 たとえば、「赤」と「牛」は、性別、数、およびケースに同意するまで一緒にはなりません。 強力なスペルチェックツールを考え出すことができます(Wordのようなものではありませんが、特に初心者のニーズと典型的な間違いのために...)



そしてなぜ、実際には教育なのか? はい、初心者の語彙が少なく、彼が使用する構造も限られているためです。 したがって、500ワードのプロトタイプでさえ非常に便利な場合があり、誰かにとって便利な場合があり、注意を引くことができます。そうでない場合は、より深刻な結果になります。 まだ知りません:)しかし、私はまだ既存のプロジェクトに参加することを決めていません。 何を食べたらいいですか? 私の記憶では、チェコ共和国ではXDKを使用しようとしています。 しかし、これはチェコ語です。チェコ語を学ぶことから始めましょう。そして、その時点でプロジェクトがまだ生きているなら、私たちは参加しますか? ;)そしてどこでも!



一般に、この主要なメモで、この長いサイクルを終了します。 さらに-最も可能性が高いのは、議論をきっかけに、そして読者の要望に応じて。 まあ、または私たちの素晴らしい地域で興味深いニュースがあるとき。 ご清聴ありがとうございました!



All Articles