NLPノート(パート2)

最初の部分で、私は形態学にこだわるつもりはないと言ったが、明らかに、それなしではまったく機能しないだろう。 それでも、提案の処理は以前の形態学的分析と強く結びついています。



叙情的な余談。 私たちの母国語ロシア語は、私たちにとっては非常に上手で、外国人にとっては難しいです。豊富な音声学とさまざまな文法的手段を備えています。 したがって、原則として、外国語を学ぶことはそれほど難しくないはずです。 第一に、それらには多くのなじみのない音素がありません。 OK 「そして」l "! 多くの人が子音の組み合わせ(「Krzhizhanovsky」)を恐れており、ほとんど問題なくクリックします。 第二に、豊富な文法現象が私たちに理解できない何かに直面することはめったにありません。 そして、例えばアメリカ人にとって、性別やケースの概念そのものは完全に明白ではありません。 個人的な形の動詞のない言語、前置詞のない言語があります。



まだ形態

次に形態学について。 原則として、一見すると何も話すことはありません。 自動形態素解析はうまく機能します。 もちろん、彼らは独立して文脈を決定し、すべての可能な解釈を与えることはできません(たとえば、「ロシア語」という単語は名詞または形容詞のいずれかです)。 自動分析がどのように機能するかを知りたい人は、 S.A。のサイトで実験することができます スタロスティナ 私は、ロシア語の形態学的アナライザーのほとんどすべてが、 Zaliznyak Grammar Dictionaryに依存していることを敢えて示唆します。 さらに、モジュールは何らかの形で言語の構造の規則性と、(可能であれば)新しい単語を「推測」する必要があります。 「グロッキークズドラシュテコはボクラをブドランし、小さなふくらはぎをカールする」という有名なフレーズを使用して、ロシアの規則性を確認することは難しくありません。 品詞や単語の形は簡単に推測されますが、辞書にはこのフレーズの単一の単語が見つからないことは明らかです。 一般的に、ドープを取得しないでください。



ダウンロード可能なモジュールもあります。 私自身は、 Lemmatizerウェブサイトの便利なインターフェースにラップされたAlexei Sokirkoの開発を使用してます。 ここではフォームアナライザーだけでなく、目的の単語フォームを自動的に生成できるシンセサイザーも利用できるという事実に注目したいと思います。 もちろん、いくつかの欠陥があります。 たとえば、「」という文字に対するアナライザーの嫌悪感と、属性生成のいくつかの技術的機能に少し悩まされています。 アナライザーは未知の単語を推測できますが、ばかげて間違えられることもあります。 たとえば、彼は「ワニ」という言葉は「ワニ」という初期形の言葉の形だと信じています:)



形態素解析器自体はプロジェクトのモジュールにすぎないと言われていますが、言語学習者にとってはそれ自体が興味深いものに思えます。 余暇にアナライザーモジュール用のGUIを作成しましたが、今のところどこかに送信したり、宣伝したりする時間はありません:) ここに小さな説明だけを掲載しましたが、これでは明らかに不十分です。



しかし、私はおそらく形態分析のあまりにも明るい絵を描いた:)困難もあります。 最初は技術的です。 すべての言語が同じように簡単に分析されるわけではありません。 自分の判断:前述のロシアの形態分析器Alexei Sokirkoは、18.5メガバイトのデータベースで動作します。 彼の英語版は1.6メガバイトしか必要としません。



2番目の問題は用語に関連しています。 奇妙なことに、言葉の形態では(誰もが学校でやったように)聞こえますが、すべてがそれほど単純ではありません。 はい、私たちは皆、「テーブル」が名詞であり、「赤」が形容詞であることを知っています。ロシア語では6つのケースなどがあります。 しかし、「同志の間で合意がない」という微妙な点がたくさんあります。 たとえば、同じ分析者は、「森について」と「森の中」が前置詞的事例の形式であると考えています。 多くの言語学者は、2番目の形式はロシア語で実際に消滅した場所であると主張しますが。 他にも「レリックフォーム」があります。 たとえば、呼びかけの場合( "Grish!And Grish!")私の知る限り、彼はウクライナ語で非常に活発です。 部分的なケースもありますが、それはまた、「ウェイター、お茶をもっと!」(「お茶」の代わりに)参加者でもあります。 フィンランドでは分詞が咲き、生徒たちに多くの楽しい瞬間をもたらします。



特定の単語を1つまたは別の品詞に割り当てることに関して、統一性はありません。 たとえば、「許可されない」、「時間」、「申し訳ありません」とは何ですか? リテラシーはそれらを「述語」と呼ぶことを提案していますが、一般に受け入れられているアプローチはありません。



質問するかもしれません、そして実際、違いは何ですか。 さて、アナライザーは解析して解析します。 優れた副詞-すばらしい述語を考慮します。 彼は「森」と「森」の違いを見ていますが、彼は見ていません-これはすべて言語学者のゲームです。 残念ながら、選択したアナライザーでは、まだ生きて生きなければなりません。 将来、文のこの文脈では前置詞の場合のみが出現し、文が機能するかどうかは形態素解析器に依存すると考えるとしましょう。 彼は「森の中」と「場所」の組み合わせを呼び、あなたの前置詞の場合は叫んだ:)



したがって、一度選択したアナライザーは、追加の労力なしで別のアナライザーに簡単に交換できるという事実ではありません。 たとえば、Sokirkoのアナライザーのもう1つの「機能」:彼は、動詞を個人形式(「実行」)動詞で呼び出し、初期形式(「実行」)-不定詞で呼び出します。 つまり、2つの異なる品詞のようになります。 したがって、別のアナライザーが動詞を動詞と見なし、不定詞「これは不定詞です」に追加のフラグを追加する場合、アダプターコンバーターなしでは実行できません。



形態学に豊富な質問がない場合は、次のセクションに進みましょう。



All Articles