最小の形態とコンピューター言語学

Habréにはテクノパークについての投稿がすでにあり、その中で行われているコース( 1、2 )についてのストーリーもありました。 本日、マスタークラスの最初の部分を公開します。これは、テクノパークの学生向けにABBYYのAndrey Andrianovが実施しました。

サイクルには4つの投稿があります
最小の形態とコンピューター言語学

コンピューター言語学における形態学の役割

形態。 ソリューションのタスクとアプローチ

擬似補題、複合語、およびその他の奇妙な単語



そもそも、形態学とは何か、また言語学との関係も思い出せます。 このため、シリーズの最初の投稿の内容に目を通すことをお勧めします。



学校の皆さんの多くは、「グロッキークズドラシュテコブドラヌラボクラと小さなボクレンカのカール」という文をよく知っています。 この文のすべての単語の背後に隠されているものはわかりませんが(結合 "and"を除く)、ここの主人公はいとこであると想定できます。 そして、これは普通のクズドラではなく、グロックです。 彼女は何をしましたか? ブドラヌラ。 彼女はどうやってそれをしたの? シュテコ。 彼女は誰をブドランしましたか? ボクラ。 さらに、彼女はbokrenkoに対して何らかのアクションを実行します。



このフレーズは、学者のLev Shcherbaによって発明され、学者のAlexander Potebnyaは、このフレーズの例を使用して、語の形態から、語尾から、語尾から意味論の特定の部分を抽出する方法を生徒に示しました。 単語の語彙の意味はわかりません-オブジェクトの名前はわかりませんが、その文法的な意味は理解できます。 この記事でお伝えしたいのは、文法的な意味についてです。



形態学は、4つのことを研究する言語学の分野です。


品詞


「グロッキーなクズドラシュテコbudlanula bokraと縮れ毛の小さな男の子」という文を読むとすぐに、主題と2つの述語「budlanula」と「curly-haired」をすぐに捕まえました。 異なる言語の異なる品詞は、異なる方法で文を形成できます。



変曲


「budlanula」という言葉を見たとき、それが何を意味するのかさえ知らなくても、あなたはそれをすでに辞退し、活用することができます。 あなたはこの言葉の不定詞が「嘆き」であることを理解しています。 性別(budlanul、budlanulo)は変更できますが、時間(budlanul、budlanul)は変更できます。 形態の2番目の下位区分-単語の変化-は、単語がどのように変化し、どのような形で1つまたは別の文法的意味を決定するかを研究しています。



単語形成




ボクラとボクレンに一文で会った後、あなたはボクレンが象と象のようなボクラの子だとすぐに想像しました。 たぶん、それは大きなブローカーの小さなコピーにすぎません-まあ、たとえば成長によってキャラクターは目立ちませんでした。



オブジェクトの一部のプロパティを変更するために、接尾辞を使用して新しい単語を作成することがよくあります(たとえば、小さい)。 品詞を変更することもできます。 たとえば、「シャベル」という言葉があります。 この単語から、必要に応じて、動詞を形成できます。-シャベル。 ネイティブスピーカーはその意味をすぐに理解しますが、外国語としてロシア語を勉強する人は、それがどんな種類の単語であり、なぜ辞書にないのかを長く推測します。 多くの場合、異なる動物の特性から動詞を形成し、これらの動詞にいくつかの特性を付与します。



文法的な意味


単語には2つの意味があることを既に述べました-字句(辞書で意味する)と文法(単語が文で意味する)です。 文法的な意味から何らかのセマンティクスを導き出すことができます。 たとえば、「budlanula」という単語。 明らかに、これは動詞です。 「budlanula」という言葉は行動を意味します。 さらに、これは過去形の単数形、女性形、完全形の動詞であると言えます。 これにより、追加情報が得られます。 たとえば、ロシア語では、多くの場合、女性の性別は女性の性別に関連付けられています。 プラグが女性的で、ガラスが男性的である理由を説明することはできませんが、なぜ少女が上昇し、少年が上昇したのかを理解しています。 そして、誰かが性別の選択を間違えた場合、私たちは噂を断ち切ります。



学校の机から、文法の意味を一連の文法の形で提示します。 属格、過去形、単数形-これらはすべて異なる文法です。 グラムはカテゴリにグループ化できます。 主格、属格、与格、対格、前置詞は格の範疇です。 1つの同じフォームに同じカテゴリの2つの文法を含めることはできません。 「budlanula」と言うと、文法の単数形のみを意味します。 同じ「budlanula」形式では、動詞の2つの形式を同時に暗号化することはできません。 主格と与格の両方に名詞はありません。 フォームは、主格と対格の場合にしばしば一致するため、一致する場合がありますが、区別する必要があります。 これは、形態学のもう1つのタスクです。



応用言語学


コンピューター言語は人工知能の一部です。 コンピューター言語学の目的は、さまざまな入力ソース(音声、画像、テキスト情報)から来るテキストまたは単語の意味を機械が理解するためのアルゴリズムを作成することです。



コンピューター言語学の範囲:



自然言語処理


最も広く使用されているコンピューター言語は、自然言語の処理に使用されます。 処理は、辞書のコンパイルや自動翻訳など、さまざまな問題を解決します。

自然言語処理に関連する他の技術も、理論的および実用的な観点から興味深いものです。 テキストから事実を抽出し、自動抽出することにより、機械学習法よりも高い精度で大量のテキストを自動的に分類できます。 知識管理システム、専門家および質問応答システムも、テキストからの知識の抽出に基づいています。



テキスト認識(OCR)


テキストを認識する場合、他のテクノロジーが使用されます。 この場合、単語が語彙であるかどうかに興味があります。 テキストが認識されると、ぼやけた画像を処理することが多く、テキスト認識の前に発生する2値化アルゴリズムでは100%の結果が得られません。 この点で、そこに書かれていることについて多くの仮説が生成されます。 文字「n」と「m」、または「n」と「k」を区別できない場合があり、コンピューター言語学、より正確には形態学が登場します。 形態学は、言語にそのような単語があるかどうかを示唆しています。



音声認識(ASR)


音声認識も同様に機能します。 音のセットから、人が発音する特定の文字に基づいて仮説が構築されます。 牛という言葉を使います。 karovaと言い、牛を書きます。 ここで、「carova」という単語がロシア語であるかどうかを理解することが重要です。



音声合成


音声合成は、独立して自動翻訳のフレームワークで使用できる興味深い技術です。 これはすでに合成タスクです。ある自然言語のテキストを分析し、その意味を判断し、その結果に基づいて別の自然言語のテキストを生成する必要があります。



これは紹介部分です。 次の投稿では、コンピューター言語学における形態学の役割についてお話します。



All Articles