正匏な蚀語ず文法

やる気



時々、圢匏蚀語の理論のさたざたな偎面に捧げられた投皿や翻蚳された蚘事がHabréで公開されたす。 そのような出版物著者を怒らせないように特定の䜜品を瀺したくない、特に蚀語を凊理するためのさたざたな゜フトりェアツヌルの説明に専念しおいる出版物では、しばしば䞍正確さず混乱がありたす。 著者は、そのような䞍幞な状態に至った䞻な理由の1぀は、圢匏蚀語の理論の根底にある考えの䞍十分なレベルの理解であるず信じる傟向がありたす。



このテキストは、圢匏蚀語ず文法の理論ぞの䞀般的な玹介ずしお意図されおいたす。 この理論は、かなり耇雑で玛らわしいず考えられおいたすそしお、かなり公平に蚀わなければなりたせん。 講矩では、孊生は通垞退屈し、詊隓は熱心ではありたせん。 したがっお、科孊ではこの分野の研究者は倚くありたせん。 前䞖玀の50幎代半ばに正匏な文法理論が誕生しおから珟圚に至るたで、この科孊分野では2぀の博士論文のみが発行されおきたした。 そのうちの1぀は60幎代埌半にAlexei Vladimirovich Gladkyによっお曞かれたした。2぀目はすでに新しいミレニアム-マティペントゥスの危機にergeしおいたす。



さらに、最もアクセスしやすい圢匏で、圢匏蚀語の理論の2぀の基本抂念、圢匏蚀語ず圢匏文法が説明されおいたす。 テストが聎衆にずっお興味深いものである堎合、著者はこれらの反察意芋をさらに2぀生たれるこずを厳soleに玄束したす。





正匏な蚀語



芁するに、圢匏蚀語は実際の蚀語の数孊モデルです。 ここでの実際の蚀語ずは、被隓者同士の特定のコミュニケヌションコミュニケヌションの方法を意味したす。 コミュニケヌションのために、被隓者は、厳密な䞀時的な順序で話される曞き出される蚘号シンボルの有限セットを䜿甚したす。 線圢シヌケンスを圢成したす。 このようなシヌケンスは通垞、単語たたは文ず呌ばれたす。 したがっお、いわゆる 数孊的方法を䜿甚しお研究される蚀語のコミュニケヌション機胜。 この蚀語の他の機胜はここでは孊習されないため、考慮されたせん。



正匏な蚀語がどのように研究されおいるかをより正確に理解するには、最初に数孊的研究方法の特城を理解する必芁がありたす。 Kolmogorov et al。Aleksandrov A.D.、Kolmogorov A.N.、Lavrentiev M.A. Mathematics。its content、methods and value。Volume 1. M .: Publishing House of the Academy of the Sciences of the US of Sciences of the USSR、1956.適甚察象にかかわらず、垞に2぀の基本原則に埓いたす。

  1. 汎化抜象化。 数孊の研究の察象は、数孊にのみ存圚する特別な存圚であり、数孊者による研究を目的ずしおいたす。 数孊的なオブゞェクトは、実際のオブゞェクトを芁玄するこずによっお圢成されたす。 数孊者はオブゞェクトを研究する際に、その特性の䞀郚のみに気づき、残りの郚分から泚意をそらしたす。 したがっお、抜象的な数孊的オブゞェクト「数」は、実際には池のガチョりの数たたは氎滎の分子の数を瀺すこずができたす。 䞻なものは、ガチョりず氎分子に぀いおです

    集合䜓のように話したす。 このような実際のオブゞェクトの「理想化」は、1぀の重芁な特性を意味したす。数孊はしばしば無限のコレクションで動䜜したすが、実際にはそのようなコレクションは存圚したせん。
  2. 厳密な掚論。 科孊では、その結果を実際に存圚するものず比范するこずにより、特定の掚論の真実を確認するこずが慣習的です。 実隓を行いたす。 数孊では、真実の掚論をチェックするこの基準は機胜したせん。 したがっお、結論は実隓的には怜蚌されたせんが、特定のルヌルに埓う厳密な掚論によっお劥圓性を蚌明するのが慣習です。 これらの議論は蚌拠ず呌ばれ、蚌拠は声明の忠実性を正圓化する唯䞀の方法です。


したがっお、数孊的な方法を䜿甚しお蚀語を孊習するには、たず、蚀語から孊習に重芁なプロパティを分離する必芁があり、次にこれらのプロパティを厳密に定矩したす。 このようにしお埗られた抜象化は、圢匏蚀語ず呌ばれたす-実際の蚀語の数孊的モデルです。 特定の数孊的モデルの内容は、どのプロパティが研究に重芁かによっお異なりたす。 珟時点で分離しお研究する予定のもの。



このような数孊的抜象化のよく知られた䟋ずしお、ロシア語の耳には聞こえない「蚀葉の袋」ずいう名前で知られおいるモデルを匕甚できたす。 このモデルは、自然蚀語぀たり、人々が毎日のコミュニケヌションの過皋で䜿甚する蚀語の1぀のテキストを探玢したす。 ワヌドバッグモデルの䞻なオブゞェクトは、単䞀の属性゜ヌステキスト内でのこの単語の出珟頻床を備えた単語です。 このモデルでは、単語がどのように隣り合っおいるかを考慮せず、テキストに各単語が䜕回珟れるかだけを考慮したす。 単語の袋は、孊習の䞻な目的の1぀ずしおテキストに基づく機械孊習で䜿甚されたす。



しかし、圢匏蚀語の理論では、互いに隣り合う単語の配眮の法則を研究するこずが重芁ず思われたす。 テキストの構文特性。 このため、ワヌドバッグモデルは貧匱に芋えたす。 したがっお、圢匏蚀語は、有限アルファベットの芁玠で構成される䞀連のシヌケンスずしお定矩されたす。 これをより厳密に定矩したす。



アルファベットは、芁玠の有限の空でないセットです。 これらの芁玠はシンボルず呌ばれたす。 アルファベットを指定するには、通垞ラテンVを䜿甚し、アルファベットの文字、ラテンアルファベットの最初の小文字を指定したす。 たずえば、匏V = {a,b}



は、2文字のアルファベットaおよびbを瀺したす。



文字列は、文字の有限シヌケンスです。 たずえば、 abc



は3文字の文字列です。 倚くの堎合、シンボルでチェヌンを指定するずき、むンデックスが䜿甚されたす。 チェヌン自䜓は、ギリシャ語のアルファベットの末尟の小文字で瀺されたす。 たずえば、 omega = a1...an



はn文字の文字列です。 チェヌンは空、぀たり 単䞀の文字を含めないでください。 このようなチェヌンは、ギリシャ文字のむプシロンで瀺されたす。



最埌に、アルファベットV䞊の圢匏蚀語Lは、アルファベットVの蚘号で構成されるチェヌンの任意のセットです。ここでのAr意性ずは、蚀語が空になる可胜性があるこずを意味したす。 単䞀のチェヌンがないため、無限です。 無限の数のチェヌンで構成されおいたす。 埌者の事実はしばしば困惑したす。無限の数のチェヌンを含む実際の蚀語はありたすか 䞀般的に、自然界ではすべおが有限です。 しかし、ここでは無限の長さのチェヌンを圢成する可胜性ずしお無限を䜿甚したす。 たずえば、C ++プログラミング蚀語の可胜な倉数名で構成される蚀語は無限です。 結局のずころ、C ++の倉数名の長さは制限されおいないため、そのような名前は無限に存圚する可胜性がありたす。 もちろん、実際には、長い倉数名はあたり意味がありたせん。 そのような名前を読むこずの終わりたでに、あなたはすでにその始たりを忘れおいたす。 しかし、無制限の長さの倉数を蚭定する朜圚的な機䌚ずしお、このプロパティは䟿利に芋えたす。



したがっお、圢匏蚀語は、有限のアルファベットの文字で構成された単なるチェヌンのセットです。 しかし、疑問が生じたす正匏な蚀語はどのように尋ねられたすか 蚀語が有限である堎合、単玔にそのすべおのチェヌンを次々ず曞き出すこずができたすもちろん、少なくずも1䞇個の芁玠を持぀蚀語のチェヌンを曞くこずが理にかなっおいるかどうかを考えるこずができ、䞀般的にそのような蚘述には意味がありたすか 蚀語が無限の堎合の察凊方法、蚭定方法 この時点で、文法がシヌンに入りたす。



正匏な文法



蚀語を定矩する方法は、その蚀語の文法ず呌ばれたす。 したがっお、私たちは文法を蚀語を定矩するあらゆる方法ず呌びたす。 たずえば、文法L = {a^nb^n}



ここでnは自然数は、 ab, aabb, aaabbb



などの圢匏のチェヌンで構成される蚀語Lを定矩したす。 蚀語Lは無限の数のチェヌンですが、それでも、その文法説明は10文字のみで構成されおいたす。 有限。



文法の目的は、蚀語を蚭定するこずです。 このタスクは必ず最終的なものでなければなりたせん。そうしないず、人はこの文法を理解できなくなりたす。 しかし、最埌のタスクは無限の集玄をどのように蚘述したすか これは、蚀語のすべおのチェヌンの構造が、有限数の統䞀原則に基づいおいる堎合にのみ可胜です。 䞊蚘の䟋では、次の原則がそのような原則ずしお機胜したす。「各蚀語チェヌンは文字aで始たり、同じ数の文字bが続きたす」。 蚀語がランダムに型付けされたチェヌンの無限のコレクションであり、その構造が同じ原則に埓っおいない堎合、明らかにそのような蚀語の文法を発明するこずはできたせん。 そしお、そのような集合䜓を蚀語ずみなすこずができるかどうかずいう別の質問がありたす。 数孊的厳密さずアプロヌチの均䞀性のために、そのような集合䜓は通垞、蚀語ず芋なされたす。



したがっお、蚀語の文法は、そのチェヌンの内郚構造の法則を説明しおいたす。 このような法埋は通垞、構文法ず呌ばれたす。 したがっお、蚀語の構文法則を蚘述する最埌の方法ずしお、文法の定矩を蚀い換えるこずができたす。 実際には、文法だけでなく、単䞀のアプロヌチ圢匏䞻矩たたはパラダむムのフレヌムワヌクで指定できる文法も興味深いものです。 ぀たり、単䞀の蚀語メタ蚀語に基づいお、すべおの圢匏蚀語の文法蚘述。 次に、このメタ蚀語で䜜成された文法蚘述を入力ずしお䜿甚し、蚀語チェヌンで䜕かを行うコンピュヌタヌのアルゎリズムを考え出すこずができたす。



このような文法蚘述パラダむムは、構文理論ず呌ばれたす。 正匏な文法は、ある皮の構文理論の枠組み内で蚘述された文法の数孊モデルです。 かなり倚くのそのような理論が発明されたした。 もちろん、文法を指定するための最も有名なメタ蚀語は、チョムスキヌの生成文法です。 しかし、他の圢匏がありたす。 それらの1぀-近隣文法に぀いおは、以䞋で説明したす。



アルゎリズムの芳点から、文法は蚀語の指定方法に埓っお现分化できたす。 このような䞻な方法は3぀ありたす文法の皮類



興味深い質問は、文法の皮類を盞互に倉換するこずです。 生成文法を䜿甚しお、たずえば列挙子を䜜成するこずは可胜ですか 答えはむ゚スです、できたす。 これを行うには、たずえば文字の長さず順序で䞊べ替えおチェヌンを生成するだけで十分です。 しかし、列挙文法を認識文法に倉えるこずは䞀般的に䞍可胜です。 次の方法を䜿甚できたす。 入力ずしおチェヌンを受け取ったら、チェヌンをリストするプロセスを開始し、リストの文法がこのチェヌンを印刷するかどうかを埅ちたす。 そのようなチェヌンが印刷される堎合、列挙プロセスを終了し、「はい」を印刷したす。 チェヌンが蚀語に属しおいる堎合、必ず印刷され、認識されたす。 ただし、チェヌンが蚀語に属しおいない堎合、認識プロセスは無期限に継続したす。 認識文法プログラムがルヌプしたす。 この意味で、文法を認識する力は、ゞェネレヌタヌず列挙子の力よりも小さいです。 これは、チョムスキヌの生成文法ずチュヌリングの認識マシンを比范する際に留意する必芁がありたす。



隣の文法



60幎代半ば、゜ビ゚トの数孊者ゞュリアスアナトリ゚ノィッチシュラむダヌは、いわゆる 近所の文法。 蚀語の各シンボルに察しお、有限数の「近傍」が指定されたす。このシンボルを含むチェヌン近隣の䞭心は、内郚のどこかにありたす。 蚀語アルファベットの各シンボルのこのような近傍のセットは、近傍文法ず呌ばれたす。 チェヌンは、このチェヌンの各シンボルがその近隣に含たれおいる堎合、近隣文法によっお定矩された蚀語に属しおいるず芋なされたす。



䟋ずしお、蚀語A = {a+a, a+a+a, a+a+a+a,...}



考えA = {a+a, a+a+a, a+a+a+a,...}



。 この蚀語は、算術匏の蚀語の最も単玔なモデルであり、蚘号「a」が数字の圹割を果たし、蚘号「+」が挔算の圹割を果たしたす。 この蚀語の近隣文法を䜜成したす。 シンボル「a」の近傍を定矩したす。 文字「a」は、3぀の構文コンテキストの蚀語Aのチェヌンで発生する可胜性がありたす。最初、2぀の「+」文字の間、および最埌です。 チェヌンの始たりず終わりを瀺すために、疑䌌シンボル「」を導入したす。 その堎合、シンボル「a」の近傍は次のようになりたす #a+, +a+, +a#



通垞、近隣の䞭心を匷調するために、チェヌン内のこのシンボルには䞋線が匕かれおいたす結局、チェヌン内には䞭心ではない他のシンボルが存圚する可胜性がありたす、ここでは単玔な技術的可胜性がないため、これを行いたせん。 蚘号「+」は2぀の蚘号「a」の間でのみ発生するため、1぀の近傍、぀たりチェヌンa+a



が指定されたす。



チェヌンa+a+a



を怜蚎し、蚀語に属しおいるかどうかを確認したす。 チェヌンの最初の文字「a」は、近傍#a+



ずずもに含たれおいたす。 2番目の「+」文字は、近隣a+a



ずずもにチェヌンに入りたす。 同様の発生は、チェヌンの残りの文字、぀たり 予想されるように、このチェヌンは蚀語に属したす。 ただし、たずえば、チェヌンa+aa



は蚀語Aに属したせん。これは、最埌から最埌から2番目の文字「a」にはこのチェヌンに入る近隣がないためです。



すべおの蚀語が近隣文法で蚘述できるわけではありたせん。 たずえば、文字Bが文字「0」たたは文字「1」で始たる蚀語Bを考えおみたしょう。 埌者の堎合、文字「a」ず「b」はチェヌンのさらに先に進むこずができたす。 チェヌンがれロから始たる堎合、文字「a」のみが続行できたす。 この蚀語では近隣文法が発明されないこずを蚌明するのは簡単です。 チェヌン内の蚘号「b」の入力の正圓性は、その最初の蚘号によるものです。 文字「b」ず「1」の間の接続が指定されおいる近隣文法では、文字「b」の近隣がチェヌンの先頭に到達しないように、十分に長いチェヌンを遞択するこずが可胜です。 その埌、最初にシンボル「0」を眮換するこずが可胜になり、チェヌンは蚀語Aに属したすが、この蚀語のチェヌンの構文構造に぀いおの盎芳的なアむデアを満たしおいたせん。



䞀方、この蚀語を認識する有限状態マシンを構築するのは簡単です。 これは、近隣文法で蚘述される蚀語のクラスがすでにオヌトマトン蚀語のクラスであるこずを意味したす。 近隣文法で定矩された蚀語は、シュレヌダヌ蚀語ず呌ばれたす。 したがっお、蚀語の階局では、オヌトマトン蚀語のサブクラスであるシュレヌダヌ蚀語のクラスを区別できたす。



シュレヌダヌ蚀語は、1぀の単玔な構文関係-「近くにある」たたは盎前の関係を定矩しおいるず蚀えたす。 遠い優先順䜍の関係明らかに、蚀語Bに存圚したすは、近隣の文法によっお䞎えるこずはできたせん。 しかし、蚀語チェヌンで構文関係を芖芚化するず、そのようなチェヌンが倉換される関係の図に぀いお、近隣の文法を思い付くこずができたす。



All Articles