怜玢゚ンゞンに質問するこずで、どの蚀語を孊ぶこずができたすか ダンデックスワヌクショップ

むンタヌネット怜玢ナヌザヌが怜玢ク゚リを䜜成する蚀語は、目の前に珟れおいたす。 字句的には、ロシア語や英語などのより銎染みのある蚀語ずはわずかに区別可胜であり、存圚の最初は芪蚀語ず䞀臎しおいたした。 しかし、怜玢ク゚リの蚀語はすぐに芪蚀語から遠ざかり、独自のむディオム、構文、さらには特別な「品詞」を取埗したした。 文法のサむズが小さくお単玔であり、そのような蚀語で生成されたさたざたな文を孊習できるため、蚀語習埗のモデルをテストするための理想的なモデルオブゞェクトになりたす。



ナヌザヌがYandex怜玢を䜿甚するク゚リ蚀語に぀いお少し調査し、それに基づいおレポヌトを䜜成したした。 よくあるこずですが、答えよりも質問の方が倚いです。 しかし、結果は非垞に興味深いものでした。







たた、研究の䞻芁なアむデアの1぀であるElena Gruntovaに感謝し、レポヌトの䜜成に協力したいず思いたす。



怜玢ク゚リの蚀語だけではなく、蚀語習埗の問題ず、それが蚀語孊、認知科孊にずっお重芁であり、あらゆる思考者に興味を持たせるこずができる理由から始めたす。 問題は、子䟛たちがいかに耇雑な抂念的および文法的な装眮を玠早く習埗し、ただ自然蚀語を理解するように機械に教えるこずができないレベルで語圙を増やすかを完党に理解しおいないこずです。 人々は、プラトンの時代、さらにそれ以前に蚀語習埗のプロセスの謎に気づきたした。 この期間䞭、2぀の䞻芁な分野が玛争を支配しおいたした。それは、自䞻䞻矩ず経隓䞻矩です。 Nativistsは、蚀語をマスタヌするずき、脳内の情報のほずんどはすでに䜕らかの方法で「瞫い付けられおいる」ず信じおおり、経隓䞻矩者は、私たち自身の経隓に基づいお孊習プロセスでほずんどの情報を取埗しおいるず蚀いたす。



ネむティビズムに内圚する考え方の1぀は、すべおの自然蚀語に同じ機胜セットナニバヌサルがあるこずです。 ネむティビズムはたた、蚀語習埗においお倚くの先倩的知識なしではできない理由を説明するこずを目的ずしたむンセンティブ貧困論を䞻匵したす。 子どもが孊校に行くたでに、圌の語圙は玄2000語あるず掚定されおいたす。 これは、圌が生たれた瞬間から、1日に1぀か2぀の新しい単語を孊んだこずを意味したす。 圌はそれらのそれぞれを数回しか聞きたせんが、これは、これらの単語がどのように倉化し、互いに組み合わされ、アニメヌションオブゞェクトず無生物オブゞェクトを区別するかなどを理解するのに十分です



少なくずも同じ効率で蚀語を孊習できるある皮のアルゎリズムの圢で、マシン圢匏でこれを繰り返そうずするず、いく぀かの困難が生じたす。 第䞀に、そのような゜ルバヌは、ポゞティブな䟋、蚀語の文法で受け入れられるフレヌズのみを受け取り、反論は受け取らないずいう点で制限されおいたす。 さらに、蚀語の取埗をモデル化できるアルゎリズムには、いく぀かのアルゎリズム䞊の制限が課せられたす。 特に、私たちが知っおいるすべおの䟋が適合し、最も単玔なものを遞択するすべおの文脈自由文法を通過する䜙裕はありたせん。 このようなタスクはNP完党であるため、これを行うこずはできたせん。



ク゚リ蚀語に盎接行きたしょう。 私の考えは、これは本栌的な自然蚀語よりも単玔な蚀語オブゞェクトですが、些现な単語のセットではないずいうこずです。 独自の構造、開発ロゞック、および人間がこの蚀語を孊習するロゞックは、自然蚀語を孊習するロゞックに䌌おいたす。



怜玢゚ンゞンを䜿い始めたばかりの人のリク゚ストが埐々に倉化しおいる様子を芳察できたす。 2぀の戊略がありたす。最初のク゚リは、単䞀のオブゞェクトに名前を付けるこずで構成するか、ロシア語で文法的に正しく圢成されたフレヌズを衚すこずができたす。 しばらくするず、人々は特定のデザむンがコミュニケヌションの成功に぀ながるこずに気付きたす。 圌らは機械がそれらを理解しおいるこずを芋お、望たしい結果を達成したす。 他の蚭蚈は機胜したせん。 たずえば、調敎されたロシア語で曞かれた長いフレヌズは、倚くの堎合、マシンによっお誀解されたたたになりたす。 ナヌザヌはリク゚ストを成功したデザむンに持ち蟌み、他のナヌザヌからそれらを含めお採甚し始めたす。 圌は、リク゚ストの最埌に「無料でダりンロヌド」ずいうマゞックワヌドを远加するず、マシンがそれをよりよく理解し、その埌、特定のリク゚ストに関係なく、これらのワヌドをどこにでも远加できるようになるず述べおいたす。



孊術蚀語孊で慣習的であるように、私はさらに、研究されおいる蚀語の文法の芳点から受け入れられないアスタリスク文で指定したす。 埓来、角括匧には怜玢ク゚リが含たれたす。 3぀の䟋を芋おみたしょう。





2番目のオプションはロシア語ずク゚リ蚀語の䞡方で有効です。1番目はク゚リ蚀語でのみ蚱可され、3番目はどちらでも蚱可されたせんが、1番目よりも調敎が優れおいたす。 ク゚リの普及に関する統蚈があり、アスタリスクを付けおク゚リ蚀語でオプションが犁止されおいるず蚀う堎合、そのようなク゚リ圢匏は非垞にたれであるず理解されおいたす。



ク゚リ蚀語のロシア語版は通垞のロシア語ず䞀臎したせんが、語圙構成はほずんど同じです。 それは1997幎頃に発生し、それ以来非垞に掻発に開発されおきたした。 最初の平均ク゚リ長が1.2ワヌドだった堎合、2013幎たでにこの数字はすでに3.5ワヌドに達しおいたした。



ク゚リ蚀語を本栌的な蚀語オブゞェクトずしお認識するこずを支持するもう1぀の議論は、 Zipfの法則です。 自然蚀語では、䜿甚頻床のn番目の単語の䜿甚頻床は1 / nにほが比䟋したす。 たた、グラフを二重察数スケヌルで配眮するず、この䟝存性が特にはっきりず芋えたす。 質問の蚀語の単語は、理想的には45床の角床で盎線䞊にあるこずがわかりたす。これは、Zipfの法則によるず、自然蚀語のサむンです。







ロシア語ずク゚リ蚀語の蟞曞゚ントロピヌ぀たり、次の各単語の出珟を説明するために平均で䜕ビット必芁かを比范するず、最初のこのむンゞケヌタヌは玄11ビットになりたすL. N. Tolstoyのテキストの䟋を䜿甚。第二-箄12。それは ク゚リを芁求するすべおの人の語圙は、トルストむの語圙の玄4倍です。 同時に、コミュニケヌションの芳点からのク゚リ蚀語がかなり奇劙な蚀語であるこずは明らかです。 それにより、人々はお互いにコミュニケヌションをずるのではなく、怜玢゚ンゞンに目を向けたす。 したがっお、文の語甚論は垞に同じであるため、䞀郚の構文の割合は著しく異なりたす。 たずえば、ク゚リ蚀語でのク゚リ蚀語の動詞の割合は5.4、ロシア語では17.5です。 実際には、これらは別の機胜で䜿甚されたす。通垞は、ナヌザヌの意図を反映する動詞です「ダりンロヌド」、「りォッチ」、「リッスン」。 したがっお、すべおの動詞の䞭で最も頻繁に䜿甚される10のシェアを芋るず、はるかに高くなりたすロシア語の11.4に察しお46。 文法的には、蚀語のフレヌズの平均長は4単語を超えないため、蚀語ははるかに単玔です。 これらは完党な文ではなく、文です。 質問が発生したすが、この堎合、ク゚リ蚀語の構文に぀いお䞀般的に話すこずは可胜ですか 私たちはそれが可胜であるず信じおいたす。 これを確認するために、ク゚リ蚀語ではロシア語では䞀般的ではないが、日本語などの他の蚀語でよく芋られる構造を芋るこずができるいく぀かの䟋を怜蚎したす。





最初の2぀のク゚リで䜕が起こっおいるのかはあたり明確ではありたせんが、3番目の䜍眮には、属栌によっお調敎された䌝統的な名詞句があるこずがはっきりずわかりたす。 次に、動詞グルヌプに぀いお考えたす。





「監芖」ずいう特定のアクションを実行したい「クルヌドファミリヌトレヌラヌ」ずいうオブゞェクトが1぀ありたす。 次に、ロシア語では実際には芋られない蚀語構成-局所化がありたす。 たずえば、日本語では非垞に䞀般的です。 そこでトピック-議論されおいるこず-を文の先頭に眮くこずができたす。 局所化は、ク゚リ蚀語でも実行できたす。





これがたさに起こっおいるこずであり、人々がランダムにシャッフルする蚀葉の皮類ではないず仮定すれば、他の構造が犁止されるべきであるず自然に仮定できたす。 そしお、本圓にそうです。 䞊蚘で匕甚した4぀よりも悪くない構造は、決しお䌚うこずができないか、非垞にたれです。





局所化に぀いおの仮説が確認されたず仮定しお、子猫に関する最初の2぀のク゚リで䜕が起こるかを理解しおみおください。





最初のク゚リは元の構造であり、2番目のク゚リはトピック化の別の䟋のようです。



蚈算モデル



蚀語の本䜓が倧きい堎合、簡単なテストを䜿甚しお、その同化を統蚈的に評䟡できたす。 ク゚リ蚀語の本䜓は本質的に巚倧です。 毎日、それぞれ䜕億もの怜玢ク゚リがYandexに届きたす。数十億のステヌトメントの軍団はほずんど空から取られたす。 これにより、蚈算モデルを評䟡するだけでなく、差などの統蚈的有意性が埗られるたでそれらを盞互に比范するこずもできたす。 アルゎリズムたたはモデルが蚀語を孊習したかどうか、およびどの皋床孊習したかを評䟡するのに圹立぀最も簡単なタスクを考えおみたしょう。 たずえば、欠萜しおいる単語を回埩するタスク





アむデアは、100パヌセントのケヌスでこのタスクを解決できないが、誰かが蚀語を習埗すればするほど、この問題を解決するケヌスの割合が倧きくなるずいうこずです。 そしお、倚くの䟋がありたすが、テストされたものの違いがどれほど倧きいずしおも、それを芋お、統蚈的に有意になるように達成するこずができたす。 自然蚀語で䜜業する堎合、これはほずんどの堎合、限られたケヌスのため䞍可胜です。



このようにしお単語を再構築しようずするモデルを䜜成するにはどうすればよいですか 最も単玔なオプションはNグラムです。䞀連の単語を取埗し、次の単語がチェヌンに珟れる確率は前の単語の数だけに䟝存するず蚀いたす。 次に、確率を評䟡し、この単語に眮き換えたす。 このようなN-gramは、次の前の単語たたは䞭間の単語を埩元する機䌚を䞎えおくれたす。





これはあたり興味深いモデルではありたせん。 実際、蚀語の構造が䜕であるかを芚えおいるだけであり、明瀺的に䜕かを䞀般化するこずはありたせん。 明らかに、䞀般化せずにそのようなパタヌンのみを䜿甚するマシンは、より耇雑なルヌルを適甚するマシンよりも蚀語の知識がはるかに悪くなりたす。 そのようなルヌルずしお、いく぀かの単語が倚くの異なる単語に眮き換えられる同じパタヌンを遞択しようずしたす。 たずえば、「falcon and *」ずいう語句の埌に、曞籍のコンテキストを瀺す単語ファむル圢匏の名前、「read」たたは「author」ずいう単語がある堎合、「swallow」ずいう単語が欠萜しおいる可胜性がありたす。



トレヌニング䟋の数に応じお、蚀語の「知識」のレベルを調べるこずもできたす3100フレヌズ、6200フレヌズ、12,400フレヌズ、24,800フレヌズ、41,000フレヌズ。 䞊限は、子䟛が生埌2幎以内に聞くフレヌズの数にほが察応したす。 朜圚的に、曲線が曲がる正確な瞬間にトレヌスでき、新しい情報が流れなくなりたす。 しかし、N-gramモデルのグラフ䞊でも41,000のフレヌズがあるため、動きが止たらないこずがわかりたす。 グラフの青色は、テストでモデルが掚枬する単語の割合ず、赀ず青の3Σ間隔を瀺したす。 興味深いこずに、掚枬された単語の巊偎のコンテキストは、1パヌセント優れた単語を識別するのに圹立ちたす。 たた、巊右のコンテキストを同時に䜿甚するず、掚枬の割合が10増加したす。















次のブレヌクスルヌは、䞀般化されたテンプレヌトデザむンの䜿甚を開始したずきに発生したす。 この圹割の候補ずしお、文法ず文脈抂念の2぀の異なるタむプを遞択したす。 Yandexには、玠晎らしいツヌルがありたす-レンマヌ。 圌は、どの補題を持っおいるか、どのようにこの補題から珟圚の圢になったかを、あらゆる蚀葉で䌝えるこずができたす。 任意の単語の初期圢匏を決定できたす。 したがっお、文法的なコンテキストを远加できたす。





コンテキスト抂念パタヌンの堎合、いく぀かの単語セットを䞀般化するこずができたす。 たずえば、Xを[Xチュヌニング]および[X䟡栌]ずいう衚珟が受け入れられる単語ずフレヌズのセットずしお区別できたす。





その埌、疑問が生じたす。コンテキストからのみ、グラム単䜍で含たれる情報を匕き出すこずができたすか 品詞をマヌクアりトせず、文法パタヌンずセマンティックパタヌンを分離するのではなく、すべおを単䞀の抂念タむプに単玔に瞮小できるこずがわかっおいれば、玠晎らしいこずです。 利甚可胜なすべおの文法を䜿甚する䞀般化されたパタヌンを远加するず、0.2パヌセントの増加を保蚌する結果が埗られたす。 これは䞊で芋たものず比べるずかなりおかしいですが、ここのどこかですぐにたさに倩井に寄りかかっおしたい、突砎するのは非垞に困難です。 しかし、誰もが目指す蚀語の理解に察応するのは圌です。 コンテキスト抂念テンプレヌトを䜿甚するず、さらに少ない結果0.04を達成できたす。 質問に察する答えは吊定的であるこずがわかりたした。文法にはより倚くの情報が含たれおいたす。 ただし、より匷力な䞀般化を䜿甚しお同じ情報を導き出すこずが可胜かどうかの問題は未解決のたたです。 同じ単語の単語圢匏が互いに非垞に類䌌しおおり、同じ文法を持぀異なる単語圢匏の接尟蟞がしばしば䌌おいるずいう事実を䜿甚したせんでした。 このような䞀般化を䜿甚しお、単語の䜿甚のみからテスト問題を解決するために匷床が同等な情報を導出するこずは可胜ですか もしそうなら、このアルゎリズムを圢匏化する方法は



たずめ



目の前に、新しい蚀語オブゞェクトが成長したした。 通垞の自然蚀語よりも簡単です。 圌には、コミュニケヌションずいう明確な目暙がありたす。同じ実践者です。 さらに、䜿甚状況の完党な統蚈を知っおいたす。これは、あらゆる自然蚀語の玔粋なファンタゞヌです。 同時に、面癜さを保ち、「本物の」蚀語の構造に぀いおの考えに導くほど耇雑です。 倚くの質問が圌らの研究者を埅っおいたす






All Articles