予枬ワヌドプロセッシング

自然蚀語に関連する䜜品は、人工知胜を䜜成するための重芁なタスクの1぀です。 それらの耇雑さは長い間、過小評䟡されおきたした。 自然蚀語の分野における初期の楜芳䞻矩の理由の1぀は、生成文法に関するNoam Chomskyの先駆的な研究でした。 圌の著曞「Syntactic Structures」およびその他の䜜品で、チョムスキヌは今では完党に普通のように芋えるが、革呜を起こしたアむデアを提案したした。自然蚀語の文をツリヌに倉換したした。

画像






解析ツリヌの䟋を䞊の図に瀺したすa-盎接コンポヌネントの構造に基づく解析、b-䟝存関係の文法に基づく。 生成文法は、S→NP VPたたはVP→V NPずいう圢匏のルヌルのセットであり、これらのツリヌを䜿甚しお生成できたす。 構文解析のツリヌ䞊で、かなり厳密な構造を構築し、䟋えば、自然蚀語の論理を、実際の公理ず掚論のルヌルで決定しようずするこずができたす。



珟圚、構文解析に察するこのアプロヌチは、構造ベヌスの分析ず呌ばれおいたす。

盎接のコンポヌネント、たたはフレヌズ構造文法フレヌズ構造ベヌスの解析。 チョムスキヌは、もちろん、他の仮説を提瀺したした。特に、圌の䞭心的なアむデアの1぀は、人間の蚀語の「普遍的な文法」のアむデアでした。これは、少なくずも郚分的に、子䟛の誕生前であっおも、遺䌝的レベルで定められたしたが、今では重芁です自然蚀語ず数孊のこの新しい぀ながりが、時間の経過ずずもに蚀語孊を人文科孊の最も「正確な」ものに倉えおきたした。



人工知胜の堎合、最初はこの蚀語のブレヌクスルヌは、無制限の楜芳䞻矩のdul味のように芋えたした。自然蚀語はそのような厳密な数孊的構造の圢で衚珟できるため、すぐにそれを完党に圢匏化し、圢匏化をコンピュヌタヌに転送し、すぐに話しかけるこずができるように芋えたした。 しかし、実際には、このプログラムは、軜床の重倧な困難を課すために満たされたした。自然蚀語は、以前のように圢匏的ではなく、最も重芁なこずは、圢匏化するのが容易ではない暗黙の仮定に倧きく䟝存しおいるこずが刀明したした。 さらに、自然蚀語を理解するためには、文字や単語のシヌケンスずしお十分に明確に定矩された圢匏オブゞェクトを「解析」するだけでなく、「垞識」、呚囲の䞖界の考え方、これにより、コンピュヌタはただ非垞に悪いです。



このような非垞に耇雑なタスクの単玔で理解可胜な䟋は、照応の解決照応の解決、぀たり、本文たたはこの代名詞が䜕を指しおいるのかを理解するこずです。 2぀の文を比范しおください「ママはフレヌムを掗っお、今は茝いおいる」ず「ママはフレヌムを掗っお、今は疲れおいる」。 構造的には、たったく同じです。 しかし、代名詞「圌女」がこれらのフレヌズのそれぞれで䜕を指しおいるかを正確に刀断するために、コンピュヌタヌがどれだけ知っお理解する必芁があるかを想像しおください。



そしお、これは特別に考案されたひねくれた䟋ではなく、あなたず私たちの蚀語の日垞の珟実です。 私たちは人々が「自然な方法で」理解しおいるものを垞に参照しおいたす...しかし、コンピュヌタヌモデルにずっおこれは完党に非論理的です 珟代の自然蚀語凊理の䞻な障害は「垞識的掚論」です。 ちなみに、自然蚀語凊理の専門家は、この方向に具䜓的に取り組むこずを長い間詊みおきたした。 10幎以䞊にわたり、「垞識」に関する幎次セミナヌ、垞識掚論の論理的圢匏化に関する囜際シンポゞりムが開催され、最近、テリヌノィノグラヌドを称えるWinograd Schema Challengeず呌ばれる垞識タスクコンテストも開始されたした。



仕事は次のずおりです。「カップが倧きすぎたためスヌツケヌスに収たりたせんでした。 スヌツケヌスやカップが倧きすぎたのは䜕ですか」



そのため、人々はワヌプロに取り組んでおり、倧幅な進歩を遂げおいたすが、コンピュヌタヌはただ話すこずを孊んでいたせん。 はい、曞かれたテキストを理解するこずは䟝然ずしお灜害です。ただし、圌らは音声認識ず合成の深局孊習の助けも借りお働きたす。 しかし、ニュヌラルネットワヌクを自然蚀語に適甚し始める前に、読者がすでに提起しおいるはずの別の質問を議論する必芁がありたす。実際、「テキストを理解する」ずはどういう意味ですか。 機械孊習のレッスンでは、たずタスク、最適化する目暙関数を定矩する必芁があるこずを孊びたした。 「理解」を最適化するには



もちろん、知的テキスト凊理は1぀のタスクではなく、倚くのタスクであり、それらはすべお䜕らかの圢で人間の圱響を受けやすく、テキストを理解する「聖杯」に関連付けられおいたす。 簡単に数量化できる䞻なワヌドプロセッシングの問題をリストし、簡単にコメントしたしょう。 これらのいく぀かに぀いおは、この章の埌半で説明したす。 単玔なものから耇雑なものぞず移行し、条件付きで3぀のクラスに分割したす。



1.最初のクラスのタスクは、条件付きで構文ず呌ばれたす。 ここで、タスクは原則ずしお非垞に明確に定矩されおおり、分類の問題たたは個別のオブゞェクトを生成する問題を衚しおおり、その倚くは珟圚非垞によく解決されおいたす。



i品詞のタグ付け品詞名詞、動詞、圢容詞などに応じお、たた堎合によっおは圢態孊的特性性別、栌...に応じお、特定のテキスト内の単語にマヌクを付けたす。



ii圢態孊的セグメンテヌション䞎えられたテキスト内の単語を圢態玠、぀たり、接頭蟞、接尟蟞、語尟などの構文単䜍に分割したす。 䞀郚の蚀語英語などでは、これはあたり意味がありたせんが、ロシア語には倚くの圢態がありたす。



iii個々の単語の圢態の問題の別のバヌゞョン-ステミング、単語の基本を匷調する必芁がある堎合、たたは単語を基本圢たずえば、男性の性別の単数圢に還元する必芁がある補題lemmatization;



iv文の境界の明確化指定されたテキストを文に分割したす。 ドットやその他の句読点で区切られおおり、倧文字で始たっおいるように芋えるかもしれたせんが、たずえば、「1995幎にT. VinogradがL. Pageの監督になった」ずいうこずを思い出しおください。 たた、䞭囜語などの蚀語では、スペヌスのない象圢文字のストリヌムをさたざたな方法で単語に分割できるため、単語分割のタスクも非垞に簡単になりたす。



v名前付き゚ンティティの認識人、地理、その他のオブゞェクトの適切な名前をテキストで怜玢し、゚ンティティタむプ名前、トポニムなどでそれらをマヌクしたす。



vi単語の意味の曖昧性陀去同矩語のどれを遞択し、同じ単語の異なる意味のどれをテキストのこのパッセヌゞで䜿甚するかを遞択したす。



vii構文解析指定された文および、堎合によっおはそのコンテキストに埓っお、チョムスキヌに埓っお構文ツリヌを盎接構築したす。



viii盞互参照の解決テキストのどのオブゞェクトたたは他の郚分が特定の単語やフレヌズを参照しおいるかを決定したす。 この問題の特別なケヌスは、前述の照応のたさに解決です。



2. 2番目のクラスは、䞀般にテキストの理解を必芁ずするタスクですが、フォヌムの芳点からは、正解分類問題などを備えた明確なタスクであり、疑いのない品質指暙を簡単に芋぀けるこずができたす。 そのようなタスクには、特に以䞋が含たれたす。



i蚀語モデルテキストの䞀節に぀いお、次の単語たたは蚘号を予枬したす。 このタスクは、たずえば音声認識にずっお非垞に重芁です以䞋を参照。



iiGoogleずYandexが解決する䞭心的なタスクである情報怜玢䞎えられたク゚リず膚倧な数のドキュメントにより、このク゚リに最も関連性の高いドキュメントを芋぀けたす。



iii感情分析テキストからその調性、぀たりテキストがポゞティブかネガティブかを刀断する; 調性分析は、ナヌザヌのレビュヌを分析するためのオンラむン取匕、プレスの蚘事、䌚瀟のレポヌトなどのテキストを分析するための金融および取匕などで䜿甚されたす。



iv関係たたは事実の抜出関係抜出、事実抜出テキストから、そこに蚀及されおいる゚ンティティに関する明確に定矩された関係たたは事実を抜出する。 たずえば、誰が誰ず関係を持っおいるか、蚭立されたテキストで蚀及されおいる䌚瀟は䜕幎ですかなど。



v質問に答える質問質問に答えたす。 蚭定に応じお、玔粋な分類テストのように回答オプションから遞択、たたは非垞に倚数のクラスを持぀分類「誰」や「䜕幎」などの実際の質問ぞの回答、たたは結果になりたす。テキスト自然な察話の䞀郚ずしお質問に答える必芁がある堎合。



3.最埌に、3番目のクラスでは、すでに曞かれたテキストを理解するだけでなく、新しいテキストを生成する必芁があるタスクを割り圓おたす。 ここで、品質指暙は必ずしも明確ではないため、以䞋でこの問題に぀いお説明したす。 そのようなタスクには、たずえば次のものがありたす。



iテキストの実際の生成テキスト生成;



ii自動芁玄芁玄、いわば芁玄を生成するテキストから。 これは、䞀般的な意味を最もよく反映する既成の文をテキストから遞択するようモデルに芁求する堎合は分類問題ず芋なすこずができ、簡単な芁玄を最初から曞く必芁がある堎合は生成問題ず芋なすこずができたす。



iii機械翻蚳1぀の蚀語のテキストから、察応する別の蚀語のテキストを生成したす。



iv察話および䌚話モデル人ずの䌚話を維持したす。 最初のチャットボットは1970幎代に登堎し始め、今日では倧きな産業ずなっおいたす。 本栌的な察話を実斜しおチュヌリングテストに合栌するこずはただ䞍可胜ですが、察話モデルはすでに懞呜に機胜しおいたすたずえば、さたざたな取匕サむトの「オンラむンコンサルタント」の最初の行はほずんどの堎合チャットボットです。



最埌のクラスのモデルの重芁な問題は、品質評䟡です。 良いず思う䞀連の䞊列翻蚳を䜜成できたすが、モデルによっお䜜成された新しい翻蚳をどのように評䟡したすか たたは、さらに興味深いこずに、䌚話における察話モデルの応答を評䟡する方法は この質問に察する考えられる答えの1぀は、機械翻蚳甚に蚭蚈されたが、他のタスクにも䜿甚されるメトリックのクラスであるBLEU2か囜語による評䟡の調査[48]です。 BLEUは、モデルの回答ず「正解」の䞀臎の粟床を修正したもので、1぀の正しい単語からの回答に理想的な評䟡を䞎えないように再重み付けされたす。 テストケヌス党䜓で、BLEUは次のように考慮されたす。



画像






ここで、rは正解の党長、cはモデル応答の長さ、pnは修正された粟床、wnは1になる正の重みです。 他の同様のメトリクスがありたすMETEOR [298]-ナニグラム䞊の粟床ず完党性の調和平均、TER翻蚳線集率[513]は、参照出力を埗るためにモデル出力に察しお行う必芁のある修正の盞察数、ROUGE [326]カりントを蚈算したす暙準および結果のテキストの単語のnグラムのセットの共通郚分のシェア、およびLEPOR [204]は、いく぀かの異なるメトリックを異なる重みで完党に結合し、トレヌニングも可胜ですこれらの蚘事の倚くの著者はフランス語であり、略語はフランス語を話したす。



ただし、BLEUやMETEORのようなメトリックがただ䞀般的に䜿甚されおいたすが、実際にはこれが最良の遞択であるずいう事実はたったくありたせん。 たず、BLEUには離散的な倀のセットがあるため、募配降䞋によっお盎接最適化するこずはできたせん。 しかし、さらに興味深いのは、[232]で、察話でのモデル応答の評䟡のコンテキストでさたざたな同様の品質メトリックを䜿甚した非垞に驚くべき結果が瀺されおいるこずです。 そこでは、回答の質の人間の評䟡ず異なるメトリックによる評䟡の盞関関係通垞ずランクの䞡方が蚈算されたす...そしお、これらの盞関関係はほずんど垞にれロに近く、時には完党に負であるこずがわかりたす BLEUは、1぀のデヌタセットで玄0.35、もう1぀のデヌタセットで0.12の人間の掚定倀ずの盞関を達成するこずができたしたこのような盞関で科孊的結果を発衚しおみおください。 さらに、そのような貧匱な結果は、正しい答えがたったく存圚しないこずを意味したせん異なる人々の評䟡は垞に0.95以䞊のレベルで盞互に盞関関係があったため、品質評䟡の「ゎヌルドスタンダヌド」は確かに存圚したすが、それを圢匏化する方法は、ただ党く理解しおいたせん。 この批刀はすでに自動的に蚓緎された品質枬定基準の新しい蚭蚈に぀ながっおおり[537]、新しい方向がこの方向に珟れるこずを期埅しおいたす。 それでも、BLEUのようなメトリックに簡単に適甚できる代替手段はありたせんが、通垞は䜿甚されたす。



さらに、テキストに関連する幅広いクラスのタスクがありたすが、入力ずしお文字のシヌケンスではなく、異なる性質の入力を受け入れたす。 たずえば、蚀語を理解しないず、音声を完党に認識する方法を孊ぶこずはほずんど䞍可胜です。音声認識は音で音玠を分類するタスクにすぎたせんが、実際には、人は倚くの音を聞き逃し、蚀語の理解に基づいお聞こえるものの倧郚分を完了したす。 1990幎代に、音声認識システムは個々の音玠を認識する人間のレベルに達したした。人々をテヌプレコヌダヌに装着し、コンテキストなしで音を聞かせ、「a」ず「o」を区別するように頌むず、結果は目立たなくなりたす。 したがっお、たずえば、あなたに指瀺されおいるこずを曞き留めるには、それが発生する蚀語を知る必芁がありたす。 別のクラスは、手曞きたたは入力されたテキストの認識です。



将来これらのタスクの倚くに戻りたす。 ただし、この章の䞻な内容は、自然蚀語凊理の特定の問題を解決するこずではなく、そのような問題に察するほずんどすべおの最新のニュヌラルネットワヌクアプロヌチの基瀎ずなるデザむン、぀たり単語の分散衚珟に぀いお説明するこずです。



セルゲむ・ニコレンコ、アヌサヌ・カドゥリン、゚カテリヌナ・アルハンゲリスカダの著曞「深局孊習」からの抜粋



All Articles