自然蚀語凊理





今日は自然蚀語のような興味深い話題に觊れたす 。 珟圚、この分野に倚くのお金が投資されおおり、倚くのさたざたな問題を解決しおいたす。 業界だけでなく、科孊界の泚目を集めおいたす。



車は考えるこずができたすか



研究者は、自然蚀語分析を基本的な質問に関連付けたす。機械は考えるこずができたすか 有名な哲孊者ルネ・デカルトは明らかに吊定的な答えを䞎えたした。 XVII䞖玀の技術の発展レベルを考えるず、驚くこずではありたせん。 デカルトは、機械はどのように考えおいるのかわからず、考えるこずを決しお孊ばないず信じおいたした。 機械は、自然な音声を䜿甚しお人ず通信するこずはできたせん。 私たちが圌女に単語の䜿甚方法ず発音方法を説明しおも、それはただ蚘憶されたフレヌズ、暙準的な答えです-マシンはそれらを超えたせん。



チュヌリング詊隓



それから䜕幎も経ち、テクノロゞヌは倧きく倉化し、20䞖玀にはこの問題が再び重芁になりたした。 1950幎の有名な科孊者アランチュヌリングは、機械が考えられないこずを疑い、テストのために圌の有名なテストを提䟛したした。



䌝説によるず、テストのアむデアは、孊生パヌティヌで実践されたゲヌムに基づいおいたす。 䌚瀟の2人の男男ず女が別々の郚屋に入り、残りの人はメモを䜿っお圌らずやり取りしたした。 プレヌダヌの仕事は、圌らが誰を扱っおいるかを掚枬するこずでした男性たたは女性。 そしお、女の子ず䞀緒の男は、他のプレむダヌを惑わすためにお互いのふりをしたした。 チュヌリングはかなり簡単な修正を加えたした。 圌は、隠されたプレヌダヌの1人をコンピュヌタヌに眮き換え、参加者に、人や機械ず察話する盞手を認識するよう招埅したした。







チュヌリングテストは、半䞖玀以䞊前に発明されたした。 プログラマヌは、圌らの頭脳がテストに合栌したず繰り返し述べおいたす。 毎回、これが真実かどうかに぀いお、物議を醞す芁件ず疑問が生じたした。 誰かがメむンのチュヌリングテストを管理したかどうかの公匏の信頌できるバヌゞョンはありたせん。 そのバリ゚ヌションのいく぀かは実際に正垞に完了しおいたす。



ゞョヌゞタりン実隓



1954幎、 ゞョヌゞタりンの実隓は合栌したした。 ロシア語からフランス語に60文を自動的に翻蚳するシステムを瀺したした。 䞻催者は、たった3幎でグロヌバルな目暙を達成したこずを確信しおいたした。機械翻蚳の問題を完党に解決するでしょう。 そしお惚めに倱敗したした。 12幎埌、プログラムは終了したした。 誰もこの問題を解決するこずができたせんでした。



珟代の芳点から蚀えば、䞻な問題は少数の提案でした。 このバヌゞョンでは、タスクを解決するこずはほずんど䞍可胜です。 たた、実隓者が6䞇、あるいは600䞇の文章で実隓を実斜した堎合、圌らはチャンスを埗るでしょう。



最初のチャットボット



1960幎代、最初のチャットボットが登堎したしたが、これは非垞に原始的なものでした。基本的に、他の人が話したこずを蚀い盎したした。 最新のチャットボットは先祖からそれほど遠くありたせん。 チュヌリングテストのバヌゞョンの1぀に合栌したず考えられおいる有名なチャットボットのZhenya Gustmanでさえ、 cなアルゎリズムのおかげではありたせんでした。 挔技ははるかに有甚でした著者は圌の性栌をよく考えたした。



圢匏的オントロゞヌ、 チョムスキヌ文法理論



それから正匏な方法の時代が来たした。 それは䞖界的な傟向でした。 科孊者は、すべおを圢匏化し、圢匏モデル、オントロゞヌ、抂念、関係、構文解析の䞀般的な芏則および普遍的な文法を構築しようずしたした。 次に、チョムスキヌ文法の理論が登堎したした。 これらはすべお非垞に矎しく芋えたしたが、倚くの骚の折れる手䜜業が必芁だったため、適切な実甚的なアプリケヌションには達したせんでした。 したがっお、1980幎代には、機械孊習アルゎリズムずいわゆるコヌパス蚀語孊ずいう別のクラスのシステムに泚目が移りたした。



機械孊習ずケヌス蚀語孊



コヌパス蚀語孊の䞻なアむデアは䜕ですか 十分な倧きさのドキュメントのコレクションである軍団を組み立お、機械孊習法ず統蚈分析を䜿甚しお、問題を解決するシステムを構築しようずしたす。



1990幎代、この領域は、怜玢が必芁なカタログ化が必芁な、構造化されおいない倚数のテキストを含むWorld Wide Webの開発により、非垞に匷力な掚進力を受けたした。 2000幎代には、自然蚀語分析がむンタヌネットの怜玢だけでなく、さたざたな問題の解決にも適甚されるようになりたした。 テキストを含む倧芏暡なデヌタセットが登堎し、倚くのさたざたなツヌルがあり、䌁業はそれに倚くのお金を投資し始めたした。



珟代のトレンド



今䜕が起こっおいたすか 自然蚀語の分析で確認できる䞻な傟向は、教垫なしで教育モデルを積極的に䜿甚するこずです。 これらを䜿甚するず、事前に決められたルヌルなしでコヌパスのテキストの構造を識別できたす。 パブリックドメむンには、マヌク付きであるかどうかに関係なく、品質の異なる倚数の手頃な䟡栌のケヌスが倚数ありたす。 クラりド゜ヌシングに基づいたモデルがありたした。私たちは機械を䜿っお䜕かを理解しようずしおいるだけでなく、テキストが曞かれおいる蚀語をわずかな費甚で決定する人々を぀ないでいたす。 ある意味では、正匏なオントロゞヌを䜿甚するずいう考え方は埩掻し始めたしたが、珟圚ではオントロゞヌはクラりド゜ヌスの知識ベヌス、特にLinked Open Dataに基づくデヌタベヌスを䞭心に展開しおいたす。 これはナレッゞベヌスのセット党䜓であり、その䞭心は、クラりド゜ヌシングモデルが実装されおいるWikipedia DBpediaの機械可読バヌゞョンです。 䞖界䞭の人々がそこに䜕かを远加できたす。



箄6幎前、NLP自然蚀語凊理は䞻に他の分野の技術ず方法を吞収しおいたしたが、やがおそれらを゚クスポヌトし始めたした。 自然蚀語分析の分野で開発された方法は、他の分野でうたく適甚され始めおいたす。 そしお、もちろん、ディヌプラヌニングがなければどこで 珟圚、自然蚀語を分析するずき、ディヌプニュヌラルネットワヌクも䜿甚され始めおおり、これたでのずころさたざたな成功を収めおいたす。



NLPずは䜕ですか これは、NLPが特定のタスクであるず蚀うこずではありたせん。 NLPは、さたざたなレベルの膚倧なタスクです。 たずえば、詳现レベルごずに、次のように分類できたす。







信号レベルでは、入力信号を倉換する必芁がありたす。 これは、スピヌチ、原皿、印刷されたスキャンテキストなどです。 マシンで䜿甚できる文字で構成されるレコヌドに倉換する必芁がありたす。



次は単語レベルです。 私たちの仕事は、䞀般的な蚀葉があるこずを理解し、その圢態孊的分析を行い、゚ラヌがあればそれを修正するこずです。 コロケヌションのレベルは少し高くなっおいたす。 その䞊に、決定する必芁がある品詞が衚瀺され、名前付き゚ンティティを認識するタスクが発生したす。 䞀郚の蚀語では、単語を匷調衚瀺するタスクも簡単ではありたせん。 たずえば、ドむツ語では、単語間に必ずしもスペヌスが必芁ずいうわけではなく、長いレコヌドから単語を分離できる必芁がありたす。



フレヌズから圢成された文です。 文を疑問芖する堎合は、必芁に応じお単語の曖昧さを排陀するために、時には構文解析を行い、答えを定匏化するために、それらを匷調する必芁がありたす。



これらのタスクは、構文解析ず生成に関連するものの2぀の方向に進むこずに泚意しおください。 特に、質問に察する答えが芋぀かった堎合、それを読む人の芳点から適切に芋える提案を䜜成し、質問に答える必芁がありたす。



文は段萜にグルヌプ化されおいたす。ここでは、リンクを解決し、異なる文で蚀及されたオブゞェクト間の関係を確立するずいう問題が生じたす。



段萜を䜿甚するず、新しい問題を解決できたす。テキストの感情的な色付けを分析し、テキストの蚀語を決定したす。



段萜はドキュメントを圢成したす 。 このレベルでは、最も興味深いタスクが機胜したす。 特に、セマンティック分析ドキュメントずは䜕ですか、自動泚釈および自動芁玄の生成、ドキュメントの翻蚳および䜜成。 よく知られおいるSCIgenの科孊蚘事ゞェネレヌタヌを知っおいたはずです。この蚘事ゞェネレヌタヌは、「The RooterAn Algorithm for the Unified and Access Point and Redundancy」ずいう蚘事を䜜成したした。 SCIgenは定期的に科孊雑誌の線集委員䌚をテストしおいたす。



しかし、䜓党䜓に関連するタスクがありたす。 特に、膚倧な量のドキュメントを重耇排陀するには、その䞭の情報を探したす。



タスクの䟋OK.RUの投皿を誰に衚瀺したすか



たずえば、Odnoklassnikiずしお知られおいるOK.RUプロゞェクトには、ストリヌム内のコンテンツをランク付けするタスクがありたす。 友人やグルヌプの誰かが投皿を行いたすが、特に友人が投皿したメモを考慮するず、原則ずしおそのような投皿が倚数ありたす。 あなたに最適なレコヌドをさたざたなレコヌドから遞択する必芁がありたす。 課題ず機䌚は䜕ですか



倧芏暡なデヌタセットがあり、すでに20億を超える投皿があり、1日に数癟䞇の新しい投皿が衚瀺される堎合がありたす。 箄40の蚀語が蚘録にありたすが、その䞭にはかなり研究が䞍十分なものも含たれおいたす。 ドキュメントには倚くのノむズがありたす。 これらはニュヌスや科孊蚘事ではなく、普通の人々によっお曞かれおいたす-゚ラヌ、タむプミス、スラング、スパム、コピヌアンドペヌスト、耇補がありたす。 共同フィルタリングに基づいた倚くのメ゜ッドがすでにある堎合、なぜコンテンツを分析しようずするのでしょうか しかし、テヌプの堎合、このような掚奚事項はうたく機胜したせん。ここでは垞にコヌルドスタヌトの状況が発生したす。 新しい斜蚭がありたす。 誰ずどのように圌ず亀流したかはただほずんどわかりたせんが、誰に芋せるか、誰に芋せないかをすでに決めなければなりたせん。 そのため、コヌルドスタヌトタスクに埓来のワヌクラりンドを適甚し、コンテンツの掚奚事項のシステムを構築したす。投皿が䜕に぀いお曞かれおいるかを理解するようにマシンに教えたしょう。



遠くからの問題



鳥瞰図から問題を芋お、メむンブロックを匷調したす。 たず、コヌパスは倚蚀語であるため、最初にドキュメントの蚀語を芋぀けたす。 カスタムテキストにタむプミスが含たれおいたす。 したがっお、テキストを暙準圢匏にするために、ある皮のタむプミス修正プログラムが必芁です。 さらにドキュメントを操䜜するには、それらをベクトル化できる必芁がありたす。 ケヌスには倚くの重耇があるため、 重耇排陀なしではできたせん。 しかし、最も興味深いのは、この投皿の内容を知りたいずいうこずです。 したがっお、 意味解析方法が必芁です。 そしお、オブゞェクトずトピックに察する著者の態床を理解したいず思いたす。 ここでは、感情的な色の分析が圹立ちたす。



蚀語定矩



順番に始めたしょう。 蚀語の定矩。 教垫ずの暙準的な機械孊習技術を䜿甚したす。 蚀語別に分類されたコヌパスを䜜成し、分類噚をトレヌニングしたす。 原則ずしお、単玔な統蚈分類子は非垞にうたく機胜したす。 これらの分類子の蚘号ずしお、通垞Nグラム、぀たりNたずえば3連続した文字のシヌケンスが䜿甚されたす。 文曞内のシヌケンスの分垃のヒストグラムが䜜成され、それに基づいお蚀語が決定されたす。 より高床なモデルでは、異なる次元のN-gramを䜿甚できたす。たた、最近の開発から、可倉長のN-gram、たたは著者がそれらを呌び出したむンフィニグラムに泚目しおいたす。



タスクはかなり叀いため、倚くの既補の䜜業ツヌルがありたす。 特に、これは日本語の怜出ラむブラリであるApache Tikaであり、最新の開発の1぀はPythonパッケヌゞLdigで 、これはinfinigramでのみ動䜜したす。



これらの方法は、十分に倧きいテキストに適しおいたす。 段萜たたは少なくずも5぀の文がある堎合、蚀語は99以䞊の粟床で決定されたす。 しかし、テキストが短い堎合、1぀の文たたは耇数の単語から、トラむグラムに基づく叀兞的なアプロヌチは非垞にしばしば誀解されたす。 Infinigramsは状況を修正できたすが、これは新しい分野であり、すべおの蚀語ずは異なり、すでに蚓緎され準備された分類噚がありたす。



正芏圢匏ぞの倉換



テキストの蚀語を定矩したした。 正芏の圢匏にする必芁がありたす。 なんで テキスト分析の重芁なオブゞェクトの1぀は蟞曞であり、アルゎリズムの耇雑さはしばしばそのサむズに䟝存したす。 コヌパスで䜿甚されたすべおの単語を取りたす。 ほずんどの堎合、数千語、たたは数億語になりたす。 それらをより詳しく芋るず、実際にはこれらは必ずしも別個の単語ではなく、単語の圢匏や゚ラヌのある単語が芋぀かるこずがありたす。 蟞曞のサむズおよび蚈算の耇雑さを枛らし、倚くのモデルの䜜業の品質を向䞊させるために、単語を暙準圢匏にしたす。



最初にバグずタむプミスを修正したす。 この領域には2぀のアプロヌチがありたす。 1぀目は、いわゆる音声マッチングに基づいおいたす。 これが圌の䞻なアむデアです。 なぜ人は間違っおいるのですか 圌は聞いたずおりに蚀葉を曞くからです。 正しい単語ず゚ラヌのある単語を取り、䞡方がどのように聞こえ、発音されるかを曞き留めるず、同じオプションが埗られたす。 したがっお、゚ラヌは分析に圱響しなくなりたす。



別のアプロヌチは、いわゆる線集距離であり、これを䜿甚しお、最も類䌌した類䌌語を蟞曞で調べたす。 線集距離は、ある単語を別の単語にすばやく倉換するために必芁な倉曎操䜜の数を決定したす。 必芁な操䜜が少ないほど、より倚くの単語が類䌌したす。



そこで、゚ラヌを修正したした。 それでも、同じロシア語では、単語には、さたざたな語尟、接頭蟞、接尟蟞が付いた膚倧な数の正しい単語圢匏がありたす。 この蟞曞は非垞に倚く爆発したす。 蚀葉を䞻な圢にする必芁がありたす。 そしお、2぀の抂念がありたす。



最初の抂念はステミングで、単語の基瀎を芋぀けようずしおいたす。 蚀語孊者は議論するこずができたすが、これが根であるず蚀えたす。 これは、接蟞ストリッピングアプロヌチを䜿甚したす。 䞻なアむデアは、単語の最埌から始めたでを単語ごずにカットするこずです。 語尟、接頭蟞、接尟蟞を削陀したす。その結果、䞻芁郚分のみが残りたす。 よく知られおいる実装、いわゆるPorter Stemmer、たたはSnowballプロゞェクトがありたす。 アプロヌチの䞻な問題蚀語孊者はステマヌのルヌルを蚭定したすが、これは非垞に難しい仕事です。 新しい蚀語を接続する前に、蚀語研究が必芁です。



さたざたなアプロヌチがありたす。 蟞曞を怜玢するか、教垫なしで教垫付きモデルを構築するか、隠れマルコフ連鎖に基づく確率モデルを構築するか、単語を瞮小した圢に倉換するニュヌラルネットワヌクをトレヌニングしたす。



スタンミングは長い間䜿甚されおきたした。 2000幎代初期からGoogleで。 おそらく最も䞀般的なツヌルは、 Apache Luceneパッケヌゞの実装です。 しかし、ステミングには欠陥がありたす。 単語を最埌たでカットするず、䞀郚の情報が倱われたす。 私たちはルヌトしか持っおいないので、圢容詞か名詞かに関するデヌタを倱う可胜性がありたす。 そしお、時にはそれ以䞊のタスクを蚭定するこずが重芁です。



2番目の抂念は、語幹抜出の代替案であり、 補題化です。 圌女は、語を基本たたは語根ではなく、基本的な語圙圢匏、぀たり補題に持っお行こうずしおいたす。 たずえば、動詞-䞍定詞ぞ。 倚くの実装があり、テヌマはナヌザヌ生成テキスト、ナヌザヌのうるさいテキスト甚に非垞にうたく蚭蚈されおいたす。 ただし、暙準圢匏ぞのキャストは䟝然ずしお困難であり、ただ完党には解決されおいたせん。



ベクトル化



暙準圢匏に導かれたす。 ほがすべおの数孊モデルが倧きな次元のベクトル空間で機胜するため、これをベクトル空間で衚瀺したす。 倚くのモデルが䜿甚する基本的なアプロヌチは、 ワヌドバッグ法です。 次元が蟞曞のサむズに等しいドキュメントの空間にベクトルを圢成したす。 各ディメンションには独自のディメンションがあり、ドキュメントには、この単語が䜿甚された頻床のサむンを蚘録したす。 ベクタヌを受け取りたす。 それを芋぀けるには倚くのアプロヌチがありたす。 いわゆるTF-IDFが支配的です。 単語の頻床甚語頻床、TFの定矩は異なりたす。 それは単語数かもしれたせん。 たたは、フラグ、単語を芋たかどうか。 たたは、察数的に平滑化された単語ぞの参照の数など、少しトリッキヌです。 そしお、ここが最も興味深いものです。 文曞でTFを定矩したら、それを逆文曞頻床IDFで乗算したす。 IDFは通垞、゚ンクロヌゞャヌ内の文曞数の察数を単語が衚瀺されおいる文曞数で割っお蚈算されたす。 以䞋に䟋を瀺したす。 私たちは、軍団のすべおすべおの文曞で䜿甚されおいる蚀葉に出䌚いたした。 明らかに、察数はれロになりたす。 私たちはそのような蚀葉を付け加えたせんそれは情報を運ばず、すべおの文曞にありたす。



ワヌドバッグアプロヌチの利点は䜕ですか 実装が簡単です。 しかし、圌は語順に関する情報を含む情報の䞀郚を倱いたす。 そしお今、圌らは単語の順序がどれほど重芁であるかずいうトピックに関する倚くのコピヌを砎壊し続けおいたす。 有名な䟋が1぀ありたす-マスタヌペヌダです。 圌は文に単語をランダムに入れたす。 ペヌダのスピヌチは珍しいですが、私たちはそれを自由に理解しおいたす。぀たり、人間の脳は、泚文を倱っおも情報を十分に簡単に回埩したす。



ただし、この情報は重芁な堎合がありたす。 たずえば、感情的な色付けを分析する堎合、「いい」たたは「ない」ずいう蚀葉が䜕を指しおいるのかは、比范的重芁です。 次に、単語の袋ず䞀緒に、N-gramの袋が圹立ちたす。単語だけでなくフレヌズも蟞曞に远加したす。 これは組み合わせの爆発に぀ながるため、すべおのフレヌズを玹介したせんが、しばしば䜿甚される統蚈的に有意なペアたたは名前付き゚ンティティに察応するペアを远加でき、これにより最終モデルの品質が向䞊したす。



「単語の袋」が情報を倱うか歪める可胜性がある状況の別の䟋-単語は同矩語たたはいく぀かの異なる意味を持぀単語たずえば、ロックです。 䞀郚では、これらの状況により、たずえば有名なword2vecやよりファッショナブルなskip-grammなど、「 単語のベクトル衚珟 」を構築する方法を凊理できたす。



重耇排陀



ベクトル化。 次に、重耇からケヌスをクリヌンアップしたす。 原理は明確です。 ベクトル空間にはベクトルがあり、それらの近接床を決定し、コサむンを取埗できたす。他の近接床メトリックも䜿甚できたすが、通垞はコサむンを䜿甚したす。 䜙匊が1に近い共通グルヌプのドキュメントを結合したす。



すべおがシンプルで理解しやすいように思えたすが、1぀だけありたす。20億のドキュメントがありたす。 20億を20億倍するず、䜙匊を数え終わるこずはありたせん。 コサむンを蚈算するための候補をすばやく遞択し、培底的な怜玢を排陀できる最適化が必芁です。 そしお、ここでロヌカルに敏感なハッシュが圹立ちたす。 暙準ハッシュ関数は、ハッシュスペヌスにデヌタを均䞀に拡散したす。 ロヌカルに敏感なハッシュは、オブゞェクトのスペヌスに同様のオブゞェクトを密接に配眮したす。 ある皋床の確率で、圌は通垞それらに同じハッシュを䞎えるこずができたす。



さたざたな類䌌性メトリックのロヌカルに敏感なハッシュを蚈算するための倚くの手法がありたす。 コサむンに関しおは、 ランダム射圱法がよく䜿甚されたす。 ランダムなベクトルからランダムな基底を遞択したす。 基底ベクトルの1぀を䜿甚しおドキュメントのコサむンを怜蚎したす。 れロより倧きい堎合、単䜍を蚭定したす。 れロ未満たたはそれに等しい-れロを蚭定したす。 次に、それを2番目の基底ベクトルず比范し、もう1぀0たたは1を取埗したす。 基瀎にあるベクトルの数-終了するビットの数。これがハッシュです。



利点は䜕ですか、なぜ機胜するのですか 2぀のドキュメントが互いに䜙匊に近い堎合、高い確率で、それらは基底ベクトルから同じ偎にありたす。 したがっお、類䌌のドキュメントには1぀のドキュメントが含たれる可胜性が高くなりたす。 それにもかかわらず、排出がありたす。 それらを修正するには、手順を繰り返したす。 実際には、通垞2回実行したす。 最初に、24ビットハッシュを蚈算し、ほずんど同䞀のドキュメントを倚数削陀したす。 次に、別のハッシュを別の方法で怜蚎したすが、すでに16ビットであり、重耇を远加したす。 その埌、コピヌは残りたせん。たたは、コピヌが非垞に少ないため、モデルの品質に倧きな圱響を䞎えるこずはできたせん。



セマンティック分析



そしお、私たちは最も興味深いものにゆっくりず進んでいたす。 ドキュメントの内容をどのように理解したすか セマンティック分析のタスクは非垞に叀いです。 昔ながらのアプロヌチはこれです事前に説明したオントロゞヌを䜜成し、厳密に解析し、構文ツリヌのノヌドをオントロゞヌの抂念にマッピングし、倚くの手曞きルヌルを䜜成したす-など、セマンティクスを取埗したす。 これはすべお理論的には矎しいですが、実際には機胜したせん。手曞きのルヌルがたくさんある堎合、機胜するのは困難です。



最新のアプロヌチは、教垫なしでのセマンティクスの分析です。したがっお、隠された朜圚的なセマンティクスの分析ず呌ばれたす。 このメ゜ッドたたはメ゜ッドファミリヌは、倧芏暡なケヌスでうたく機胜したす-倧芏暡なケヌスでのみ非衚瀺のセマンティクスの怜玢を実行するのは理にかなっおいたす。 そこには、原則ずしお、旧匏のアプロヌチのルヌルを持぀シヌトずは異なり、色付けできるパラメヌタヌが比范的少なく、既補のツヌルがありたす䜿甚しおください。



朜圚セマンティックむンデックス



歎史的に、朜圚意味解析ぞの最初のアプロヌチは朜圚意味玢匕付けです。 アむデアはずおもシンプルです。 私たちはすでに、実蚌枈みのマトリックス分解手法を䜿甚しお、協調的な掚奚事項を解決しおいたす。







因数分解の本質は䜕ですか 掚奚事項には、ナヌザヌ-アむテムナヌザヌがアむテムを気に入っおいる限りの倧きなマトリックスがありたす。 それを小さな行列の積に分解したす。 これで、ナヌザヌの芁玠ずアむテムの芁玠のマトリックスができたした。 次に、これらの2぀の行列ナヌザヌ-因子および因子-項目を取埗し、乗算したす。 新しいナヌザヌ-アむテムマトリックスを取埗したす。 因数分解を正しく実行した堎合、最初にレむアりトしたマトリックスに可胜な限り䞀臎したす。 同じこずをドキュメントで行うこずができたす。 マトリックス「文曞-単語」たたは「単語-文曞」を取り、それを「文曞-因子」ず「因子-単語」の2぀のマトリックスの積に分解したす。 それは簡単です、既補のツヌルがありたす。 このアプロヌチでは、さたざたな意味を持぀同矩語を自動的に考慮したす。 ケヌスに倚くのタむプミスがある堎合、スペルミスの単語がそのような隠された芁因を指しおいるこずを認識したす。 最小限のパラメヌタヌ、既補のツヌル。1990幎代の初めから、これらの手法が䜿甚されおきたした。ただ䞀぀のこず埗られたセマンティクスがあたりにも隠されおいたす。文曞芁玠ず単語芁玠のベクトルから、コヌパスに぀いお䜕かを蚀うこずは非垞に困難です。共同掚奚のタスクでこの問題がそれほど重芁でない堎合、倚くの問題の自然蚀語の分析では状況が異なりたす。私たちが解釈できない数孊的モデルは、私たちに新しい知識を䞎えたせん。したがっお、圌らは代替案を探し始めたした。



確率的朜圚セマンティックむンデックス



- . .







. , , , . , . . , . . . ( , , ), , .



, : .



, ? , - — . « — » : « — » « — ». , , - . . . , , , , , , : , .



— TF-. TF-IDF , .



, ? . . , , , , . .







. : , . , . . . « — » « — ». これをどうやっおやるの , .



EM- . , , . . , . γ ijk : , .







. , N ik , γ ijk , — N ij . N jk , , γ ijk , . N k — . , . ijk , N ik , N jk N k γ ijk . — . γ ijk , γ ijk , , . γ ijk . . γ ijk , — γ ijk , . ., .



? -, . — : . . , , , γ ijk . , , γ ijk , . それだけです。 γ ijk . . .



? « », « » « ». . ? . ? . , , .





, , . ? . . : « — » « — », , .







? . ( , ), . . , . , .



, . .







(Latent Dirichlet Allocation, LDA) — . , , .







? : . ? , . , , , . , , , . — , . , - , , . , , : - .







? ずおも簡単です。 , . γ ijk , . β , — α , , , . ? α β

: -, . , , . , .



. α α , β , β , .



, β , , ; , , , β . α . α — , — , . α . , domain specific themes, α , .



. . . , , . , .



. - .







: .



. , — , . , . , -, . : , .



, — , . . — , . — , .

なぜそのような困難なのですか , . . , , , — .







, John Snow. Snow — , Snow — . snow . , , , , . snow .



, . , , , .



これはどういう意味ですか — , , α β . , , — , . , , . .







? . , , . γ ijk , , . γ ijk Z , . , . , , , .



, , . — γ ij . : γ ij , . , γ ij , . , , , , , — .



« — » « — » , .



? . , , LDA. α β , , PLSA. α β , — PLSA-. .



. , . . , LDA-. .







, , , . . .







. , , , , , , , , . ? -, .



, . — , 1000, 250 . - , - .







, , , - , - , , , 
 — , , . . , . . , , , .



?



圓然。 倚くの開発オプションがありたす。 特に、トピック「 Additive regularizers 」は珟圚ロシアで動いおいたす。 繰り返し曎新の䞀郚ずしおカりントする数匏に新しいポストスクリプトを远加し、それぞれがプロセスをモデル化したす。 䞀郚は、重みが小さくなりすぎたトピックの䞀郚を削陀したす。 ある皮の背景トピックを䟵食したり、逆にドメむントピックを平坊化したりしたす。



正則化を远加するだけでなく、生成モデルを耇雑にするこずを目的ずしたアプロヌチがありたす。 たずえば、新しい゚ンティティ、タグ、䜜成者、ドキュメントの読者を远加し、独自のテヌマ分垃を持぀こずができ、それらに基づいお共通のものを構築しようずしたす。

抜象ディリクレ分垃ではなく、保持したい先隓的分垃ずしおラベル付きケヌスに関するトピックの分垃を遞択するず、この教垫なしLDA手法ずラベル付きケヌスを亀差させる詊みがありたす。



興味深いこずに、生成モデルのこれらすべおの確率は、実際には、行列因子分解手法です。 しかし、特異因子分解因子分解ずは異なり、これらの手法は䜕らかの圢匏の解釈をサポヌトしおいたす。 そのため、LDAは他の領域で䜿甚されるようになりたした。画像行列を因数分解し、それらに関する共同の掚奚事項を䜜成したす。 ゜ヌシャルネットワヌクずグラフの分析の分野では、確率的ブロックモデリングのトピックがありたす。 私が理解しおいるように、それは倚かれ少なかれ独立しお開発されたしたが、実際には、確率的生成モデルを通しお行列を因数分解するこずでもありたす。 ぀たり、LDAずそれから螊るすべおのものは、自然蚀語の分析から他の領域に゚クスポヌトされるものです。



数倀からオフロヌドする技術に぀いお少し。 プロセスは簡単ですが、倧きなボディで䞻題モデルを䜜成するには時間がかかりたす。 時間がありたせん 珟圚衚瀺されおいるドキュメントのテヌマを理解する必芁がありたす。







このアプロヌチを䜿甚したす。テヌマモデルを事前に準備したす。 モデルは、トピックず単語のマトリックスに基づいおいたす。 完成したキャッシュトピックワヌドマトリックスを䜿甚するず、特定の投皿が衚瀺されたずきに、ドキュメントトピックの分垃を調敎できたす。 定期的に曎新される䞀般的なテヌマモデルがあり、これは暙準のmap reduceによっお蚈算され、新しい投皿の連続ストリヌムがありたす。 ストリヌミング分析ツヌルを䜿甚しおそれらを凊理し、事前に準備された「トピックワヌド」マトリックスに基づいお、オンザフラむでトピックを決定したす。 これは兞型的な回路です。 本番環境のすべおの機械孊習アルゎリズムは、通垞、次のように機胜したす。難しい郚分はオフラむンの準備であり、簡単な郚分はオンラむンです。



感情的な色付けの分析に぀いおはただ話しおいたせん。 良いテキストの内容を理解したした;トピックの確率的分垃を決定したした。 しかし、著者がトピックに察しお肯定的たたは吊定的な態床を持っおいるかどうかをどのように理解するのでしょうか



原則ずしお、教垫ずの共同䜜業に基づく方法が䟝然ずしおここで支配的です。 ポゞティブな感情ずネガティブな感情を持぀テキストのラベル付きコヌパスが必芁であり、その䞊で分類子を蚓緎したす。 単語の袋に基づくアプロヌチは、倚くの堎合、倱敗した結果に぀ながりたす。 感情は時々同じ蚀葉で衚珟され、文脈が重芁です。 したがっお、単語のバッグの代わりに、N-gramバッグがよく䜿甚されたす。 暙準的な単語たたはパヌティクルによっおたずえば、「not」によっお、圌らはそれが䜕であるかを理解しようずしたす。 圌らはその蚀葉を研究しながら、旗の前ずその距離に「ない」粒子があるかどうかを調べたす。 さらに、圌らは、その人がテキストを曞いたずき、その人が緊匵しおいる、怒っおいる、たたは喜んでいるずいう远加の兆候に泚意を払いたす。 感嘆笊、キャップ、単語内に印刷できない文字がたくさんありたすおそらく汚い蚀語のスクリヌニングです。そしお、このすべおに぀いお分類噚が蚓緎されたす。



特に分類噚を特定のサブゞェクト゚リア向けにトレヌニングする必芁がある堎合は、かなりうたくいくこずがありたす。 䞀連の映画レビュヌがあれば、感情に関する分類を蚓緎するこずはかなり可胜です。 問題は、おそらくこの分類子がレストランのレビュヌで機胜しなくなるこずです。 レストランに察する態床をしばしば衚す他の蚀葉がありたす。 これたでのずころ、感情的な色付けの分析に察する成功した゜リュヌションは、䞻に特に指向されおいたす。



感情はしばしば倉化するため、テキストのサむズは十分に重芁です。 ある感情的なメッセヌゞを含む段萜たたは耇数の文ず、別の感情的なメッセヌゞを含む文がある堎合がありたす。 たずえば、レビュヌでは、奜きなものずそうでないものを曞くこずがありたす。 したがっお、ドキュメントをそのような領域に分割する䟡倀がありたす。



その結果、感情は䞭皋床のテキストに最もよく定矩されたす。 小さすぎる-十分な情報がないずいうリスクがありたすが、長すぎる-結果ががやけすぎたす。



非垞に人気のあるSentiStrengthラむブラリには、文章やテキストを打ち負かし、そこに含たれる感情を刀断できるWebサヌビスがありたす。 しかし、ここで分類タスクはバむナリではないこずを蚀わなければなりたせん。原則ずしお、これらの方法は単に「ポゞティブ」たたは「ネガティブ」ではなく、「そのような力でポゞティブです」ず蚀いたす。 おそらく、これはこのスタックで最も達成床の䜎いタスクの1぀であり、さらに倚くのタスクをここで開発できたす。



最埌に、ただ解決されおいないタスクをもう少し実行したす。



手始めに、これはカスタムテキストを暙準圢匏にキャストしおいたす。 タむプミスやスタンプを修正できたす。 これらすべおを組み合わせようずするず、しばしばひどくなりたす。 短いテキストに぀いおは、むンフィニグラムに関連するアプロヌチが必芁です。通垞の産業甚実装はただないため、機胜するかどうかは䞍明です。 短いテキストの䞻題モデリングも困難です。 蚀葉が少なければ少ないほど、その意味を理解するのが難しくなりたす。



ただ話しおいない別のタスク。 さお、ドキュメントがどのトピックに関連するかを理解したした。 しかし、ナヌザヌもいたす。 目的セマンティックプロファむルを䜜成したす。 セマンティクスず感情を組み合わせたす。 そのようなトピックや感情があるこずを理解するだけでは十分ではありたせん。 どのトピックがどのような感情を匕き起こしたかを知る必芁がありたす。



テヌマモデルを経時的に調査するのは興味深いこずです。テヌマモデルがどのように倉換されるか、新しいトピックがどのように発生するか、既存のテヌマの語圙が倉化するかなどです。 重耇排陀は、コピヌを含むテキストではうたく機胜したすが、これらのコピヌが意図的に歪められたテキストで停止する可胜性がありたす。぀たり、スパム察策に぀いお話したす。 ぀たり、これは倚くの異なる゜リュヌションが存圚する巚倧な領域ですが、さらに倚くの未解決の問題がありたす。 誰かが機械孊習に興味があり、実際の実甚的なタスクを扱う堎合は、歓迎したす。



おわりに



最近、テキスト分析の分野では、人工ニュヌラルネットワヌクに基づく方法の導入に倚くの泚意が払われおいたす。 画像分析の分野でのような圧倒的な成功は、䞻にテキストにずっおはるかに重芁なモデルの䜎い解釈性のために達成できたせんでした。 しかし、ただ成功しおいたす。 いく぀かの䞀般的なアプロヌチを怜蚎しおください。



「意味のベクトル 。 」 Googleの2013幎の調査では、2局ニュヌラルネットワヌクを䜿甚しお、コンテキストごずに単語を予枬するこずが提案されたした埌に、反察のオプションが登堎したした単語ごずのコンテキストの予枬。 䞻な結果は予枬そのものではなく、単語に察しお埗られたベクトル衚珟でした。 著者によるず、圌らは蚀葉の意味に぀いおの情報を含んでいた。 ベクトル衚珟では、単語の「代数挔算」の興味深い䟋を芋぀けるこずができたす。 たずえば、「王は男+女≈女王です。」 さらに、ベクトル化された単語は、テキストデヌタを他の機械孊習アルゎリズムに転送する䟿利な圢匏になり、word2vecモデルの人気が倧きく保蚌されたした。



単語の意味のベクトルを䜿甚したアプロヌチの重芁な制限の1぀は、文曞ではなく単語の意味が決定されたこずです。 短いテキストの堎合、テキストに含たれる単語のベクトルを平均化するこずにより、適切な「集玄された」意味を埗るこずができたすが、長いテキストの堎合、このアプロヌチはすでに効果がありたせん。 制限を回避するために、さたざたな修正が提案されたしたsentence2vec、paragraph2vec、doc2vecが、基本モデルのようには広たりたせんでした。



リカレントニュヌラルネットワヌク 。 テキストを操䜜する「叀兞的な」方法の倚くは、倧量の単語のアプロヌチに基づいおいたす。 文䞭の語順情報が倱われたす。 倚くの問題では、これはそれほど重芁ではありたせんたずえば、セマンティック分析などが、逆に、結果が著しく悪化する堎合もありたすたずえば、感情的な色付けや機械翻蚳の分析など。 リカレントニュヌラルネットワヌク RNSに基づくアプロヌチは、この制限を回避できたす。 RNSは、珟圚の単語に関する情報ず、前の単語からのおよび時には反察方向-次からの同じネットワヌクの出口に関する情報を考慮しお、単語の順序を考慮するこずができたす。



最も成功したRNSアヌキテクチャの1぀は、LSTMLong Short Term Memoryブロックアヌキテクチャです。 このようなブロックは、情報の単䜍を「長い」間蚘憶し、新しい信号が到着したずきに、保存された情報を考慮しお答えを出すこずができたす。 このアプロヌチは埐々に修正され、2014幎にGRU Gated Recurrent Units モデルが提案されたした。これにより、倚くの堎合、より少ないパラメヌタヌで同じそしお時にはより倚くの䜜業品質を達成できたす。



テキストを単語のシヌケンスずしお考えるず、それぞれがベクトル通垞はword2vecベクトルで衚され、短いテキストの分類、機械翻蚳シヌケンスからシヌケンスぞのアプロヌチ、チャットボットの開発の問題に察する非垞に成功した゜リュヌションであるこずが刀明したした。 ただし、長いテキストには繰り返しブロックの十分なメモリがないこずが倚く、ニュヌラルネットワヌクの「出力」は䞻にテキストの末尟によっお決定されたす。

ネットワヌクゞェネレヌタヌ。 画像ず同様に、ニュヌラルネットワヌクを䜿甚しお新しいテキストを生成したす。 これたでのずころ、そのようなネットワヌクの結果はほずんど「ファン」ですが、それらは毎幎発展しおいたす。 この分野の進捗は、たずえばYandex.Autopoetシステム2013幎に開発を芋お、グルヌプNeuron Defense 2016たたはNeurona 2017のアルバムを聎くこずで远跡できたす。



N-gramずシンボルに基づくネットワヌク 。 単語に基づいおニュヌラルネットワヌクの入力を構築するこずには、倚くの困難が䌎いたす。倚くの単語が存圚する可胜性があり、゚ラヌやタむプミスが含たれるこずもありたす。 単語のベクトル衚珟は最終的にうるさいです。 これに関しお、近幎では、蚘号および/たたはN-グラム耇数、通垞は3぀の文字のシヌケンスによるアプロヌチがたすたす人気を集めおいたす。



たずえば、文字ベヌスのリカレントネットワヌク Char-RNN は、単語名前などず文の䞡方の生成に非垞に成功しおいたす。 さらに、十分な量のデヌタに察しお、ネットワヌクが単語や品詞を「孊習」するだけでなく、偏䜍ず掻甚の基本的なルヌルを「蚘憶」するこずを保蚌できたす。



短いテキストの堎合、「トラむグラムの袋」アプロヌチを䜿甚しお、倚くの問題で良い結果を埗るこずができたす。 この堎合、ドキュメントは20〜40千次元のスパヌスベクトル各可胜なトリグラムには独自の䜍眮が割り圓おられたすず照合され、その埌、原則ずしお次元が埐々に枛少する密なネットワヌクによっお倚局凊理されたす。 このビュヌでは、システムは倚くのタむプの゚ラヌおよびタむプミスに察する耐性を提䟛し、分類の問題を解決し、通信の怜玢を成功させるこずができたすたずえば、質問応答システム。



信号を凊理するレベルのネットワヌク 。 生信号の分析におけるニュヌラルネットワヌクの䟋倖的な圹割に泚意する必芁がありたす。 原則ずしお、珟代のシステムでの音声はリカレントネットワヌクを䜿甚しお認識されたす 。 手曞きテキストの分析では、畳み蟌みネットワヌクを䜿甚しお個々の文字を認識し、リカレントネットワヌクを䜿甚しおストリヌム内の文字をセグメント化したす。



質疑応答



質問 ロシア語甚のLdigツヌルはありたすか

回答 私の意芋では、ロシア人はいたせん。 これはPythonパッケヌゞです。遞択範囲は非垞に限られおいたす。 サむボりズラボで開発されたした。 著者はテヌマモデルに切り替えお、「それだけです。蚀語はもはや私たちにずっお興味深いものではありたせん。」 したがっお、Ldigを珟圚開発しおいる人はいたせん。 私たちは自分自身でいく぀かのステップを螏もうずしおいたすが、それはすべお良いマヌクの建物の準備に垰着したす。 結果がある堎合は、投皿するでしょう。 しかし、infinigramsずLdigの間、蚀語はほずんどありたせん。 90の蚀語を持぀LangDetectずは異なりたす。



質問 PLSA甚のオヌプンツヌルはありたすか

回答 ケヌスが比范的小さい堎合、BigARTMラむブラリがありたす。これは、堅牢なLDAの創蚭者であるKonstantin Vorontsovの指導の䞋、モスクワで䜜成されおいたす。 ダりンロヌド可胜で、軞䞊で高速か぀䞊列に開いおいたす。



Mr.のような、分散システム䞊に構築されたいく぀かの実装がありたす。 LDA。 異なるパッケヌゞには独自の実装がありたす。 SparkにはVowpal Wabbitがありたす。 私の意芋では、䜕かはマハりトにもありたした。 1台のマシンのメモリに収たるケヌスで䜕かをしたい堎合は、BigARTMたたはPythonモゞュヌルを䜿甚できたす。 私の知る限り、PythonにはLDAもありたす。



質問 PLSA に関する別の質問。 MLアルゎリズムに収束の保蚌はありたすか

回答 収束の数孊的分析があり、それに察する保蚌がありたす。 実際には、収束しないこずを芋たこずはありたせん。 むしろ、収束せず、倚かれ少なかれ私たちが芋おいるものを説明する分垃を䞭心に振動したす。 ぀たり、ドキュメントは振動し始める可胜性がありたすが、蟞曞は修正されおいたす。 通垞、圓惑は枛少しなくなった埌、反埩を停止したす。



質問 ドキュメント内のトピックの出珟はどのように刀断されたすか

回答 反埩プロセスに基づきたす。 特定の単語がこのトピックによっお特定のドキュメントに持ち蟌たれる確率カりンタヌがありたす。 これに基づいお、ドキュメント内のトピックのパワヌを曎新し、すべおを再床カりントし、トピック䞊のドキュメントのワヌドカりンタヌの新しい倀を取埗したす。 そしお最埌に、分垃を取埗したす。



質問 テキストからの情報を研究するためにディヌプラヌニングモデルが䜿甚されおいたすか

回答 適甚したす。 しかし、そのような瞬間がありたす。 ディヌプラヌニングの堎合、よく知られおいるこずはword2vec、doc2vec、sentence2vecです。 厳密に正匏にアプロヌチする堎合、それは実際には深局孊習ではありたせんが、実際には実際の深局ネットワヌクがあり、それらを適甚しようずしおいたす。 私はそのようなネットワヌクの経隓が混圚しおいたす。 それらから倚くのノむズがあり、実際の実甚的な問題を解決しようずするず、ゲヌムはろうそくの䟡倀がないこずがわかりたす。 しかし、これは私の個人的な意芋です。 人々は詊みおいたす。



質問 ドキュメントのテヌマず感情的な色付けを定矩するための確立されたオヌプン゜ヌスラむブラリはありたすか

回答 BigARTMずVorontsovの圌に関する出版物に助蚀したす。 そしお、モスクワにいる人はおそらく圌のためにセミナヌに行くこずができたす。 これはセマンティクスに関するものです。 感情は難しいです。 特に、アカデミックラむセンスの䞋で、゜ヌスコヌドを提䟛できるSentiStrengthがありたす。 ただし、原則ずしお、このようなタスクでは、䞻な倀はコヌドではなく、ラベル付きのケヌスです。 その䞊で、実隓、蚓緎するこずができたす。 倧文字小文字が区別されない堎合、コヌドは圹に立ちたせん。 次に、既に蚓緎された既補のモデルそのようなものがあるを䜿甚するか、ケヌスを䜜成する必芁がありたす。



質問 NLP に関するどの本をお勧めしたすか

回答 テヌマモデルでは、Vorontsovの蚘事を読むのが理にかなっおいたす。 圌らは非垞に良い抂芁を提䟛したす。 NLP党般に぀いおは、自然蚀語凊理ハンドブックがありたす。 かなり抂芳できたすが、ほずんどすべおのトピックがカバヌされおいたす。



質問 興味深いNLP補品たたは䌁業は䜕ですか

回答 私は問題を調査しおいたせんが、おそらくそのようなものがありたす。 仕事でテクニックを䜿甚する人は これらは䞻に怜玢゚ンゞンGoogleなどず倧芏暡なテキスト䌁業を持぀䌁業です。 Facebookはおそらくその1぀だず思いたす。



質問 小芏暡なチヌムで競争力のあるプログラムを䜜成するのは珟実的ですか

回答 本圓に。 倚くの未解決の質問がありたす。 特に新しい分野で珟圚利甚可胜な゜リュヌションを芋おも、それらは倚くの堎合技術的ではありたせん。 これは、研究宀、孊生によっお行われたす。 ゜リュヌションは束葉杖に満ちおおり、効果がありたせん。 優れた゚ンゞニアを採甚し、完成したアカデミック補品の最適化に任せれば、玠晎らしいものを手に入れるこずができたす。 しかし、孊術的な専門知識ず優れた゚ンゞニアリングスキルが共存するこずはめったにありたせん。



質問 蚀語は思考をどのように制限したすか

回答 圌がそれを衚珟しおいない堎合。 蚀語が思考を衚珟できない堎合、通垞は拡匵されたす。 蚀語は生きおいたす。 未解決のタスクをテヌマモデルの進化ず呌んだのはなぜですか 新しい瀟䌚珟象に察しお蚀葉がどのように珟れるかをよく芳察したす。 蚀語はコミュニケヌションツヌルです。 圌がコミュニケヌションの問題の解決をやめた堎合、圌は改善しおいたす。



All Articles