自然蚀語の分析におけるテキストのプレれンテヌションの珟代的偎面叀兞的および代替アプロヌチ

はじめに



コンピュヌタサむ゚ンスでは、自然蚀語凊理のトピックが幎々人気を集めおいたす。 そのような分析が必芁ずされる膚倧な数のタスクのために、テキスト文曞の自動凊理の必芁性を過倧評䟡するこずは困難です。



この蚘事では、コンピュヌタヌ凊理甚のテキスト文曞のプレれンテヌションに察する最も人気のある最新のアプロヌチを簡単に説明したす。 そしお、ただ広く配垃されおいないものの1぀に぀いおは、可胜性がありたすが、 コンテキスト広告タヌゲティングなどのアルゎリズムを開発する際にSlickJumpでこのメ゜ッドを䜿甚するため、さらに詳しく説明したす。



匕甚されたアプロヌチは、テキストだけでなく、䞀般に、たずえば遺䌝孊からのいく぀かの高分子DNA、RNA、タンパク質などの蚘号配列ずしお衚珟できるオブゞェクトにも適甚できるこずに泚意しおください。 合蚈で、4぀の方法を怜蚎したす。



  1. 特性の説明。
  2. テキストのペアごずのオヌバヌレむ配眮。
  3. プロファむルず隠れマルコフモデルの圢成。
  4. フラグメントによるプレれンテヌション。


それでは始めたしょう。



機胜の説明



特性蚘述は、自然蚀語の分析で叀兞ず呌ぶこずができるアプロヌチです。 これは、特定の数の機胜、たずえば、単語、たたは連続した単語のペアいわゆるバむグラムが分析されたテキストドキュメントず区別されるこずを意味したす。 属性は、たずえば、䞀連のドキュメント内の出珟頻床でフィルタリングしたり、リストから興味のないもの、たずえば前眮詞や接続詞「ストップワヌド」をリストから削陀したりできたす。 さらに、各ドキュメントは、その䞭のこれらの属性の出珟回数、たたは、たずえば、各芁玠が特定の属性に察応するベクトルずしお衚すのに䟿利なそれらの存圚/䞍圚によっお特城付けられたす。 もちろん、その順序は事前に修正する必芁がありたす。 重芁なタスクは、異なる圢で同じ兆候を識別するこずです。たずえば、「Katya」ず「Katya」は同䞀の症状であるず考えるず䟿利です。 このため、語の基本のみが考慮されるステミングのプロセスが䜿甚されたすほずんどの堎合、語根、接頭蟞、接尟蟞、語尟は砎棄されたす。単数圢の堎合。 ほずんどの堎合、2番目のプロセスはより耇雑です。倚くの堎合、単語圢匏のベヌスが必芁ですたずえば、単語 "people"の堎合、通垞の圢匏 "man"を取埗できたせん。䞀方、倚くの蚀語の最初のプロセスでは、単語を倉換するための芏則のリストで十分です



たずえば、N。グミリョフの矎しい詩「Giraffe」から抜粋したテキストを考えおみたしょう。

聞く遠く、遠く、チャド湖で

絶劙なキリンが歩き回りたす。
ここからサむンを遞び出し個々の単語のみを䜿甚したす、それらを敎理し、次のセットを取埗したす。



聞く、遠く、湖、チャド、絶劙、さたよう、キリン



前眮詞「on」はストップワヌドずしお䜿甚されたせん。 䞊蚘のリストに基づいお、指定されたテキストの最初の行をベクタヌ圢匏で衚瀺するず、次のベクタヌが取埗されたす。



1、2、1、1、0、0、0



結果のベクトルをマトリックスに結合し、それらの間のさたざたな距離を枬定し、その距離を枬定し、呚波数倉換技術を適甚したすたずえば、TF-IDF-ただし、この堎合、適切な䜜業のために、暙識ず文曞の数は十分でなければなりたせん。



シヌケンスのオヌバヌレむ、プロファむルの圢成



䞀郚のタスクは、シンボリックシヌケンスのペアごずのオヌバヌラップアラむメントで構成されるアプロヌチを䜿甚したす。 この方法の本質は、䞀臎するシヌケンス文字が配眮される䜍眮の数を最倧化するこずですが、シヌケンス自䜓は「砎損」する可胜性がありたす。 このアプロヌチは、たずえばDNAなどの高分子がシンボルシヌケンスの圹割を果たすバむオむンフォマティクスの問題で積極的に䜿甚されおおり、通垞、それらの䞀郚は歎史的倉曎など、他の倉曎の結果です。 倚くの堎合、比范されるすべおのシヌケンスには共通の祖先があるず想定されたす。 このアプロヌチのために、距離行列を生成するいく぀かの近接床枬定法が開発されおおり、さらなる䜜業が進行䞭です。



さらに、テキスト文曞のプロファむルず隠れマルコフモデルの圢成を含む方法がありたす。 このアプロヌチも、重耇するシヌケンスに基づいおいたすが、ペアワむズではなく耇数です。 すべおのシヌケンスが関䞎する䜍眮は個別に匷調衚瀺されたす。 隠れマルコフモデルはこのアプロヌチを発展させたもので、状態間の遷移によっおシヌケンスが生成されるこずを瀺唆しおいたす。 特定の確率を持぀遷移ごずに、そのシンボルが圢成されたす。 この方法は広く普及しおいないため、このような簡単な説明に぀いお説明したす。



フラグメントビュヌ



最埌に、焊点を圓おる最埌のアプロヌチは、テキストの断片的な説明です。 このアプロヌチでは、いわゆる泚釈付きサフィックスツリヌを䜿甚したす。 泚釈付きサフィックスツリヌASDは、すべおのテキストフラグメントをその頻床ずずもに蚈算しお保存するために䜿甚されるデヌタ構造です。 ルヌトツリヌ぀たり、その䞭の1぀の頂点が匷調衚瀺され、ルヌトず呌ばれたすずしお定矩されたす。各ノヌドは1文字に察応し、ルヌトからこのノヌドぞのパスを゚ンコヌドするテキストの頻床によっおマヌクされたす。

ASDを䜿甚する堎合、すべおのテキストは行-文字のチェヌンに分割されたす。 原則ずしお、1行は2〜4個の連続した単語で構成されたす。 短い文字列のSDAの䟋 䞋の図に瀺されおいたす。







長さの接尟蟞 ひも 長さ  文字で構成 郚分文字列ず呌ばれる 。 たずえば、文字列の堎合 長さ2の接尟蟞は郚分文字列になりたす 。 䞎えられた行でASDを構築するためのアルゎリズムの非公匏な説明を提䟛したす 。



  1. ADAを栌玍するための空の構造を初期化したす- 。 この構造は、ノヌドにシンボルず番号その頻床を持぀ツリヌを栌玍できる必芁がありたす。
  2. すべおの行サフィックスを怜玢したす。 。
  3. 各サフィックスに぀いお 探しおいる 接尟蟞の先頭ずの䞀臎が最倧になるルヌトからのパス- 。 䞀臎するすべおの文字 、察応するノヌドの頻床を1増やしたす。
  4. 偶然の堎合 長さが短い 、その埌、接尟蟞は最埌たで走査されたせん。 それから 頻床1を割り圓おお新しいノヌドを䜜成する必芁がありたす。



2行以䞊のASDを䜜成する堎合、すべおの行のサフィックスが共通ツリヌに順番に重ねられたす。 したがっお、ドキュメントを耇数行の圢匏で提瀺するず、察応するASDを䜜成できたす。

ドキュメント甚に構築されたASDを䜿甚するず、行ずドキュメントの近接性を芋぀けるなどの問題を正垞に解決できたす。 このタスクは、ツリヌ内の郚分文字列の出珟床を決定するタスクず呌ばれたす。 その解決策を提瀺したす[3]で提案および詳现に説明。



ノヌドの条件付き確率の抂念を玹介したす ASDで ルヌトトップ付き 。 ノヌド呚波数 によっお瀺す 。 その堎合、ノヌドの条件付き確率は次ず等しくなりたす。







どこで -ノヌドの祖先 朚の䞭で 。 ルヌト頂点が祖先である頂点の堎合 公匏 次の圢匏を取りたす。







倚くの ツリヌの最初のレベルにあるすべおのノヌドのセットのみです。



各サフィックスに぀いお ひも ツリヌ内でのその発生の皋床の掚定倀は、最倧䞀臎に属するノヌドの条件付き確率の合蚈ずしお衚されたす 長さ 。







次に、ツリヌ内の行の出珟床は次のように掚定されたす。







2぀以䞊のASDの文字列の出珟床を比范する堎合、匏 芋぀かったオカレンスの長さで陀算しお倉曎する必芁がありたす。







この匏に埓っお、䞊の図に瀺されおいるツリヌのいく぀かの行のADSでの発生の床合いを緎習しお蚈算するず、次のプレヌトが埗られたす。

ひも ツリヌ内の文字列の出珟床
ゞャバスクリプト 0.083
ゞヌプ 0.125
スリックゞャンプ 0.111
Jk 0.291
ゞュヌク 0.125
䞊蚘のASDを構築するアルゎリズムは最適ではありたせん。 珟圚、叀兞的な文字列メ゜ッドに基づくアルゎリズム、たずえば、文字列内の郚分文字列を怜玢するためのUkkonenアルゎリズム[4]で読むこずができたすは、ASDを構築するためにより倚く䜿甚されたす。 これにより、ASDの構築ずASDでの行の発生の掚定倀の蚈算の䞡方に費やされる時間を短瞮できたす。 もう1぀の領域は、必芁なメモリリ゜ヌスの削枛です。 これは、特殊な配列など、ツリヌを栌玍するためのさたざたなデヌタ構造を䜿甚するこずで実珟できたす。



フラグメンテヌションの利点



特城的な方法ず比范したこのアプロヌチの利点に泚目したす。 文字のアプロヌチは、バむグラムを蚘号ずしお䜿甚する堎合たたは、さらに長い単語のシヌケンス-トラむグラムなど、堎合によっおはベクトルの次元を倧幅に増加させる堎合でも、テキストの深い「構造」を非垞に悪く感じたす。 さらに、フラグメントアプロヌチでは、単語を通垞の圢匏に瞮小する必芁はありたせんもちろん、倉換芏則のみを䜿甚し、単語圢匏のベヌスを䜿甚しない堎合-単語がASDに含たれおいる堎合、そのベヌスは明らかにいく぀かの堎所に配眮されたすいく぀かの枝。 しかし、最も重芁なこずは、断片化されたアプロヌチは、テキストの軜埮な゚ラヌを蚱容するこずです。 もちろん、これず属性のアプロヌチを孊ぶこずができる特別な方法がありたすが、これはしばしばアルゎリズムを耇雑にしたす。 圓瀟の具䜓的な䟋を䜿甚しお、より詳现に説明したす。



SlickJumpのアフィリ゚むトストアの商品のコンテキストタヌゲティングの技術は、兆候で動䜜する確率論的テヌマモデルLDAディリクレの隠れた配眮に基づいおいたす。 䞀般に、確率論的テヌマモデリングは、独立した広倧で興味深いトピックです。このトピックを取り䞊げるのであれば、この蚘事では取り䞊げたせん。 このアプロヌチにより、ドキュメントの近さを芋぀ける問題぀たり、コンテキストず提䟛された商品を解決し、膚倧な数のドキュメントを解決するこずができたす-そしお、圓瀟の拠点には200䞇を超えるパヌトナヌストアの商品がありたす。



ただし、バナヌのコンテキストタヌゲットでは、その数がパヌトナヌのオンラむンストアの補品の数ず比范しお少ないため、ASDメ゜ッドに基づいお特別に開発されたモデルを䜿甚したす。 これにより、たずえばフォヌラムなど、人々が鶏の足のように曞く堎合でも、高品質のコンテンツタヌゲットを提䟛できたす。 䟋を考えおみたしょう。



スマヌトフォン甚のファッションアクセサリヌを割匕䟡栌で提䟛する電噚店のバナヌがあるずしたす。 そしお、広告プラットフォヌムずしおのモバむル技術に関するフォヌラム。 広告䞻は、バナヌのキヌワヌドのリストを瀺すか、それを提䟛したすバナヌの数が数千の堎合に䟿利です。察応する機胜がありたす。 コンテキストに関連するバナヌ通垞はWebペヌゞ、フォヌラムの投皿などを遞択する必芁がありたす。 2぀のコンテキストタヌゲットモデルLDA属性に基づくずADAに基づくモデルを比范し、関連するバナヌが2぀の異なる状況で芋぀かるかどうかを確認したす人々が正しく曞くずきず間違えるずき。

すべおの人が゚ラヌなしで曞いた堎合、コンテンツタヌゲットの問題は発生しなかったでしょう。 キヌワヌド「充電噚」があり、メッセヌゞテキストのどこかに「充電䞭」ず衚瀺されおいる堎合、暙識を正芏化するプロセスにより、タヌゲティングに問題は発生したせん。 以䞋のスクリヌンショットは、䞡方のモデルが関連するバナヌを芋぀けたこずを瀺しおいたす。







しかし、人がhtcではなくhtsを曞いた堎合原始的な䟋ですが、ゞャンルの叀兞、すべおがはるかに興味深いです。 この単語に関連するバナヌを芋぀けおみたしょう。 LDAモデルは、特別なデバむスを䜿甚しない機胜ベヌスのアプロヌチに基づいおいるため、䜕も芋぀かりたせんたたは適切なものも芋぀かりたせんが、これも悪いこずです。 たた、ASDに基づいた方法は、3文字しか単語に誀りがない堎合でも、優れた結果をもたらしたす。 これは䞋のスクリヌンショットに瀺されおおり、リク゚ストに応じお察応する補品名が衚瀺されおいたす。







おわりに



もちろん、ASDを䜿甚したアプロヌチでは、自然蚀語にずっお非垞に耇雑な同矩語ず同音異矩語の問題は解決されないため、すべおの䞇胜薬ではありたせん。 さらに、関連性の蚈算に必芁なツリヌ内の行の出珟床は、この行の長さに䟝存する時間で蚈算されたす。行が長いほど時間がかかりたす。 そしお、原始的なアプロヌチでは、すべおのドキュメントに察しおADAでこのようなチェックを行う必芁がありたす。 しかし、SlickJumpでは、特別な高次デヌタ構造を䜿甚しお、すべおの文曞に関連する文曞の候補リストを決定し、品質の損倱なしにそれらの包含の皋床を確認し、明らかに䜕もないずころを怜玢しないようにしたす。 私たちはこの方向に積極的に取り組んでいたすが、改善できるこずは他にもたくさんありたす。



今埌数幎間でテキストを提瀺するためのフラグメント法が積極的に開発され、倚くの方向に開発されるこずは間違いありたせん。 そしお、次の蚘事では、泚釈付き接尟蟞ツリヌを構築および衚珟するための最新のアルゎリズムを怜蚎したす。



トピックを読むためのリファレンス



  1. Manning K. D.、Raghavan P.、SchÃŒtzeH.情報怜玢の玹介。 M。りィリアムズ、2011
  2. Mirkin、B. G.意思決定支揎のためのクラスタヌ分析方法レビュヌ。 M .:囜立研究倧孊経枈孊郚出版䌚、2011幎
  3. Mirkin B.G.、Chernyak E.L.、Chugunova O.N.テキスト文曞内の行の出珟床を評䟡するための泚釈付き接尟蟞ツリヌ法。 ビゞネス情報孊。 2012.Vol。3. No. 21. S. 31-41。
  4. Dubov M.S.、Chernyak E.L.泚釈付きサフィックスツリヌ実装機胜。 In党ロシア科孊䌚議AIST-2013 / Otvのレポヌト。 ゚ドE. L.チェルニャック; 科孊的 Ed .: D.I. Ignatov、M。Yu。Khachai、O。Barinova。 M。囜立公開倧孊「INTUIT」、2013幎。S。49-57。
  5. Mirkin BG、デヌタ分析のコアコンセプト。 スプリンガヌ、2012
  6. Korshunov A、Gomzin A.自然蚀語のテキストの䞻題モデリング。 ISP RASの議事録。 2012幎。 S.215-244。
  7. Steven Bird、Ewan Klein、Edward Loper。 Pythonによる自然蚀語凊理。 OReilly Media、2009



All Articles