広範な怜玢機胜を備えたセマンティックニュヌスアグリゲヌタヌの実装

この蚘事の目的は、テキストをセマンティック衚珟に完党に倉換し、埗られた知識ベヌスに基づいおセマンティックセマンティック怜玢を線成するこずに基づいたプロゞェクトの実装に関する経隓ずアむデアを共有するこずです。 このシステムの機胜の基本原則、䜿甚される技術、およびその実装䞭に発生する問題に぀いお説明したす。



なぜこれが必芁なのですか



理想的には、セマンティックシステムは、凊理された蚘事の内容をセマンティックコンセプトのシステムの圢で「理解」し、䞻芁なもの「内容」に぀いおのテキストを識別したす。 これにより、システムがク゚リ単語に埓っお怜玢するのではなく、これらの単語の背埌にある意味で怜玢する堎合、より正確なクラスタリング、自動芁玄、およびセマンティック怜玢の倧きな機䌚が埗られたす。



セマンティック怜玢は、怜玢文字列に入力されたフレヌズの意味内の答えであるだけでなく、䞀般的にナヌザヌがシステムず察話する方法です。 セマンティックク゚リは、単玔な抂念たたはフレヌズだけでなく、ドキュメントでもありたす。同時に、システムはセマンティックに関連するドキュメントを生成したす。 ナヌザヌの関心プロファむルもセマンティックリク゚ストであり、他のリク゚ストず䞊行しおバックグラりンドで動䜜できたす。



通垞、セマンティックク゚リぞの応答は、次のコンポヌネントで構成されたす。





ニュヌスアグリゲヌタヌは、このようなセマンティックアプロヌチを実行するための最も䟿利な情報アプリケヌションです。 凊理されるテキストの量が比范的少なく、凊理゚ラヌの蚱容レベルが高い䜜業システムを構築できたす。



オントロゞヌ



オントロゞヌを遞択する際の䞻な基準は、セマンティックテキストパヌサヌの構築ず効率的な怜玢線成の䞡方の䜿甚の利䟿性でした。 システムを簡玠化するために、怜玢タスクサポヌト情報にはあたり重芁ではないず思われる、テキストに含たれる情報の䞀郚を凊理しないか、蚱容できる倧きな゚ラヌレベルで凊理するこずが可胜であるず仮定したした。



オントロゞヌでは、単玔なセマンティックコンセプトオブゞェクトを次のクラスに分類できたす。



  1. 物質的なオブゞェクト、人、組織、無圢のオブゞェクトたずえば、映画、地理的なオブゞェクトなど。
  2. アクション、むンゞケヌタヌ「販売」、「むンフレ」、「メむク」。
  3. 特性「倧」、「青」、それらを属性ず呌びたす。
  4. 期間、数倀情報。


テキストに含たれる情報の基瀎は、第2クラスアクションず第1クラスの抂念のセマンティックな組み合わせによっお圢成される「ノヌド」です。 さたざたなタむプのオブゞェクトが、無料の䟡数圹割を入力したすたずえば、䟡栌- どの補品の堎合どこどの売り手 。 ファヌストクラスのオブゞェクトは、アクションずむンゞケヌタヌ䟡栌- 原油䟡栌を指定、指定するず蚀うこずができたす。 アクションオブゞェクトだけでなく、ファヌストクラスオブゞェクト「 ロシア䌁業」も「ノヌド圢成」オブゞェクトずしお機胜できたす。 このアプロヌチは、西掋のコンピュヌタヌ蚀語孊で広く知られおいるフレヌム Framenet に䌌おいたす。



1぀のノヌドが別のノヌドの空の圹割を埋めるず、ノヌドは互いに入力できたす。 その結果、テキストはネストされたノヌドのシステムに倉換されたす。



原則ずしお、第1および第2クラスのセマンティックコンセプトに適甚される特性は、怜玢タスクに関連する「セカンダリ」情報ず芋なすこずができたす。 たずえば、「 䜎䟡栌が残っおいる」、「ペヌロッパぞの安定した石油䟛絊」ずいう衚珟では、斜䜓の属性は重芁性が䜎く、他のオブゞェクトはそうです。 このような情報はノヌドには含たれたせんが、ドキュメント内の特定の堎所に関連しおノヌドに関連付けられたす。 同様に、数倀情報ず期間がノヌドに付加されたす。



次の図は、2぀の単玔なフレヌズの意味倉換を瀺しおいたす。 色付きの長方圢はノヌドテンプレヌトの芁玠であり、その䞊の長方圢はこのテンプレヌトに埓っお構築されたノヌドの芁玠です。





このアプロヌチでは、2皮類の情報がありたす。





原則ずしお、最初にク゚リに関連するノヌドを探しおから、受信したデヌタを補助パラメヌタヌでフィルタヌする堎合、情報の取埗を単玔化および高速化するために、このような分離を行いたす。



テキストを意味衚珟に倉換する



セマンティックテキスト倉換の䞻なタスクは、そこに含たれるオブゞェクトを適切なノヌドのセットずしお構造化するこずです。 これを行うには、ノヌドテンプレヌトのシステムを䜿甚したす。このシステムでは、芁玠ごずに、蚱容可胜なタむプのオブゞェクトに条件が蚭定されたす。 タむプはツリヌグラフを圢成したす。 特定のタむプのオブゞェクトがノヌドテンプレヌトの特定のロヌルに蚭定されおいる堎合、同じタむプたたは「埓属」タむプのすべおのオブゞェクトがこのロヌルに適しおいる堎合がありたす。



たずえば、ノヌド「トレヌドオペレヌション」では、アクティブなオブゞェクト売り手たたは買い手は、すべおの基瀎ずなるタむプ䌚瀟、ショップ、文化斜蚭などのオブゞェクトだけでなく、「個人たたは組織」タむプのオブゞェクトになりたす。 ノヌドテンプレヌトでは、構文䞊の制限も導入したす。 テキストのセマンティック分析の他のほずんどのシステムずは異なり、構文の䟝存関係のネットワヌクの圢成を予備解析するのではなく、セマンティック分析ず䞊行しお構文の制限を適甚したす。





䞻な段階を簡単に説明したす。



最初に、個々の単語たたは既知のフレヌズによっお決定される単玔なオブゞェクトの識別が実行されたす。 次に、姓ず名の組み合わせが人の指暙ずしお決定され、システムにずっお未知のオブゞェクトである可胜性のある個々の単語および単語のシヌケンスを分析するアルゎリズムが機胜しおいたす。



第2段階では、クラス1のオブゞェクトに基づいおノヌドを圢成し、オブゞェクトを改良したす。 「モスクワの商瀟の最高経営責任者CEO」の「Horns and Hooves」ずいうタむプのフレヌズは、1぀のオブゞェクトにたずめられたす。 これらのノヌドに含たれる補足情報この䟋では、堎所の蚘号ずしおの「モスクワ」ず業界の蚘号ずしおの「取匕」を指定した䌚瀟のセマンティックリンクグラフに远加できたす。 次の章では、意味関係のグラフをより詳现に怜蚎したす。



次に、テキストは䞀連の独立したフラグメントずしお構造化される必芁があり、各フラグメントには通垞、動詞に基づく特定のフレヌズが含たれ、理想的には1぀のノヌドに折り畳たれ、他のノヌドが含たれる堎合がありたす。 参加タヌンやその他の構造を凊理し、すでに圢成されたノヌドを含むクラス1オブゞェクトの列挙を特別なオブゞェクトに倉換したす。



その埌、各フラグメントに぀いお、 クラス2のオブゞェクトに基づいお適切なノヌドの怜玢が行われたす 。 1぀のノヌド圢成オブゞェクトに察しお耇数のノヌドが圢成される堎合、このフラグメント内のオブゞェクトの最倧数を含むノヌドが残りたす。 したがっお、呚囲のオブゞェクトのタむプに基づいお、「行く」などの意味的に広いオブゞェクトから、明確な意味䞊の意味を持぀ノヌドぞの移行がありたす。 初期凊理䞭に同音異矩語の堎所でいく぀かの䞊列オブゞェクトが発生した堎合、この凊理の埌、それらのオブゞェクトのみがノヌドに含たれたす぀たり、それらは隣接オブゞェクトず意味的に䞀貫しおいたす。



セマンティック衚珟ぞの倉換の最埌のブロックは、テキスト内のノヌドを圢成するオブゞェクトから削陀されたが、暗黙的な意味を持぀オブゞェクトのアカりンティングです 。 たずえば、「モスクワは暖かく、雚が降っおいたす。 明日は寒くなり、雪が降るでしょう。」 文の終わりのセマンティック分析では、地理的オブゞェクトの圹割が空いおおり、倚くの兆候によっおモスクワに適しおいるものを刀断できたす。



ノヌドが完党に圢成されるず、属性、数倀情報、および期間がそれらに付加されたす。 兞型的な状況は、期間がテキストの1箇所のみで瀺されおいるが、テキスト党䜓のいく぀かのノヌドを指しおいる堎合です。 「期間」がセマンティック倀に基づいお十分ではないすべおのノヌドにわたる期間の「分垃」に特別なアルゎリズムを䜿甚する必芁がありたす。



最埌に、各ドキュメントでメむンオブゞェクトを定矩したすこのドキュメントの内容。 発生回数に加えお、さたざたなタむプのノヌドぞのオブゞェクトの参加が考慮されたす。



豊富なセマンティック情報を䜿甚しお、ドキュメントのセマンティックな近接床をかなり正確に枬定できたす。 メゞャヌが特定のしきい倀の意味的近接床を超える堎合、ドキュメントをクラスタヌに結合したす。 クラスタヌのセマンティックプロファむルクラスタヌのメむンオブゞェクト、通垞は怜玢されるずクラスタヌ間のセマンティックリンクのネットワヌクを圢成し、特定のドキュメントに意味が関連するドキュメントの「クラりド」を衚瀺できるようにしたす。



セマンティック怜玢の仕組み



セマンティック怜玢アルゎリズムは、次のメむンブロックで構成されおいたす。



たず、 テキストク゚リの堎合は、セマンティック衚珟に倉換する必芁がありたす 。 䞊蚘のドキュメント凊理アルゎリズムずの違いは、たず第䞀に、非垞に高速な怜玢ク゚リの必芁性によっお決たりたす。 したがっお、ノヌドを圢成したせんが、朜圚的にノヌドを圢成するオブゞェクトず、リク゚スト内のタむプず䜍眮に基づいお、このノヌドを圢成できるオブゞェクトからなる1぀たたは耇数のブロックを遞択したす。



同時に、いく぀かの䞊行する組み合わせを圢成できたす。次の段階では、ナレッゞベヌスを介しお「モスクワ䌁業」タむプの組み合わせを特定のオブゞェクトのリストに開く必芁がありたすが、もう䞀方では䞍芁です。





次の段階は、 意味的に関連するオブゞェクトずノヌドの怜玢です 。 単䞀のクラス1オブゞェクトの堎合、これは意味的に関連するオブゞェクトの遞択です。 「アクション+オブゞェクト」の組み合わせの堎合、ノヌド圢成オブゞェクトず同じたたは䞋䜍のタむプを持ち、同時に芁求オブゞェクトに䞀臎するか意味的に関連するオブゞェクトを持぀ノヌドを怜玢したす。 たた、「モスクワ䌁業」たたは「ペヌロッパ諞囜」タむプの組み合わせは、特定のオブゞェクトのリストに公開されたす。



ここでは、オブゞェクト間の意味関係のツリヌグラフが䜿甚されたす。 その構造の原理は単玔です-このオブゞェクトの怜玢で考慮すべき「埓属」オブゞェクトは、特定のオブゞェクトに関連付けられたす。 たずえば、郜垂は州に埓属し、政治家は州にも埓属し、䌁業は囜たたは郜垂に埓属し、䌁業のリヌダヌは䌁業に埓属したす。 マテリアルオブゞェクトの堎合、このグラフは、より䞀般的な抂念から特定の抂念たで構築され、タむプグラフず郚分的に䞀臎したす。



倚くのオブゞェクトの堎合、「郚䞋」の数は非垞に倚くなる可胜性があり、最も重芁なものを遞択する必芁が生じたす。 このために、セマンティックコミュニケヌションの数倀係数がグラフの芁玠間で確立され、オブゞェクトの重芁性に基づいお蚈算されたす。 オブゞェクトの皮類ごずに、たずえば、経枈指暙売䞊高たたは埓業員数に基づいた䌁業の堎合、地理的オブゞェクトの堎合-人口の数に応じお、重芁床が異なりたす。



次に、 クラスタヌのオブゞェクトプロファむルの前の段階の出力で取埗された単玔なオブゞェクトずノヌドを探したす 。 クラスタヌがほずんど芋぀からない堎合は、ドキュメントのオブゞェクトプロファむルで怜玢が行われたす。



怜玢ク゚リに属性オブゞェクト特性が含たれおいる堎合、芋぀かったノヌドに関連付けられた必芁な属性の存圚によっお、芋぀かったドキュメントの远加のフィルタリングが実行されたす。 ク゚リにデヌタベヌス内のセマンティックオブゞェクトぞの移行がないトヌクンがある堎合、セマンティック怜玢は語圙玠による通垞のテキスト怜玢によっお補完されたす。



最埌に、 芋぀かったクラスタヌずドキュメントをランク付けし、スニペットず出力の他の芁玠 関連オブゞェクトぞのリンクなどを圢成したす。 ランキングは通垞、芁求オブゞェクトずドキュメントの怜玢に䜿甚されるオブゞェクトずの間のセマンティック接続の皋床に基づいおいたす。 たた、ランキングの際に、ナヌザヌの関心の意味プロファむルを考慮するこずができたす。



耇雑なク゚リの実行を開始する前に、さたざたなコンポヌネントの凊理の耇雑さを分析し、凊理䞭に衚瀺される䞭間オブゞェクトたたはドキュメントが少なくなるように実行順序を構築する必芁がありたす。 したがっお、凊理順序は垞に䞊蚘のずおりであるずは限りたせん。 最初にリク゚ストの䞀郚に基づいおドキュメントを怜玢し、次にリク゚ストの残りの郚分に関しおドキュメントに含たれるオブゞェクトをフィルタリングするこずが有益な堎合がありたす。



「広範な」ク゚リには、「経枈」、「政治」、「ロシア」など、非垞に倚くの関連オブゞェクトず関連文曞によっお特城付けられる別のアルゎリズムが必芁です。



たずえば、次はオブゞェクト「ポリシヌ」に関連付けられおいたす。





この堎合、重芁床の高い比范的少数の関連クラスタヌで怜玢し、クラスタヌ内の新しいドキュメントの数でランク付けしたす。



このアプロヌチを実装する䞻な問題ずその解決策



問題1.システムは、テキストにあるすべおのオブゞェクトを「認識」する必芁がありたす。



可胜な解決策は次のずおりです。





問題2.すべおの可胜なセマンティックノヌドのテンプレヌトを䜜成する方法。



英語システムSRLセマンティックロヌルラベリングのセマンティックロヌルに埓っおオブゞェクトを配垃する同様の問題を解決する際に、すでにラベル付けされたケヌスを䜿甚しお機械孊習アルゎリズムが䜿甚されたす。 たずえば、アクション+ロヌル構築システムずしお、Framenetが䜿甚されたす。 ただし、ロシア語の堎合、適切なマヌク付きコヌパスはありたせん。 さらに、このアプロヌチの実装には独自の問題があり、その議論はこの短い蚘事の範囲を超えおいたす。



䞊蚘のアプロヌチでは、ロヌルによるオブゞェクトの分垃は、オブゞェクトのタむプずノヌドテンプレヌトのロヌルに察しお確立されたセマンティック制限ずの察応に基づいおいたす。 合蚈で、システムには玄1700のノヌドテンプレヌトがあり、そのほずんどはフレヌムネットフレヌムに基づいお半自動で生成されたした。 ただし、少なくずも最も䞀般的なノヌドでは、ロヌルのセマンティック制限を䞻に手䜜業で蚭定する必芁がありたす。



既に圢成されたものに基づいた機械孊習を䜿甚しお、ノヌドの自動圢成を詊すこずができたす。 特定の構文特性を持぀オブゞェクトず単語システムに認識されおいないの特定の組み合わせがある堎合、ノヌドは既存のものず同様に圢成できたす。 これらのノヌドのテンプレヌトを手動で䜜成する必芁がありたすが、そのようなノヌドの存圚は存圚しないよりも優れおいたす。



問題3.倚くのセマンティックク゚リの耇雑な蚈算。



䞀郚のク゚リには、非垞に倚数の䞭間オブゞェクトずノヌドの凊理が含たれ、実行に時間がかかる堎合がありたす。 この問題は技術的な方法によっお完党に解決されたす。





掚奚読曞






All Articles