情報の取得、検索結果を表示する最適な方法の発見などについて

検索結果を表示するための最良の方法を見つけるタスクは、候補作品の私の主要なトピックです。 今日は、中間研究の結果と、作業で使用されたアプリケーションとSDKを共有したいと思います。



この記事を書く決定は、トピック「Wikipediaを使用したテキストの意味分析」に関するサイクル「情報検索とデータ分析」のセミナーを見た後に行われました。



レポート表示、レポートダウンロード、または他のレポートのスケジュールを表示 できます





ワークショップからの短い科学的発見



セミナーの内容と得られた主な結果を以下に簡単に説明します。



このレポートでは、セマンティック検索の新しいアプローチと方法、英語版ウィキペディアのデータに基づいてセマンティックな近接性を評価する原則を検証しました。



レポートで使用される主な原則:用語(関連する記事で説明されている)にはいくつかの意味があるため、最も関連する記事を強調する必要があります。 用語(記事)には、テキストの本文内とブロック内の両方にある他の用語(記事)へのリンク、リンクなどが含まれます。



記事Aと記事Bの間の意味的な距離は、記事Aと記事Bで参照される一般的な記事の数を数えることで計算できます。







図1



セマンティックアフィニティは、以下で説明する方法の重要なポイントです。 昨年説明したSimRankメソッド[1]は成功したとは見なされなかったことに言及したいと思います。



著者から: セマンティックな近接性に加えて、2つのWebドキュメント間の距離を決定するために、シングルメソッドまたはピアソンのxi-squareテストを使用できます。 また、この問題については、いくつかのセマンティック機能に基づいてWebページの類似性を評価する一般的な方法を説明する「Webページの類似性を評価する方法」[2]が公開されています。



次に、特定の用語のキーワードを抽出し、いわゆる コミュニティ(コミュニティ)またはセマンティックグラフ[3]:







図2



これらの列の本質は、単一のコミュニティに含まれる用語(記事)が特定の一般的なカテゴリに含まれることです。 つまり 古典的なテキスト分類の問題は解決されています。 このカテゴリは、選択した用語を含む共通の「親」カテゴリを定義することで計算できます。 コミュニティを決定するために、クラスタ化方法が使用され(クラスタの数とクラスタサイズを設定する必要はありません)、小さなランクのコミュニティは破棄されます。



実際のセマンティックグラフの例:







図3



研究の過程で、「良い」コミュニティのランクは他のコミュニティよりもはるかに高く、関連性が低いことが判明しました。







図4



このアプローチでは、これらのブロックの用語から取得したコミュニティのランクが小さいため、計算中に削除されるため、非コアコンテンツ(上、下、参照)を除外できます。



コメントとコメント



レポートを見た後、私は自分の仕事で多くのことを行い、結果のいくつかは非常に共鳴しているので、デジャヴの感覚がありました。



まず、説明した手法と方法の弱点に焦点を当てたいと思います。





以下では、上記のメソッドのコンテキストでの独自の開発について説明します。



高度なクラスタリング手法



この方法は、古典的なk-meansアルゴリズムの改良版であり、実装の点では単純ですが、正確ではありません。 このアルゴリズムが正確でない理由は2つあります。アルゴリズムは、開始点の選択とクラスターの数に敏感です。 したがって、不正確なデータが入力された場合、結果の品質が望まれます。



彼の研究「標準法則に従って分散されたクラスターに基づくクラスタリング手法」[4]では、クラスター内のオブジェクトの分布の法則をチェックすることが提案されました。 クラスターが特定の法律に従って配布されている場合、それを残します。そうでない場合、2つの子会社に分割し、特定の法律に従って配布されたすべてのクラスターが見つかるまで、またはクラスター数の制限を超えるまで、検証プロセスを続行します。 したがって、クラスターの数の問題を解決します。 開始点を選択する問題は、大きなクラスター内で最大限に分離された点を開始中心として設定することで解決されます。 テストデータでは、メソッドは95%の精度を示しました。



サイト情報ブロックの重要性



私たちが現代のウェブページについて話すとき、私たちは実際に来た主なコンテンツだけでなく、側面、下部などに多くの追加情報も意味します。 これらの情報ブロックには、リンク、統計、関連記事、広告のリストなど、さまざまな目的があります。 このコンテンツの重要性が主なものよりもはるかに低いことは明らかです。



彼は、情報ノイズのWebページをクリアする方法を開発しました[5]。これについては、以前一般書いた [6]。 重要な点について説明します。「重要な」ブロックを決定する手順は、ファジークラスタリング手法に基づいており、簡単な言葉では、最大の数値評価(他とは非常に異なる)のブロックが検索されます。 実際、マキシム・グリネフが語った「良い」コミュニティを識別するために同じアプローチが使用されました(図4を参照)。



プロトタイプはcodeplexからダウンロードできます。







図3-用語の関係のグラフを詳しく見てみましょう。 実際、これは特定の用語を担当するWebページの関係のグラフに過ぎません。



サイト間の関係を評価する同様のシステムを開発しましたが、今回の場合、データソースとして検索エンジンを使用します(結果を取得する検索エンジンと基本的な違いはありません)。



マイクロソフトの要求に応じたシステムの動作の実際の例を以下に表示できます。







図5(この場合、浅いリンク分析が選択されています)



よく見ると、さまざまなカテゴリに属していることを示す「コミュニティ」も表示されます。 したがって、キーワード(または各Webページの他のプロパティ)を強調表示することにより、実行時に検索結果をクラスター化できます。 これはウィキペディアだけでなく、ウェブ全体で機能することに注意してください。



検索結果を表示する最適な方法を見つける



上記のすべては重要ではないので、今私は最も興味深い部分に来ます。



関係のグラフ、各Webページに関する情報(Google PageRank、Webページ間の距離、ページの「重み」)を取得したら、グラフで検索結果を表示する最適な方法を見つけることができます。 つまり 言い換えると、特定のアルゴリズム(重み)に従ってランク付けされたサイトの線形リストではなく、Web検索の結果を表示する必要がある順序に関する一連の推奨事項を取得します [7]



目標を達成するために、ユーザーの行動、つまりサーフィン中のランダムな遷移をシミュレートする修正されたantアルゴリズムを使用します。 各パスは特定の式を使用して評価され、最終的に最適なパスが得られます(情報の量、複製された情報の量、および他のいくつかのパラメーターが考慮されます)。



さらに、ユーザーは以下を選択できます。





結論



したがって、考慮された方法とアルゴリズムにより、WikipediaだけでなくWeb全体についての知識を得ることができます。 セミナーで提示され、私たちが受け取ったアイデアと方法は、全体的に一致し、いくつかの点でそれらを上回っています。 欠点の中でも、Yandexが問題の本質ではなく、調査と形式に取り組む必要があるため、大量のデータでメソッドをテストできないことを挙げられます。



この記事が情報検索の分野における状況の評価に役立つことを願っています。



PS私は、研究に使用されたほとんどすべてのアプリケーションが書かれた助けを借りて、開発されたData Extracting SDKに言及せざるを得ません。



PSS何かが明確ではない場合、またはいくつかの方法(アイデア)をより詳しく知りたいという要望がある場合-コメントを書いて、それらに答えようとします。





[1] Dmitry Lizorkin、Pavel Velikhov、Maxim Grinev、Denis Turdakov SimRank計算の精度推定および最適化手法、VLDB 2008

[2] Webページの類似性評価方法

[3] Maria Grineva、Maxim Grinev、Dmitry Lizorkin。ノイジーおよびマルチテーマドキュメントから主要な用語を抽出。 WWW2009:第18回国際World Wide Web会議

[4] KrakovetskyO.Yu。 通常の法則で分割されたクラスターに基づいてクラスター化する方法//国際科学技術ジャーナル「情報技術とコンピューター工学」No. 1(11)。 -2008 p。 -p。56-60。

[5] 情報ノイズのWebページをクリアする方法

[6] V.M. ドゥボヴォイ、O.Yu クラコヴェツキー、O.V。 サンダー。 サイトの重要な情報ブロックの評価の因子分析// Vinnitsa Polytechnic Instituteのニュース。 -2008。-No. 6。 -C. 103〜107

[7] Volodimir Dubovoi、Oleksandar Krakovecki、Olga Glon最適なグルーミングを奨励する方法ヒューリスティックアルゴリズムに基づいたWebジョークの結果を調べます



All Articles