非構造化データストリームの並べ替え

前の記事で、 YPAG.RUでニューラルネットワークを使用してセクションごとに企業を分類する方法を書きました。

多くの人がアルゴリズムの説明を求めました。 データをソートするための普遍的なアプローチを説明します。



1.追加されたテキストを分析し、その中のキーワードを決定する必要があります。 キーワードを決定するためのアルゴリズムは多数ありますが、 Zipfの法則を使用しましたが、ちなみに、このトピックに関する卒業プロジェクトを作成する必要がありました。



2.キーワードを決定した後、すでに構造化されたドキュメントのデータベースでこれらのキーワードに関連する検索を行う必要があります。



3.最も関連性の高い20のドキュメントが選択され、セクション評価がそれらに基づいて構築されます。 その後、この選択から最も人気のあるセクションが選択されます。 このしきい値は厳密に個別に構成されており、5つ以上のしきい値があります。



4 YPAG.RUでは、セクション内のドキュメントの位置がまだ割り当てられています。 位置は次のように計算されます。見つかったセクション文書の位置が決定され、平均位置が計算されます。 会社が訪問者に興味がある場合-位置は徐々に成長しています。



このようにして、データを効率的に構造化できます。 エラーは3〜5%です。

テキストが正確に表現されていない場合、主な問題が発生します。 例:一括購入。 何が、どのように、はっきりしていない。



All Articles