DIY検索エンジン

検索エンジンのアイデアはいつも私を悩ませます。特に、最初はクリエイターがこの技術の異常な見通しさえ疑っていなかったという事実。

私は実際にそれが何であるかを調査することに決めました-検索エンジン。 彼をnanorit.comと呼んだ。 しかし、実験のために、私はグーグルからよく知られたAPIを取りませんでしたが、自分で作成することにしました。

はじめに、ドメインデータベースをダウンロードし、約70,000の一意のサイトを取得しました。 次に、1つのサイトに順番に接続する検索ロボットを開発し、このサイトに属するメインページからすべてのリンクをダウンロードしました。 このような制限を設けて、ロボットが大規模なサイトやフォーラムの宣伝の荒野で動かなくなることのないようにしました。 しかし、アルゴリズムをさらに最適化すると思います。 次に、インデックス付けされたサイトにインデックス日付のラベルを付けて、次のサイトに進みます。



これまでに達成したこと-現在、データベースには約150万のドキュメントがあり、ドキュメントの本文の読み込みに非常に費用がかかるため、ヘッダーのみをダウンロードします。 データベースにはすでに500 MBのディスク容量が必要です。専用サーバーを使用せずに、単純なホスティングでホストしています。

次に、私は科学の友人に私の考えについて話し、一緒に勉強しました。 彼は言語分析について教えてくれました。 すべての見出しを個別の単語に分割し、これらの単語のレジスタと関連テーブルをコンパイルすることにしました。各見出しには単語識別子のリストがあります。 その結果、インデックスの単語は139000で、ヘッダーの接続詞は2,184,204でした。 次に、このインデックスの検索アルゴリズムを作成しましたが、「%keyword%」のように検索した場合よりも結果が悪かったので、当面はこの方向でアルゴリズムを開発しないことにしました。

次に、ユーザーの関心を確認することにし、検索クエリのランキングを追加しました。クエリごとにヒット数をカウントします。 最も興味深いのは、検索エンジンも「クリック」し始めたということです。検索エンジンが禁止される危険性がありますが、Yandexはまだインデックスを作成しています。

これで、サイトをインデックスに追加する機能を追加しました。また、ユーザーは興味を示し、定期的にサイトを追加しています。

私はどんな結論を得ましたか-神は鍋を燃やしません。 これが主な結論です。 私は今、アイデアを開発し、検索エンジン専用のサーバーを購入すると思います。 さて、クラスターデータ処理のアーキテクチャを研究し、リクエスト処理の速度を最適化することをさらに計画しています-率直に言って、Googleと比較して非常にゆっくりと見ています。



All Articles