Web 2.0時代のページランク-パート1

画像

選挙の予測がより正確であることが判明した人を見つけるために、選挙が行われます。 (c)ロバート・オーベン

検索エンジンの開発に対するGoogleの貢献を評価するには、約20年前に移動する必要があります。 これらの問題の時代には、インターネット上の情報量は現在よりも数百倍少なかったが、適切な情報の検索ははるかに困難でした。 ユーザーは、検索エンジンのWebサイトで長時間を費やし、検索エンジンに対して別のクエリを作成しようとしても、目的の結果が得られないことがありました。 お金のためにインターネット上で検索サービスを提供する機関さえありました。 検索エンジンのd明期、ページの重要性は、htmlマークアップ、用語の数、見出し、ページ上のフォントの太さなど、多くの主観的な要因によって決定されました。 特別に作成されたページまたは必要な見出しと用語で満たされた元のページのコピーが上部に表示されることは珍しくありません。 さらに、人の観点からは、まったく意味がありませんでしたが、検索エンジンで非常に高い評価がありました。



1997年、スタンフォード大学の2人の学生が有名なページランクアルゴリズムを提案しました。 実際、これはエンジニアが長年の沼地から飛び出し、1つの簡単なステップで問題のスタックを閉じ、CEOと検索エンジンの間の戦いの結果を今後何年も前もって決定するシンプルでエレガントなソリューションを見つけたまれなケースです。 ページランクの本質は、ウェブの世界における「民主主義」です。 別のサイトへのリンクを含むサイトの各ページが「投票」します。 したがって、最も頻繁に引用される、主要な情報源の信頼できるサイトがトップになります。 ページランクは、人気の高いサイトをランク付けするのに役立ちます。これは、水中の気泡のように、人気のない多数のサイトの「意見」に基づいて表示されます。 このようなスキームは、小さなインターネットサイトが支配的な2000年代初期のエコシステムでうまく機能し、そのコンテンツにはウェブマスターとコンテンツマネージャーが参加していました。 Web 2.0の出現により、インターネットユーザー自身がインターネット上の主要な情報源となり、インターネットが変更されました。 まず、ユーザーからの膨大な情報の流れにより、数百万、時には数千億のページを持つ巨大なサイトが出現しました。 第二に、サイトには、検索エンジン用の非構造化および非適合化された多数の情報、多数のローカルミーム、構文エラーが含まれるようになりました。 トピックが作成されると、たとえば、ある見出しの下のフォーラムまたはブログで、ディスカッションのために別の領域に簡単に移動できます。 このようなサイトで検索する場合の主な問題は、サイトの権限を判断することではなく、サイト自体内のページを正しくランク付けすることです。これは、数百および数千のページが検索クエリに該当するためです。 もちろん、このような場合、ページランクは機能せず、多くの検索エンジンは、見出しやタグなどの分析など、「Googleより前」の時代のトリックを使用します。



次のパートでは、機械学習を使用してこの問題を回避できるかどうか、このサイトでの検索の例を使用した独自の用語を使用して、サイト内でページをランク付けする方法を説明します。



All Articles