GoogleはInvisible Networkのインデックスを作成しようとしています

クロールとインデックス作成チームの開発者は、最近始まった重要な実験を報告しました。 彼らはクローラーをアップグレードし、HTMLフォームのインテリジェントな処理技術のテストを開始しました。 アップグレード後、クローラーロボットは、さまざまなサイトでのフォームの処理に応じて生成され、他の方法では取得できない隠しURLおよびWebページを取得する方法を学習する必要があります。



実際には、このテクノロジーは次のように機能します。要素と会うと、フォームプロセッサは多くのテストリクエストを実行します。 テキストフィールドの場合、フォームが配置されているこのまさにサイトからの単語がクエリとして自動的に選択されます。 チェックボックスとドロップダウンメニューの値は、ページコードから直接取得されます。 その後、プログラムは受信したURLの処理を試みます。 ページに実際にコンテンツが含まれている場合は、一般的な検索インデックスへのインデックス作成のために送信されます。



見かけの単純さと自明性にもかかわらず、HTMLフォームの処理は、いわゆる「Invisible Network」(ディープWeb)を明らかにするための非常に重要なステップです。 これらは、法的データベース、さまざまなディレクトリ(電話、住所、価格)およびその他のデータ配列です。 一部の推定によると、Invisible Networkには数千億ページが含まれており、すべてのインターネットコンテンツの90%をカバーしています。 これは、最も価値のあるコンテンツが隠されている場所であり、標準の検索エンジンではまだ利用できないことに注意してください。



確かに、クローラーはフォームフィールドにパスワードやその他の個人情報を入力することを禁じられているため、いずれにしても、Invisible Networkの巨大な部分は依然としてGoogleの手の届かないところに残ります。これは開発者とGoogleの管理者の決定です。 しかし、非常に多くのサイトは、サイトへの無料登録後にのみ情報へのオープンアクセスを提供します。 しかし、法的観点から見ると、Googlebotには登録専用の架空の人物を作成する権利がありません。これは詐欺であり、 常に友好的なguglobotの原則に反するためです



ちなみに、知識豊富な人々は、新しいクロールテクノロジーの足がどこから来たのかをすでに説明しています。 最も可能性が高いのは、Google 2005年に買収した小規模企業Transformicの開発チームによって作成されたものです。 過去2年半の間、彼らは一生懸命働き、開発を改善し、Googleクローラーへの統合を支援しました。



All Articles