ビッグブラザーはあなたまたはインターネットの暗黒面を見ています

UPD: PHPBBのせいです-ボットを登録ユーザーと見なし、読み取り許可を与えます。 どうもありがとう

グーグルはあなたを見ています 数年前、Googleが「インターネットのダークサイド」をインデックス化することをどこかで読みました。これらはすべての種類のデータベース、クローズドライブラリ、一般に有料サイトです。 つまり 少なくともユーザー名とパスワードを入力する必要がある表示用の情報。 一部の推定によると、インターネット上の「暗い」情報は90〜98%になる可能性があります。

それから私は喜んだ-私が使ったのと同じexperts-exchange.com (Endキーについて知っている)と同様のサイトを見ることができるだろう。



しかし最近、私は組織の内部フォーラムを作成する必要がありました。 組織は非常に大きく、全国に分散しています。 タスクは、組織内で地理的に分散した従業員の簡単なコミュニケーションをとることでした。 内部情報、競合他社へのアクセス、軽度に言えば望ましくない情報について議論することが計画されていました。



私がしたこと:

しかし、1週間後、グーグルボット、yandexbotなどのログであまり知られていないクモに気付きました。 これは私を悩ませませんでした-DNS統計を表示するサービスがたくさんあります-それらを通して、検索エンジンはフォーラムに行くことができました。

しかし、1か月後、Googleがログでフォーラムのインデックスを作成していることに気付きました。

 66.249.71.178--[時間] "GET /robots.txt HTTP / 1.1" 404 2152 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com/bot.html)"
 66.249.71.178--[時間] "GET / HTTP / 1.1" 200 17743 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com/bot.html)"
 66.249.71.178--[時間] "GET /viewtopic.php?f=x5&p=y96 HTTP / 1.1" 200 26238 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com /bot.html) "
 66.249.71.178--[時間] "GET /viewforum.php?f=x5 HTTP / 1.1" 200 13482 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com/bot .html) "
 66.249.71.177--[時間] "GET /viewforum.php?f=x0 HTTP / 1.1" 200 14550 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com/bot .html) "
 66.249.71.178--[時間] "GET /viewtopic.php?f=x5&p=y34 HTTP / 1.1" 200 15503 "-" "Mozilla / 5.0(互換性; Googlebot / 2.1; + http://www.google.com /bot.html) "




少しショックを受けました。 どうして? Googleはどのようにしてフォーラムにアクセスしましたか? 現時点では、クエリ「site:forum.of.site.com」に対して最初の2つのリンクが表示されます。

robots.txtをすばやく追加しました

	ユーザーエージェント:Googlebot
	不許可:/
	


しばらくして、ボットはrobots.txtを再読み取りしましたが、インデックス作成を続けました。 1週間後、Googleのキャッシュに数十ページが表示されました。



インデックスとキャッシュから情報を削除する方法に関する情報を探し始めました。

HTMLに行を追加することをお勧めします

	 <メタ名=「ロボット」コンテンツ=「noarchive」>
	 <メタ名= "googlebot"コンテンツ= "noarchive">
	


それはすぐに行われましたが、それでもインデックス作成は継続され、キャッシュ内のページが増加しました。



検索を続けました-Webページを削除するためのアプリケーションを作成するツールが見つかりました。サービスは一度に1つのURLしか削除できず、多くの質問をするので便利ではありませんが、誰でもアプリケーションを送信できます。

幸いなことに、サイト全体を削除する方法を見つけました-ツールバーでサイトに追加し、管理を確認してから削除できます。 おそらく近い将来、需要の専門家であるSED(Search Engine Deoptimizator)になるでしょう:)?



しかし、主な疑問は残っています。



Googleはどのようにしてアクセスしましたか?



前提は1つだけです。従業員の1人がGoogleデスクトップを使用しています -(これはユーザーエージェント文字列で示されています)。 どうやら、GoogleデスクトップはCookieを送信します。 基本的にクッキーを盗みます。 彼はすべてのフォームデータを渡すとは思わない-それはスキャンダルであり、ボットからのPOSTリクエストはありません。



UPD: PHPBBのせいです-ボットを登録ユーザーと見なし、読み取り許可を与えます。 どうもありがとう



All Articles