Yandexのロボットは希望を考慮に入れます

最近、Habréで、サイトクロールのポリシーと、uaprom.netおよびruprom.netサーバーでのYandexロボットとの事件について議論されました。

次のヒントを提供してくれたすべての人に感謝します。それらを考慮に入れます。 uaprom / rupromの場合に関しては、ロボットのい行動に関するデータは真実ですが、全体像を反映していません。



1. Yandexロボットは、uaprom.netの8506(8,650)のサブドメインとruprom.netの6896(6,800,96)のサブドメインから、19,238ページを送り出しました。



2.各ホスト(〜15000のうち)に対して、1.1秒または2秒以内に(ホストのサイズに応じて)1回だけ呼び出しが行われました。



uaprom.net/robots.txtおよびruprom.net/robots.txtはCrawl-Delayを0.5に設定し、ホストの負荷を増加させました(デフォルトでは、Crawl-Delayは1.1または2秒です)。



3. ruprom.netおよびuaprom.netのすべてのサブドメインは、2つのIP上にあります。 Yandexの自動アルゴリズムはruprom.netとuaprom.netをホスティングサービスとして識別しました(これらは信頼できるホスティングサービスとして位置付けられています。ruprom.net / tour -4およびuaprom.net/tour-4を参照してください)。



信頼できるホスティングのために、多くのサイトがあるサーバー上で、IPの1秒あたり12リクエストを超えない負荷を作成しました。



4. User-AgentはYandexSomethingに与えられましたが、それは私たちの責任です。 それはニュースではなく、検索ロボットの1つであり、デフォルトビューの変更を忘れていました。 エラーは修正されました。おかげで、ロボットは隅に置かれました。



要約:ruprom.netおよびuaprom.netをホストしているIPで作成された負荷は、ほとんどのホスティングをバイパスするときに許可された制限を超えていませんでした。 小規模なホスティングでは冗長になる可能性があることを理解しており、大規模なホスティングと小規模なホスティングの負荷をより適切に区別しようとします。 Runetサーバーが、再教育されたロボットを好意的に歓迎することを願っています。



All Articles