ヤンデックスの願い

私たちのサイトの1年以上の運用について、Yandexには次のような要望があります。これにより、この検索エンジンの作業が、インデックスを作成するインターネットサイトにより親しみやすくなります。

これらの願いにはそれぞれ、その重要性を主張する別個の物語があります;さらに、これらの願いの多くは実現するのがかなり簡単です。



十分に大きいクロール遅延「デフォルト」を使用してください

判明したように、サイトが崩壊すると、YandexSomethingロボットは毎秒最大12ページをダウンロードしました。 はい、クロール遅延はありませんでしたが、検索エンジンロボットが毎秒多くのリクエストを行うことを許可しないでください。このパラメーターをデフォルトで少なくとも1秒に設定すると、このような問題を回避できます。 YandexSsomethingの存在を認識していないサイトは、これに悩まされるべきではありません。



別のユーザーエージェント:YandexSomethingとYandex / 1.01.001

ロボットのDoS攻撃に対する私たちの反応は、robots.txtで禁止することでした。特に検索後、何らかのニュースボットであることがわかりました。 それは論理的でしたが、非常に愚かであることが判明しました。 (ところで、これはドキュメントに間接的に示されています )、これはYandex / 1.01.001が私たちの訪問をやめるという事実につながりました(Yandex / 1.03.003はうまくいきました)。 1週間後にユーザーからこのことを学びました。その結果、サイトはYandexから追い出されました。 トラフィックは5〜6日間遅れて落ち始めたため、この監視を検出できませんでした。 サポートサービスがこの動作の不整合を認識し、改善することを約束したことは注目に値します。 さらに、Twitterの灰色は、クロール遅延を設定する方が正しいことを示唆しました。



クロール遅延が設定されている場合でも、コンテンツを返す時間を考慮してください

このサイトでは、メインドメインexample.netに加えて、company.example.netという形式のサブドメインが使用されます。roraws.txtを設定しても、robots.txtとrawl-delayはすべてのサブドメインで異なるため、ロボットによるDoS攻撃から保護されません(数十個あります)私たちの場合は1,000)、そして正式には、ロボットは同時に10,000のサイトを訪問することにより、任意の遅延値を持つサイトを配置する権利を持っています。 今夜、1秒あたりのリクエスト数がクロ​​ール遅延の3倍であったため、この理由でサイトは数回再起動されました。 方法はわかりませんが、Googleはすべてを正しく実行し、サーバーに大きな負荷をかけないだけでなく、ページを均等にダウンロードするだけでなく、コンテンツが送信された時間を考慮し、同じIPアドレスから多くのページを同時にリクエストしないようにしています。 ?



ページを均等にダウンロードする

私たちの場合、ロボットは非常に不均一にメインドメインに入ります。 ロボットはメインドメインに入り、数時間非常にアクティブにインデックスを作成し、サブドメインの処理に10〜30時間かかります。 情報は常にサイトに追加されているため、新しいコンテンツへのリンクがある最新の更新を含む特別なページがあります。 10〜30時間ごとに1回入力すると、ロボットは多くのことを見逃し、その結果、サイトがYandexインデックスに数か月間表示されないことがあるという苦情につながります。 繰り返しになりますが、Googleはこれらのページを数か月で発見し、定期的にダウンロードします。その結果、インデックス作成の3日以上前に発生することはほとんどありません。 Yandexがサイトのインデックスを作成する月が期限ではないことは明らかですが、これと戦うことができると思います。



新しいサイトでより忠実で予測可能に

すべてが一度開始され、すべてがトップサイトからのリンクを一度に持っていたわけではありません。私たちの場合、メインドメインのインデックス作成を開始するのにYandexが2ヶ月以上かかりましたが、これはサポートサービスとの通信後にのみ開始され、同僚の経験から判断するとこれは一般的なことです、独自のコンテンツと外部リンクの存在にもかかわらず。 繰り返しますが、ここでGoogleはよりフレンドリーに動作し、ほぼすぐに追加され、ページ数とインデックス作成の速度を徐々に均等に増加させました。はい、検索は高くありませんでした。



このリストの目的は、Yandexが悪いこと、誰かが良いことを示すことではありません。 Yandexは、おそらく最も技術的に高度で成功したプロジェクトであるRuNetの検索のリーダーです。これは、多くの人が検索が優れていると考えるという事実を含め、多くのことを意味します。もちろん、代替の存在はその不在よりも優れているという事実は言うまでもありません Yandexがさらに改善され、Yandexの存在が大きく依存しているサイトに対してより責任を持つようにしたいだけです。 さらに、それはそれほど難しくないように思えます。



多くの読者がこのリストに追加するものを持っていると思います。 おそらく、Yandexが機能要求をディスカッションと投票で送信する機会を実現できたらいいと思いますが、それは誰にとっても良いことです。 それまでの間、これはコメントで行うことができます。



このリストから何かが聞かれ実装された場合は、事前にYandexに感謝します。



All Articles