コンテンツ泥棒の保護

多くのユニークな情報を含むサイトを作成し、検索エンジンからのトラフィックで稼ぎ始めると、誰かがサイト全体をダウンロードして訪問者の半分を奪うのは非常に迷惑です。 したがって、前述の問題との戦いの一環として、私はシンプルだが効果的な防御策を開発しました。







保護の意味は、疑わしいIPからの要求の要約が管理者に送信され、管理者は人間の目で見て、それがロボットであるか人であるかを判断し、その後、ブロックするか、その逆でこのIPからの要求を解決することです。



IPアドレスの不審性は、一定期間内の要求の数によって決まります。



要約は、Webサーバーのログからgrepによって取得され、管理者にWHOIS情報がすぐに送られ、アドレスの禁止/許可にリンクされます。



しばらくして、管理者は訓練された目を開発し、ロボットと人をすぐに区別します。そのような手紙の処理には数秒かかります。



ロボットと人の間にはいくつかの明らかな違いがあり、それらはログですぐにわかります。

1.人はページからすべての写真、スクリプト、およびスクリプトをダウンロードします;ロボットは多くの場合HTMLのみです。

2.人は異なるページを読むのに異なる時間を費やします。ロボットはほとんどの場合、ページを1つずつすばやく要求します。

3.サイトのページを人が通るのは論理的であり、ロボットはページ上のすべてのリンクを連続して通過するか、現在のページにないリンクを要求します。



そのため、泥棒を特定し、彼のアクセスをブロックしました。たとえば、数秒遅延して、ページではなくガベージパケットを送信します。 しかし、泥棒は愚か者ではなく、問題をすぐに理解し、ロッキングチェアに簡単なチェックを組み込み、ロックがオンになっている場合は、IPを変更します。



しかし、力は真実であり、真実は私たちと共にあるので、私は非常に陰湿なトリックを適用します。これについては次に説明します、そして泥棒は苦い失望、resみ、失望に終わります。



All Articles