SEOリーダーが知っているように、このようなコンテンツの重複は、サイトのランキングに悪影響を与える可能性があります。 他の人のサイトのインデックスを最初に再作成できるため、検索結果に関連する唯一のサイトになります。
闘争の最初の効果的な方法は、コンテンツを盗むサイトのping IPを見てブロックすることです。これは初めてのことです。 しかし、時には泥棒を識別するのに十分な時間がなかったため、一部のサイトではプロキシサーバーの使用を追加し始めました。
実際のプログラマーとして、私は自動化されたソリューションを探し始め、すぐにそれを見つけました。 Webサーバーとインターネット上のユーザーのコンピューターの最も重要な違いの1つは、サーバーにHTTP / SMTP / POPサーバーによって提供される開いたポートがあることを思い出してください。 つまり ポートを外部に開いた状態でIPからコンテンツをコピーすることを許可しない場合、これは大きな障害になります。
灰色の個人とそのサイトの公開を開始するには、このPHPコードで十分でした。
//$ip – $_SERVER["REMOTE_ADDR"] $_SERVER["HTTP_X_FORWARDED_FOR"]
$fp = @fsockopen($ip, 80, $errno, $errstr, 1);
if( $fp !== FALSE )
{
// , IP HTTP- ..
}
ユーザーが通常のプロキシを経由する場合、HTTP_X_FORWARDED_FORフィールドが設定されることに注意してください。 ただし、このフィールドは偽物である可能性があるため、HTTP_X_FORWARDED_FORおよびREMOTE_ADDRで指定されているIPを確認する必要があります。
各訪問者のセッションは掲示板に設定されているため、一意のIPごとに2回目のヒットでのみチェックが実行されました。
1日間のスクリプトのテスト実行で高い効率が示されました。4つの強盗サイトが特定され、無力化されました。 80mのオープンポートでIPをキャッチ-2000以上! したがって、IPの分析には、nic.ruと別のスクリプトによって提供されたWHOISサービスを使用しました。 まあ、彼らは自動スキャナーに対する保護を持っていません、それは良いです;)
これで、禁止リストに登録されている全員に、「この広告はxxxxから違法にコピーされました。これは著作権および関連する権利の侵害です。 コンテンツを盗むサイトを使用しないでください。 そのようなサイトは、隠された悪意のあるプログラムを広めるために使用される可能性があり、あなたに関する機密情報を収集する可能性もあります。
ただし、ポートが外部に開いているすべてのIPをブロックするだけではいけません。 プロキシサービスの統計情報がポート80で開かれているホームネットワークがあります(はい、各ゲストごとに!)。このオーディエンスのお気に入りのサイトのリストとヒット数/ Mbのリスト、および誰がどれだけプルしたかがわかります...
追加情報:
- プロキシサーバーを介したウォークを分析するには、ポート8080、1080、3126を分析する必要があります。
- 重複を検索します(私はプレミアムな個人的な意見を持っています-サービスはしばしば間違っています) -http://www.copyscape.com/
スレッドであなたのアイデアやコメントをお願いします!