壊れたリンク-いくつかの統計

今日、 ダルタニャンとインターネットのトピックを見たり、リンク切れの問題に取り組んだりして 、修士論文の執筆中に収集した統計情報を共有することにしました。



私の卒業証書では、タスクの1つは単一のリソースのリンク切れの問題を解決することでした。 問題の関連性を示すために、ウィキペディアのデータベースダンプをダウンロードし、プログラムによる記事内の70万の外部リンクの機能を確認しました。



リンクの20%が壊れていることが判明しました。







リサーチ





次の場合、リンクは壊れていると見なされました。

○DNSからドメインを削除します。

○HTTP接続の失敗。

○HTTP応答コード4xxまたは5xxの取得-基本的に、ページの削除(404)、アクセスの拒否(403)、サーバーエラー(500)。

○内部ページからホームページにリダイレクトします。

○無限HTTP 3xxリダイレクト。



また、ページコンテンツを別のページコンテンツに置き換え、PHP、ASPなどのプログラムエラーを監視しましたが、このデータは統計に含まれていませんでした。



データベースは2009年8月に取得されました。

その後、3つのチェックが行われました。

●2009年10月-リンクの20.7%が破損している

●2009年11月-22.4%

●2010年4月-23.8%



壊れたリンクの数の漸進的な増加に注意することができます。 同時に、以前に働いていなかった人のうち、仕事を回復したのはわずか4%でした。 つまり ほとんどの場合、失敗は不可逆的です。



次の図は、リンクの動作不能の理由に関する統計を示しています。





連邦教育ポータルwww.edu.ruの外部サイトへのリンクのカタログを同様に確認したところ、同様の状況が明らかになりました-リンクの24.5%は機能しません。



もちろん、そのような研究は深刻で科学的ではなく、結果はあまり正確ではありません。 おそらくチェックされているリンクは古いバージョンの記事に属していたため、これを追跡できませんでした。 しかし、リンク切れの問題が存在することは明らかです。 さらにいくつかの数字:



DomainToolsによると、たった1日で存在しなくなったサイトのドメイン名の数は約100,000であり、一般にその数は既存のサイトの数を3倍以上超えています(ゾーン.com、.org、.net、.info、.bizの場合)および.us)

Archive.orgは、Webページの平均寿命は44〜75日であると主張しています。



どうする



外部リンクをスムーズに機能させる必要がある場合は、次のいずれかの方法を使用できます。



1.定期的な自動テストおよび破損したリンクの非表示/削除。

このアプローチは、リンクのパフォーマンスが重要でない場合、またはサイト全体へのリンクを提供する必要がある場合に適用できます。 この原則を実装する既製のプログラムがあります:PHP Spider、ht:// Check、VEinSなど。



2.サーバーにリソースのコピーを保存し、リンクを発行します。

この方法は、ユーザーに無制限の時間リソースへのアクセスを提供することが重要な場合、最初よりも望ましい方法です。 また、ページコンテンツを別のコンテンツに置き換える可能性も排除します。 これにより、保存されたコピーに対する著作権の遵守の問題が生じます。

この方法は、特定のページ/ドキュメントへのリンクにより適しています。 サイト全体のコピーを保持することは十分に困難です。

この原則を使用したサービスの例はPeeep.usです。 また、1996年以来、 インターネットアーカイブ電子ライブラリのWayback Machineサービスが稼働しており、 インターネット上の公開されているWebページのコピーを定期的に収集しています。



3.方法1と2の組み合わせは、元のリソースへのリンクを提供することであり、作業能力の損失または変更の場合には、保存されたコピーへのリンクを提供することです。



4. URNPURL-それらが実際にどのように使用できるかはあまり明確ではありません。



All Articles