👩🏻‍🎨 🐬 🐩 オンラインストレージから失われた記事を取得する 🥨 🤵🏼 🧑🏿

解決策は、（今のところ）1つのサイト（私たちがいるサイト）に対してのみ考慮されます。このアイデアは、記事の代わりに「パブリケーションへのアクセスが閉じられている」と表示された場合、あるユーザーがページをGoogleのキャッシュにリダイレクトするユーザースクリプトを作成したという事実の結果として生まれました。このソリューションが部分的にしか機能しないことは明らかですが、完全なソリューションはまだ存在していません。複数のサービスから結果を選択することにより、コピーを見つける可能性を高めることができます。 HabrAjaxスクリプトは、これを実行し始めました（他の30個の関数と一緒に）。現在（バージョン0.859から）、ユーザーが半分空のページを表示し、そこからメインページ、作成者の個人ページ（運が良ければ）に戻ることができる場合、ユーザースクリプトは、損失を見つけるためのいくつかの代替リンクを提供します。 1つのサイトの高品質なアーカイブで単一のサービスが強化されるわけではないため、ここから楽しみが始まります。

ところで、記事と研究は興味深い世論調査によって生み出されたものであり、「出版物へのアクセスが閉鎖されている」という不満はあなたを困らせますか？およびdotneterユーザースクリプト-habrahabr.ru/post/146070/#comment_4914947によるコメント。

もちろん、より高品質のサービスが必要です。したがって、現在の控えめな機能（Googleキャッシュおよびいくつかのコピーサイトで見つかる可能性）の説明に加えて、記事でクラウドソーシングの問題を提起します。さらに、このソリューションは、コンテンツコピーサービスを利用しているユーザーに近いようです。しかし、すべてを順番に話しましょう。現在提案されているすべてのソリューションを検討してください。

Googleキャッシュ

Yandexのキャッシュとは異なり、リンクを介して直接アクセスできるため、ユーザーに「[コピー]ボタンをクリックして」と尋ねる必要はありません。ただし、よく知られているarchive.orgのようなすべてのキャッシュには、多くの不要な機能があります。

1）表示されるリンクを即座に繰り返しコピーする時間がない。人気のあるサイトに頻繁にアクセスし、2時間以上は新しいページをキャッシュするという事実に敬意を表します。期限内にそれぞれ。

2）さらに、「アクセスは閉じられています」と言って、空白のページを少し後でキャッシュできるとんでもない機能があります。

3）したがって、キャッシュの結果は非常に幸運です。本当に必要な場合は、このようなキャッシュリンクをすべてバイパスできますが、すぐに消えるか、空白ページの「より関連性のある」意味のないコピーに置き換えられる可能性があるため、そこから情報をコピーする必要があります。

キャッシュarchive.org

それは検索エンジンの能力よりも少ない能力でインターネット全体で動作するので、遠くのロシア語サイトのページにアクセスすることはめったにありません。頻度はここで見ることができます： wayback.archive.org/web/20120801000000*/http : //habrahabr.ru

また、このサイトの目的は、各サイトのすべてのイベントではなく、Webの履歴の断片をキャプチャすることです。したがって、有用な情報が得られることはほとんどありません。

Yandexキャッシュ

直接リンクはないので、（最も簡単な）ユーザーに検索ページの「コピー」リンクをクリックするように依頼する必要があります。このページでは、この記事だけが表示されます（Yandexに表示する時間があった場合）。

経験によれば、記事が数時間ハングし、作成者によって閉じられた記事は、検索エンジンのキャッシュに正常に保存されます。その後、ほとんどの場合、すぐに空のものに置き換えられます。もちろん、これらすべては、当然のことながら、Webユーザーに適したものではありません。Webユーザーは、当然のことながら、取得した情報を保存する必要があります。

Yahooパイプ

pipes.yahoo.com/pipes/search?q=habrahabr+full&x=0&y=0など。

かなり興味深いソリューション。それらの設定方法を知っている人は、RSSのアーカイブの問題を完全に解決できるかもしれません。既存のものから、その番号で記事を検索するパイプが見つからなかったため、そのような保存された記事全体への直接リンクはありません。（彼と一緒に仕事をする方法を知っている人-スクリプトのそのようなリンクを作成してください。）

多数のクローン

それらはすべて、記事へのリンクをその番号で提供せず、記事の全文を提供せず、一部は一般に「強化」または「怠け者」に限定されるという事実に苦しんでいます。いつも。ただし、少なくとも1人のコピーライター作成者がエンジンを微調整して、完全かつ最新のコンテンツを保持する場合、彼は貴重なサービスをインターネットに提供し、そのサービスがHabrAjaxスクリプトの主要な位置を占めます。

生きているうちに、私はこれまでに4を見つけました。長い間存在していた（itgator）のいくつかは現在動作していません。一般に、これまでのところほとんど役に立たないのは、ユーザーが閉じたページにアクセスしたアドレスではなく、名前またはキーワードで記事を検索するように強制するためです（単語によると、1つのサイトだけでなくYandexを完全に検索します）。いくつかの有用な情報については、スクリプトにリストされています。

挑戦する

コミュニティは、サイトのオーガナイザーを煩わせることなく、情報を失わない品質のリソースに製品を提供するというタスクに直面しています。そのためには、調査へのコメントに正しく記載されているように、 関連する本格的な記事のアーカイバが必要です（同時にそれらへのコメントも必要です）。

現在、上記の不完全なソリューションは次のようになっています。

Yandexで検索すると、選択したアドレスには単一のリンクが表示されます（または何も表示されません）。

「コピー」リンクをクリックすると、保存されたコピーが表示されます（運がよければ）（現在の例でのみページが選択されています）：

Googleでは、少し簡単です。幸運にもすぐにコピーを取得できます。Googleは、不足しているページを取得せずに、必要なものを正確に保存できました。

この場合、スクリプトが「代替サービスの選択」を提供するのは面白いことです（「予防作業」）。

サービスとコピーリスト（または少なくともプロジェクト）の追加に関する提案を待っています（許可されていないユーザー向け-有名なGoogleリソースのspmbt0メールに、便利な形式を選択します）。

UPD 23:00：経験的にmail.ruの場合、キャッシュへの直接リンクの構造が判明しました。

'http://hl.mailru.su/gcached?q=cache:'+ window.location

目利きやインサイダー、リンクの種類、安定性（たとえば、第3レベルのドメインは変更されません）、プレフィックス "g" -cachedの意味を教えてください。これはGoogleのキャッシュを意味しますか、それともGogoエンジンのキャッシュですか？例。

スクリプト更新（habrAjax）（0.861）に電子メールおよびVKリンクを追加しました。現在、さらに2行あります。

オンラインストレージから失われた記事を取得する