👩🏼‍🔬 🚴🏽 🎅🏻 背景：「インターネットアーカイブ」-作成履歴、ミッション、および補助プロジェクト ☸️ 🔵 👩🏾‍🚀

Habrには、インターネットページ、書籍、ビデオ、その他の種類の情報など、すべての人類にとって重要なデジタルデータを検索して保存するサービスである「インターネットアーカイブ」を聞いたことがないユーザーはおそらくいないでしょう。。

オンラインアーカイブが表示されたときに誰がオンラインアーカイブを実行し、その使命は何ですか？今日のヘルプでそれについて読んでください。

なぜ「アーカイブ」が必要なのですか？

これは単なる娯楽とはほど遠いものです。組織の使命は、すべての情報への普遍的なアクセスです。インターネットアーカイブは、電気通信会社（Google、Facebookなど）と州の両方からの情報提供の独占と戦うことを目指しています。

さらに、「アーカイブ」は法律を順守する組織です。米国の法律で情報を削除する必要がある場合、組織は削除します。

インターネットアーカイブは、個々のユーザーはもちろん、科学者、his報機関、歴史家（考古学者など）、および他の多くの分野の代表者のためのツールとしても機能します。

「インターネットアーカイブ」はいつ表示されましたか？

「アーカイブ」の作成者は、Alexa Internetを作成したAmerican Brewster Caleです。彼のサービスは両方とも非常に人気があり、現在は両方とも盛んです。

インターネットアーカイブは、1996年からWebサイトからの情報のアーカイブとWebページのコピーの保存を開始しました。この非営利組織の本部は、米国サンフランシスコにあります。

確かに、5年間、データはパブリックアクセスに使用できませんでした。データはアーカイブサーバーに保存されていました。それだけで、サービス管理者のみがサイトの古いコピーを表示できました。 2001年以降、サービスの管理者は、保存されたデータへのアクセスを全員に提供することを決定しました。

当初、「インターネットアーカイブ」はWebアーカイブのみでしたが、その後、組織は書籍、音声、動画、ソフトウェアを保存し始めました。現在、「インターネットアーカイブ」は、NASAの写真やその他の画像、オープンライブラリのテキストなどのリポジトリとして機能します。

組織は何のために存在しますか？

「アーカイブ」は、組織と個人の両方の自発的な寄付に存在します。ビットコイン、1Archive1n2C579dMsAu3iC6tWzuQJz8dNウォレットでサポートを提供できます。ちなみに、このウォレットは、その存在全体に対して357.47245492 BTCを受け取りました。これは、現在のレートで約225万ドルです。

アーカイブはどのように機能しますか？

ほとんどの従業員は本のスキャンセンターで雇用されており、日常的ではあるが面倒な作業を行っています。この組織には、米国カリフォルニア州に3つのデータセンターがあります。 1つはサンフランシスコ、2つ目はレッドウッドシティ、3つ目はリッチモンドです。自然災害やその他の災害が発生した場合のデータ損失の危険を回避するために、アーカイブにはエジプトとアムステルダムに予備の容量があります。

「何百万人もの人々が、私たちがインターネットの形で知っていることを他の人と共有するために多くの時間と努力を費やしてきました。この新しいパブリッシングプラットフォーム用のライブラリを作成したいと考えています。」と、インターネットアーカイブの創設者であるブリュースターカーレは言います。

現在のアーカイブの大きさは？

「インターネットアーカイブ」にはいくつかの部門があり、サイトから情報を収集する部門には独自の名前-Wayback Machineがあります。「リファレンス」を書いている時点で、アーカイブは3,390億の保存されたWebページを保持していました。 2017年、「アーカイブ」には30ペタバイトの情報が保存されました。これは、約3,000億のWebページ、1200万本、400万の音声録音、330万のビデオ、150万の写真、17万のソフトウェア配布です。わずか1年で、このサービスは顕著に「増加」しました。現在、「アーカイブ」には、3390億のWebページ、1900万本、450万のビデオファイル、470万のオーディオファイル、320万のさまざまな種類の画像、381千の分布が保存されていますソフトウェア。

データストレージはどのように構成されていますか？

情報は、いわゆる「データノード」のハードドライブに保存されます。これらはサーバーであり、各サーバーには36台のハードドライブ（およびオペレーティングシステムを搭載した2台のドライブ）が含まれています。データノードは10台のマシンの配列にグループ化され、クラスターリポジトリを表します。 2016年、「アーカイブ」は8テラバイトのHDDを使用しましたが、状況はほぼ同じです。 1つのノードが約288テラバイトのデータを保持していることがわかります。一般に、2 TB、3 TB、4 TBなど、他のサイズのハードドライブも使用されます。

2016年には、約20,000台のハードドライブがあり、アーカイブデータセンターには、一定の特性を持つ微気候を維持するための気候制御システムが装備されています。 10ノードの1つのクラスターストレージは、約5 kWのエネルギーを消費します。

インターネットアーカイブの構造は、書籍、映画、音楽などのセクションに分割された仮想の「ライブラリ」です。各要素には、カタログに入力された説明があります-通常、これは名前、著者の名前、追加情報です。技術的な観点から、要素は構造化され、Linuxディレクトリに存在します。

「アーカイブ」に保存されるデータの合計量は22 PBですが、現在はさらに22 PBの余地があります。「私たちは妄想的だから」とサービス担当者は言います。

ディレクトリの内容のスクリーンショットを見てください-「_files.xml」で終わる名前のファイルがあります。これは、ディレクトリ内のすべてのファイルに関する情報を含むディレクトリです。

1つまたは複数のサーバーに障害が発生した場合、データはどうなりますか？

ひどいことは何も起こりません- データが複製されます。新しい要素がアーカイブライブラリに表示されるとすぐに、すぐに複製され、異なるサーバーのさまざまなハードドライブに配置されます。コンテンツを「ミラーリング」するプロセスは、停電やファイルシステムのクラッシュなどの問題に対処するのに役立ちます。

ハードドライブが故障した場合、新しいものと交換されます。ミラーリングおよび再複製されたデータ構造のおかげで、初心者はすぐに故障した古いHDDにあったデータで満たされます。

「アーカイブ」には、HDDのステータスを監視する専用のシステムがあります。 6〜7台の故障したドライブは、毎日交換する必要があります。

ウェイバックマシンとは

これは、Webページの保存に特化した「インターネットアーカイブ」のサービスの1つにすぎません。このサービスには独自の「スパイダー」があり、ネットワーク上で利用可能なすべてのサイトを定期的に調べて、専用のサーバーに保存します。 Webサイトの人気が高いほど、ロボットがそのコンテンツをコピーする頻度が高くなります。リソース管理者がサイト情報をボットによってコピーしたくない場合は、robots.txtファイルに禁止を書き込むだけで十分です。

人気のあるリソースは頻繁にコピーされます-ほとんど毎日。 Wayback Machineは、Twitter、Facebookなどのソーシャルネットワークのインデックスも作成します

2017年に、アーカイブは更新されたWayback Machineサービスを開始し、保存されたWebページへのより便利なアクセスを約束しました。サービスはゼロから書かれていなければ、クールに再設計されました。今では、以前は単に保存されていなかった多くのファイル形式をサポートしています同じ2017年に、組織は毎週約10億のWebページがサーバーに保存されることを発表しました。

それが2007年のTwitterの姿です

「インターネットアーカイブ」のデータベースには他に何がありますか？

本。組織のコレクションは膨大で、デジタル化された書籍が含まれています。これは、一般的なエディションと非常にまれなエディションの両方です。書籍は英語だけでなく、他の多くの言語でも保存されます。アーカイブには、書籍をスキャンするための専門センターがあり、そのようなセンターは合計33あり、それらは世界5か国にあります。

センターのスタッフは、1日に約1,000冊の本をスキャンします。サービスデータベースには数百万の出版物が含まれており、それらのデジタル化に関する作業は、図書館や基金など、一般の人々とさまざまな組織の両方によって資金提供されています。

2007年以降、インターネットアーカイブは、Googleブック検索で公開されている書籍をデータベースに保持しています。発売後、書籍の基盤は急速に拡大しました。2013年には、Googleサービスから既に90万冊以上の書籍が保存されていました。

「アーカイブ」のサービスの1つは、完全に開かれている書籍へのアクセスも提供します。このサービスはオープンライブラリと呼ばれます。

映像このサービスには、450万本のビデオが保存されています。それらは主題ごとに分かれており、焦点が大きく異なります。映画、ドキュメンタリー、スポーツイベントの記録、テレビ番組、その他多くの資料は、アーカイブのサーバーに保存されます。

2015年、アーカイブは大規模プロジェクト- ビデオテープのデジタル化 -を生み出しました。最初は、数十年にわたってテープにニュースを記録した女性、マリオン・ストークスのアーカイブからの約4万本のテープでした。次に、他のビデオテープが追加されました。これは、人類にとって重要なデータをデジタル化するというアイデアのファンから「アーカイブ」に送られました。

音声ビデオと同様に、「アーカイブ」にはオーディオファイルも保存されます。これも件名ごとに分割されています。昨年、アーカイブは新しいプロジェクトの実現に着手しました-最も古いオーディオ録音フォーマットであるシェラックレコードのデコード。音は、女性の虫が分泌する天然樹脂であるシェラック板に保存されました。合計で、 Great 78 Projectアーカイブには数十万件のレコードがあります。

ソフトウェア。もちろん、アーカイブであっても、人類が作成したすべてのソフトウェアを保存することは不可能です。サーバーには、たとえばMacintoshプログラム、DOSソフトウェア、その他のソフトウェアなど、ヴィンテージが保存されています。 2016年には、アーカイブの従業員がWindows 3.1用の1,500以上のプログラムを投稿しました。ブラウザで直接作業できます。 2017年、Internet Archive は最初のMacintosh用のソフトウェアアーカイブをリリースしました。

ゲームはい、アーカイブは膨大な数のゲームへのアクセスを提供します。それらのいくつかは、ブラウザーエミュレーターの環境で再生できます。ゲームは、ポータブルアナログ-デジタルコンソールなどを含め、非常に異なって保存されます。 MS-DOS 用のゲームと、AtariおよびColecoVision用のコンソールゲームがあります。

この組織は、2013年に古いゲームのアーカイブを最初に投稿しました。ブラウザで直接再生できる30〜40年前のタイトルについて話しています。これらは、Atari 2600コンソール（1977）、Atari 7800（1986）、ColecoVision（1982）、Philips Videopac G7000（1978）、およびAstrocade（1983）用のゲームです。最も興味深いのは、インターネットアーカイブによって合法的にプレイできるようになったことです。現在、このコレクションには3400以上のゲームがあり、補充を続けています。

背景：「インターネットアーカイブ」-作成履歴、ミッション、および補助プロジェクト