パブリックWebインデックス(50億のWebページ)

Common Crawlは、情報の検索と処理の分野で働く開発者や企業に寛大な贈り物をしました。 Amazon S3のオープンインデックスには、メタデータ、PageRank、ハイパーリンクグラフを含む50億のWebページのインデックスがあります。



WebサーバーのログにCCBot / 1.0がある場合、これはクローラーです。 非営利組織Common Crawlは、情報の自由を意味し、すべての開発者またはスタートアップが利用できる公開検索インデックスを作成するという目標を設定しています。 これにより、革新的なWebサービスの銀河全体が作成されることになります。



Common Crawl検索クラスターはHadoopで実行され、データはHDFSファイルシステムに保存され、MapReduceツールを使用して処理が実行されます。その後、すべてのコンテンツがARCアーカイブ、100 MBファイル(合計データベースサイズ40〜50 TB)に圧縮されます。 ファイルは自分でダウンロードするか、同じMapReduceを使用してEC2で直接処理できます。 バケットへのアクセスは、Amazon Requester-Paysフラグでのみ可能です。つまり、登録済みのEC2ユーザーの場合のみです(Amazon Requester-Paysの詳細はこちら )。 外部ネットワークから40〜50 TBをダウンロードするには、現在のAmazon料金で約130ドルかかります。EC2内でMapReduceを使用すると無料です。



データはほとんど制限なしで利用できます 。データアクセスの手順 と利用規約をご覧ください。 ダウンロードしたデータを別の場所にアップロードしたり、アクセスを販売したり、違法な方法でデータを使用したりすることは禁止されています。



Common Crawl Foundationの責任者は、Google AdSenseのメインデベロッパーであり、スタートアップFactualのエグゼクティブディレクターであるGilad Elbaz(Gilad Elbaz)の狭いサークルで広く知られています。



All Articles