教授は最近、インターネット上で入手可能な科学論文の数を推定する、この種の研究の最初のものを発表しました。 パブリックWeb上の学術文書の数は 、PLoS ONEの5月号に掲載され、Natureで引用されています。
この作業では、2つの最も大きな専門検索エンジンであるGoogle ScholarとMicrosoft Academic Searchの重複を考慮して、英語のドキュメントのみを考慮します。 科学文書とは、ジャーナルでの出版物、会議からの報告書、学位論文および学位論文、書籍、技術報告書、作業文書(科学論文の予備版)です。
統計的手法により、少なくとも1億1400万件の英語の科学文書がインターネットを通じて入手可能であり、そのうち約1億件がGoogle Scholarを通じて入手可能であり、少なくとも2700万件(24%)が公開されています。
![](https://habrastorage.org/files/051/f09/de2/051f09de2a354b808d96a8a8aa6da833.png)
著者らは、生態学で動物の個体数の大きさを推定するために通常使用される二重被覆法を彼らの研究で採用しました。 そこで彼は、タグを付けて野生に放した一定数の動物を捕まえることを提案しています。 その後、同じエリアで再釣りが行われます。 科学者は、2番目のサンプルの鳴き声の動物の割合を推定し、単純な式を使用して総人口サイズのおおよその推定を行います。
ジャイルズの研究は、開発者としての彼にとって実用的な意味を持っています。 1997年に彼と彼の同僚は、主にコンピューターサイエンスの分野からの科学文書用のオープンな検索エンジンCiteSeerをリリースしました。 同時に、検索エンジンはドキュメント内の引用とリンクを考慮して、ランキングを考慮したインデックスを作成しました。 これは、Google ScholarやMicrosoft Academic Searchなどのツールの先駆けとなる最初の自動引用索引システムであると考えられています。
2008年には、CiteSeerXの新しいバージョンがリリースされました。このバージョンでは、物理学、経済学、医学、その他の科学産業に主題が拡大されました。 ジャイルズは、各業界でドキュメントのインデックスを作成するために必要なインフラストラクチャを評価しようとしています。
![](https://habrastorage.org/files/2a3/514/601/2a3514601ddf4fd696daedd20645eada.png)
ジャイルズは、すべての文書の24%がGoogle Scholarを介して文書への直接リンクの形でWebで自由に利用できることを強調しています(コンピューターサイエンスでは、自由に利用可能な文書の割合は50%です)。 教授はまた、パブリックドメインのドキュメントはより頻繁に引用され、より重要であると指摘しています。
![](https://habrastorage.org/files/361/11f/722/36111f722eeb41d6a8a89c5b2d4cde9e.png)