GoogleがPDFのインデックス作成のためにOCRエンジンをフック

Googleは、いわゆるInvisible Networkのインデックス作成に向けて重要な一歩を踏み出しました。これは、まだ検索エンジンロボットを受け入れられないネットワークコンテンツの大部分を占めています。 これらは主に、パスワードで保護されたサイトとさまざまなデータベース、およびPDF形式のスキャンされたドキュメントの膨大な配列です。



Googleと他の多くの検索エンジンは、テキストレイヤー(ファイルコンテナーに標準のテキスト形式で保存されている)がある場合、問題なくPDFのインデックスを作成します。 しかし実際には、そのような「正しい」PDFがかなりあります。 さらに多くのドキュメントは、通常のスキャンされたグラフィック形式のコピーで、PDFに保存されています。 そのため、GoogleはOCRエンジンにインデックスを付けてインデックスを作成しました。 これまでにアクセスできなかった数百万の州のレポート、裁判所の判決、学術研究がインデックスに含まれます。 新しいエンジンの例を次に示します。



4月に、Googleはさまざまなデータベースインターフェイスでドロップダウンメニューやその他のHTMLフォームを処理することを学んだことを思い出してください。これは、Invisible Networkのインデックス作成のための重要な技術でもあります。



All Articles