👨🏾‍🤝‍👨🏼 👰🏾 🤹🏾 GoogleがPDFのインデックス作成のためにOCRエンジンをフック 👩🏽‍🤝‍👩🏼 🤲🏾 👊🏻

Googleは、いわゆるInvisible Networkのインデックス作成に向けて重要な一歩を踏み出しました。これは、まだ検索エンジンロボットを受け入れられないネットワークコンテンツの大部分を占めています。これらは主に、パスワードで保護されたサイトとさまざまなデータベース、およびPDF形式のスキャンされたドキュメントの膨大な配列です。

Googleと他の多くの検索エンジンは、テキストレイヤー（ファイルコンテナーに標準のテキスト形式で保存されている）がある場合、問題なくPDFのインデックスを作成します。しかし実際には、そのような「正しい」PDFがかなりあります。さらに多くのドキュメントは、通常のスキャンされたグラフィック形式のコピーで、PDFに保存されています。そのため、GoogleはOCRエンジンにインデックスを付けてインデックスを作成しました。これまでにアクセスできなかった数百万の州のレポート、裁判所の判決、学術研究がインデックスに含まれます。新しいエンジンの例を次に示します。

4月に、Googleはさまざまなデータベースインターフェイスでドロップダウンメニューやその他のHTMLフォームを処理することを学んだことを思い出してください。これは、Invisible Networkのインデックス作成のための重要な技術でもあります。

GoogleがPDFのインデックス作成のためにOCRエンジンをフック

More articles: